[AI Paper] Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
📄 Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
📌 1단계: 기본 정보
논문 정보
- 제목 (Title): Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
- 저자 (Authors):
- Ramtin Ehsani (Drexel University)
- Sakshi Pathak (Drexel University)
- Shriya Rawal (Drexel University)
- Abdullah Al Mujahid (Missouri University of Science and Technology)
- Mia Mohammad Imran (Missouri University of Science and Technology)
- Preetha Chatterjee (Drexel University)
- 출판정보:
- arXiv ID: 2601.15195v1
- 발행일: 2026년 1월 21일
- 심사/수락: MSR 2026 (International Mining Software Repositories Conference) accepted
- DOI: https://doi.org/10.48550/arXiv.2601.15195
- 분야/카테고리:
- Software Engineering (cs.SE)
- Artificial Intelligence (cs.AI)
- 링크:
연구 데이터
- 분석 대상: 33,596개의 AI 에이전트 작성 PR
- 연구된 에이전트:
- OpenAI Codex: 21,799 PRs (64.9%)
- GitHub Copilot: 4,970 PRs (14.8%)
- Devin: 4,827 PRs (14.4%)
- Cursor: 1,541 PRs (4.6%)
- Claude Code: 459 PRs (1.4%)
- 정성 분석: 600개의 거부된 PR 수동 분석
- 범위: 100 stars 이상의 GitHub 저장소
📌 2단계: 연구 내용 (7개 영역)
1. 연구 배경 및 문제의식
배경
AI 코딩 에이전트(Coding Agents)는 단순한 보조 도구를 넘어 자율적인 기여자(Autonomous Contributors)로 진화하고 있습니다. GitHub Copilot, OpenAI Codex, Devin, Cursor, Claude Code 등이 실제 오픈소스 프로젝트에 PR을 제출하고 있으며, 이는 “Software Engineering 3.0” 또는 “AI Teammates” 시대의 시작을 알립니다.
문제의식
에이전트 작성 PR(Agentic PRs)이 급증하고 있지만, 실제 실무 환경에서 어떻게 동작하는지, 왜 많은 PR이 병합되지 않는지에 대한 이해가 부족합니다. 기존 연구는:
– 제한된 평가: 격리된 테스트 환경에서 에이전트 성능만 평가
– 실무 부재: CI/CD 검증, 코드 리뷰, 반복 수정 등 실제 개발 워크플로우 결합 미고려
– 실패 원인 불명: 왜 에이전트 PR이 거부되는지 체계적 조사 부족
연구의 필요성
[!important] 핵심 질문
“AI 코딩 에이전트가 실제 GitHub 환경에서 어디서 왜 실패하는가?”
2. 연구 목적 및 연구 질문
연구 목적
실제 GitHub 환경에서 제출된 AI 에이전트 작성 PR의 성공/실패 요인을 체계적으로 분석하고, 실패 패턴(Taxonomy)을 도출하여 향후 에이전트 워크플로우 개선에 기여합니다.
연구 질문 (RQs)
[!info] RQ1: 정량적 특성화
병합된 PR과 병합되지 않은 PR은 작업 유형, 코드 변경, CI 결과, 리뷰 상호작용 측면에서 어떻게 다른가?주요 분석 차원:
1. 작업 유형별 병합 결과 (Task Type & Merge Outcome)
2. 코드 변경 크기 (#LOC Changes, #File Changes)
3. CI 빌드 결과 (CI Build Results)
4. 리뷰 역학 (Review Dynamics: Comments, Revisions)[!info] RQ2: 정성적 패턴 분석
실제 소프트웨어 저장소에서 AI 에이전트 작성 PR이 병합되지 않는 패턴은 무엇인가?분석 방법: 600개의 거부된 PR 수동 코딩 → 거부 패턴 분류 체계(Taxonomy) 도출
3. 이론적 프레임워크
PR 수락影响因素 (Prior Work)
기존 문헌에서 PR 수락에 영향을 미치는 요인:
| 요인 | 설명 | 병합 확률 증가 |
|---|---|---|
| 테스트/CI 통과 | 빌드, 린트, 검증 파이프라인 통과 | ✅ 높음 |
| 문제 범위 명확성 | 우선순위 높은, 잘 정의된 문제 | ✅ 높음 |
| 코드 변경 국소성 | 작고 집중적인 변경(Incremental) | ✅ 높음 |
| 기여자 평판 | 코어 개발자, 기존 기여 경험 | ✅ 높음 |
| 광범위한 변경 | 침습적 수정, 대규모 리팩터링 | ❌ 낮음 |
참고 문헌:
– Lenarduzzi et al. (2021): 코드 품질 vs PR 수락
– Soares et al. (2015): 코어 팀 개발자 PR 거부 요인
– Zhang et al. (2023): PR 결정 설명
– Zampetti et al. (2019): PR 리뷰와 CI 상호작용
AI 에이전트 평가 프레임워크
기존 연구는 다음 영역에서 에이전트를 평가했으나 실제 워크플로우 결합 미고려:
- 코드 생성 (Code Generation)
- Chen et al. (2021): Codex 평가
- Sajadi et al. (2025): 보안 고려 LLM 평가
- 테스팅 (Testing)
- Yang et al. (2024): 테스트 없는 오류 탐지
- Pangas et al. (2025): QA 테스트 계획 LLM 활용
- 자동 프로그램 수리 (APR)
- Jimenez et al. (2024): SWE-bench
- Ehsani et al. (2025): 계층적 지식 주입
- Nashid et al. (2025): 멀티-헝크 패치 특성화
- 리팩터링 (Refactoring)
- Horikawa et al. (2025): 에이전트 리팩터링 경험적 연구
- Shinn et al. (2023): Reflexion (Verbal Reinforcement Learning)
- 에이전트 추론/실행 (Reasoning & Execution)
- Ceka et al. (2025): 추적성(Traceability) 관점
- Majgaonkar et al. (2025): 성공/실패 궤적 이해
[!warning] 연구 격차 (Research Gap)
기존 연구는 격리된 테스트(Isolated Tasks)에서 에이전트를 평가했으나, 실제 워크플로우(Real Workflows):
– CI/CD 검증
– 코드 리뷰 피드백
– 반복적 수정(Iterative Revision)이 연구는 이 격차를 해소하고자 합니다.
4. 연구 방법론
데이터셋: AIDev-pop
- 출처: Li et al. (2025) “The Rise of AI Teammates in Software Engineering 3.0”
- 크기: 33,596개 PRs (5개 주요 코딩 에이전트)
- 기준: 100 stars 이상 GitHub 저장소
- 시기: 2024-2025년 (에이전트 활성화 시기)
RQ1: 정량적 분석 방법
분석 차원 (4개):
- 작업 유형별 병합 결과
- 11개 카테고리 (ConventionalCommits):
- Feature, Fix, Performance, Refactoring, Style
- Documentation, Test, Chore, Build, CI, Other
- 메트릭: 병합율(Merge Rate) = 병합된 PR / 전체 PR
- 11개 카테고리 (ConventionalCommits):
- 코드 변경 크기
- #LOC Changes: 추가/삭제 라인 수 합계
- #File Changes: 수정된 파일 수
- 목적: PR 복잡성, 리뷰 부하 지표
- CI 빌드 결과
- #Failed CI Checks: 실패한 체크런 수
- Overall Status: GitHub 보고한 최종 커밋 상태 (success/failure)
- 목적: 테스트 실패, 린트 위반, 파이프라인 실패 포착
- 리뷰 역학
- #Review Comments: PR 내 리뷰 코멘트 수
- #Review Revisions: 리뷰 사이클 동안 개발자 추가/삭제 총수
- 목적: 개발자 주의도, 반복 수준 측정
통계적 분석:
[!note] 대규모 데이터 통계 주의사항
33k+ 데이터셋에서 P-value는 의미 없음: 모든 비교가 통계적 유의미도 보일 수 있음해결책:
1. Cliff’s Delta (δ): 효과 크기(Effect Size) 측정
2. Kernel Density Estimates: 분포 모양 시각화 (log10 스케일)
3. Logistic Regression: PR 결과 예측 모델링
효과 크기(Cliff’s Delta) 해석:
– 0-0.147: 무시할 수 있는 (Negligible)
– 0.147-0.33: 작음 (Small)
– 0.33-0.474: 중간 (Medium)
– 0.474-1: 큼 (Large)
RQ2: 정성적 분석 방법
샘플링:
– 크기: 600개 거부된 PR (층화 추출)
– 층화 기준: 5개 에이전트 균형 분배
– 통계적 파워: 95% 신뢰도, ±5% 오차 범위 (Cochran, 1977)
코딩 프로세스 (Open Coding):
- 1단계: 초기 탐색 (100 PRs)
- 2명 연구자 독립 레이블링
- 반복 패턴 식별:
- Build failures
- License/Contribution policy violations
- Redundant/unwanted changes
- Logical/semantic errors
- 초기 계층적 분류 체계(Cohens’s kappa): 0.55 (중간)
- 2단계: 분류 체계 정교화
- 논의 통해 불일치 해소
- Agentic Level 추가
- 정교화된 분류 체계 적용 (Cohens’s kappa): 0.91 (강력)
- 3단계: 대규모 레이블링 (500 PRs)
- 주석자 각각 250개 PR 레이블링
- 최종 데이터셋: 600 PRs 수동 주석
거부 패턴 분류 체계(Taxonomy): 4단계 계층구조
| 레벨 | 카테고리 | 정의 |
|---|---|---|
| Reviewer Level | Abandoned/Not Reviewed | 의미 있는 인간 상호작용 없이 폐쇄 |
| PR Level | Duplicate, Unwanted Feature, Wrong Branch | 프로젝트 통합 부적합 |
| Code Level | CI/Test Failure, Incorrect Implementation, Incomplete | 구현 미흡/오류 |
| Agentic Level | Misalignment, License Issues | 에이전트 행동/거버넌스 위반 |
5. 주요 결과
RQ1 결과: 병합 vs 미병합 PR 정량적 차이
전체 병합률: 71.48% (24,014 / 33,596)
에이전트별 병합률:
| 에이전트 | PR 수 | 병합 수 | 병합률 | 순위 |
|---|---|---|---|---|
| OpenAI Codex | 21,799 | 18,004 | 82.59% | 1st |
| Cursor | 1,541 | 1,005 | 65.22% | 2nd |
| Claude Code | 459 | 271 | 59.04% | 3rd |
| Devin | 4,827 | 2,595 | 53.76% | 4th |
| GitHub Copilot | 4,970 | 2,139 | 43.04% | 5th |
[!important] 주요 관찰
– Codex: 볼륨 최대(64.9%) + 병합률 최고(82.6%) → 가장 성공적
– Copilot: 볼륨 중간(14.8%) + 병합률 최저(43.0%) → 가장 어려움
작업 유형별 병합률 (에이전트 평균):
| 작업 유형 | 평균 병합률 | 순위 | 가장 높은 에이전트 |
|---|---|---|---|
| Documentation | 84% | 1st | Codex: 92% |
| CI | 79% | 2nd | Cursor: 94% |
| Build | 74% | 3rd | Codex: 87%, Claude: 88% |
| Style | 68% | 4th | Devin: 68% |
| Refactoring | 68% | 5th | Codex: 80% |
| Test | 67% | 6th | Codex: 84% |
| Fix | 64% | 7th | Codex: 82% |
| Feature | 64% | 8th | Codex: 81% |
| Chore | 64% | 9th | Codex: 84% |
| Performance | 55% | 10th | Cursor: 46% |
[!success] 성공 패턴 (High Merge Rates)
– 문서화/유지보수 작업: Documentation, CI, Build
– 국소적 변경: Style, Refactoring, Test[!warning] 어려운 작업 (Low Merge Rates)
– 성능 최적화: Performance (55%)
– 버그 수정: Fix (64%)
– 기능 추가: Feature (64%)결론: 복잡성/주관성이 높은 작업일수록 병합율 낮음
코드 변경 크기 (Cliff’s Delta):
| 메트릭 | 미병합 vs 병합 효과 크기 | 해석 |
|---|---|---|
| #LOC Changes | δ = -0.17 (Small-to-Medium) | 미병합이 17% 더 큼 |
| #File Changes | δ = -0.10 (Small) | 미병합이 10% 더 많은 파일 수정 |
[!note] 분포 특징
– Log10 스케일: 변경은 수 단위로 다양
– 커널 밀도: 미병합 분포가 오른쪽으로 이동 (더 큰 변경)결론: 대규모, 광범위한 변경 → 병합 확률 감소
CI 빌드 결과:
| 메트릭 | 미병합 vs 병합 효과 크기 | 해석 |
|---|---|---|
| #Failed CI Checks | δ = -0.24 (Medium) | 미병합이 24% 더 많은 CI 실패 |
[!important] 로지스틱 회귀 결과
Odds Ratio (승산비):
– CI 실패 1회 증가 → 병합 확률 15% 감소 (Stat. Sig.)
– LOC 1단위 증가 → 병합 확률 1% 감소 (Stat. Sig.)
– 파일 수 1개 증가 → 병합 확률 0.11% 감소 (Stat. Sig.)미통계적 유의미:
– #Review Comments (p ~48%)
– #Review Revisions (p ~67%)[!warning] CI 패턴
– 병합된 PR: 0 부근 집중 (거의 모두 통과)
– 미병합된 PR: 긴 꼬리(Heavy Tail) → 다중 체크 실패 누적
리뷰 역학:
| 메트릭 | 미병합 vs 병합 효과 크기 | 해석 |
|---|---|---|
| #Review Comments | δ = -0.05 (Negligible) | 미병합이 5% 더 많은 코멘트 |
| #Review Revisions | δ = -0.03 (Negligible) | 미병합이 3% 더 많은 수정 |
[!note] 리뷰 패턴
– 밀도 곡선 넓어짐: 미병합 PR은 코멘트/수정 증가 시 분산 확대
– 해석: 미병합 PR은 반복적 논의 후 거부 (활성 리뷰 후 거부)
RQ2 결과: 거부 패턴 분류 (600 PRs 수동 분석)
데이터: 38 PRs 삭제/보관 불가 → 실제 분석 562 PRs
거부 패턴 빈도:
[!summary] 4단계 거부 패턴 택소노미
| 레벨 | 패턴 | 빈도 | 비율 | 상세 |
|---|---|---|---|---|
| Reviewer Level | Abandoned/Not Reviewed | 228 | 38% | 의미 있는 인간 상호작용 없음 |
| PR Level | Duplicate PR | 142 | 23% | 이미 구현된 변경 참조 |
| Unwanted Feature | 24 | 4% | 프로젝트 목표와 미부합 | |
| Non-Functional PR | 13 | 2% | 설정/스캐폴딩만 | |
| Wrong Task Description | 7 | 1% | 작업 오해 | |
| Wrong Branch | 2 | <1% | 잘못된 브랜치 | |
| Code Level | CI/Test Failure | 99 | 17% | 빌드/테스트 실패 |
| Incorrect Implementation | 19 | 3% | 기술적 오류 | |
| Incomplete Implementation | 15 | 2% | 불완전한 구현 | |
| Agentic Level | Misalignment | 9 | 1% | 리뷰어 지시 미준수 |
| License Issues | 4 | <1% | CLA/저작권 문제 |
상세 분석:
[!important] 1. Reviewer Abandonment (38%)
– 정의: 의미 있는 인간 리뷰어 상호작용 없이 폐쇄
– 원인: 장기 비활성, 자동 폐쇄
– 의미: 상당 비율의 에이전트 PR이 활성 리뷰 진입 전 실패예시:
– 봇만 작동 (인간 상호작용 없음)
– 수주간 무반응 후 자동 폐쇄[!important] 2. Duplicate PRs (23%)
– 정의: 이미 다른 PR에서 동일한 변경 구현
– 리뷰어 코멘트: “Superseded by PR #715 which consolidates all GFQL code changes into a single PR”
– 의미: 에이전트가 기존 작업 중복 생성해결 방향:
– 기존 PR/이슈 탐지 필요
– 작업 중복 방지 메커니즘[!warning] 3. Unwanted Features (4%)
– 정의: 프로젝트 목표와 미부합, 불필요/과도한 변경
– 리뷰어 코멘트:
– “Too old already superseded by more recent pushes”
– “This is a LOT to review, would really prefer smaller granular PRs”
– 의미: 에이전트가 프로젝트 요구사항 미이해교훈(Keppa Article):
– “작고 집중된 PR 선호”
– 단일 일관된 변경 제한[!important] 4. CI/Test Failures (17%)
– 정의: 제출된 변경으로 인한 빌드/테스트 실패
– 리뷰어 코멘트: “@copilot fix merge conflicts; if you cannot fix these then close the PR”
– 의미: 에이전트가 자체 파기손 파이프라인 위반해결 방향:
– PR 제출 전 CI 검증
– 자동화된 품질 검사[!warning] 5. Incorrect/Incomplete Implementation (5%)
– Incorrect (3%): 기술적 오류, 잘못된 문제 해결
– 리뷰어 코멘트: “The changes made to the billing.test.ts file are entirely wrong”
– Incomplete (2%): 필수 로직 미포함, 불충분한 작업
- 의미: 에이전트가 기술적 정확성/완성성 부족
[!danger] 6. Agentic Misalignment (1%)
– 정의: 리뷰어 명시적 지시 미준수, 요청사항 오해
– 리뷰어 코멘트:
– “Devin stop being a dumb*ss, if you claim you ‘deleted 200 lines’ then continue to”
– 의미: 반복적 피드백 후에도 에이전트가 지시 불이행특징: 리뷰어 좌절감 표현
[!note] 7. License Issues (<1%)
– 정의: 프로젝트 법적 요구사항 미준수
– 예시: Contributor License Agreement (CLA) 서명 필요
– 리뷰어 코멘트: “we ask that you sign our Contributor License Agreement before we can accept your contribution”
– 의미: 에이전트가 거버넌스/법적 제약 불충족
6. 논의 및 해석
핵심 통찰 (Key Insights)
[!success] 성공 요인 (Success Factors)
1. 국소적, 증분적 변경:
– Documentation, CI, Build 작업 → 병합율 높음
– 적은 파일/LOC 변경 → 병합 확률 증가
2. CI/CD 통과:
– CI 실패 1회당 병합 확률 15% 감소
– 대부분 병합된 PR: 0 실패
3. 명확한 작업 범위:
– Feature/Performance/Fix → 병합율 낮음
– 유지보수 작업 → 병합율 높음[!failure] 실패 원인 (Failure Mechanisms)
1. 사회-기술적 요인(Socio-Technical):
– 리뷰어 방기(38%): 인간 상호작용 없음
– 중복 작업(23%): 기존 작업 미탐지
– 의도 불일치(4%): 프로젝트 목표 미이해
2. 기술적 요인(Technical):
– CI 실패(17%): 자동화된 품질 검사 통과 실패
– 잘못된 구현(3%): 기술적 오류
– 불완전한 구현(2%): 작업 미완성
3. 에이전트 행동(Agentic):
– 지시 미준수(1%): 반복 피드백 무시
– 라이선스 위반(<1%): 법적 요구사항 미충족
메인테이너 피드백 패턴 (Maintainer Insights)
권장 사항(Recommended Practices):
- PR 규모:
- “작고 집중된 PR 선호”
- “단일 일관된 변경 제한”
- 대규모 리팩터링 + 무관련 편집 혼합 금지
- 작업 중복 방지:
- 기존 PR/이슈 확인
- 작업 전 공지/협의
- CI 준수:
- PR 제출 전 테스트
- 빌드 통과 확인
에이전트 vs 인간 PR 차이점 (Agent vs Human PRs)
| 요인 | 인간 PR | 에이전트 PR | 차이점 |
|---|---|---|---|
| 리뷰어 상호작용 | 적극적 참여 | 38% 방기 | 에이전트는 사회적 기술 부족 |
| 중복 작업 | 이슈 트래커 참조 | 23% 중복 | 컨텍스트 인식 부족 |
| CI 통과 | 개발자 책임감 높음 | 17% CI 실패 | 품질 보증 미흡 |
| 라이선스 | 자동화 체크 | <1% 위반 | 거버넌스 무지 |
[!warning] 핵심 문제
에이전트는 기술적 작업(코드 작성)은 할 수 있으나,
사회적 작업(협업, 조정, 거버넌스)은 미숙함
실무적 시사점 (Practical Implications)
에이전트 개발자(Agent Developers):
[!tip] 개선 방향
1. 컨텍스트 인식 강화:
– 기존 PR/이슈 탐지
– 프로젝트 기여 규범 학습
2. 작업 분해:
– 대규모 변경 → 국소적 PR로 분할
– 단일 일관된 변경 제한
3. 사전 검증:
– CI 파이프라인 대조 전 통과
– 자동화된 품질 검사
4. 사회적 기술:
– 리뷰어 상호작용 개선
– 피드백 반영 메커니즘
5. 거버넌스 준수:
– CLA/라이선스 자동화
– 프로젝트 정책 준수
프로젝트 유지관리자(Project Maintainers):
[!tip] 가이드라인
1. 에이전트 PR 정책:
– 명시적인 에이전트 가이드라인
– PR 템플릿 제공
2. 자동화된 검사:
– CI/CD 강화
– 라이선스 체커 자동화
3. 리뷰 우선순위:
– 에이전트 PR 별도 큐?
– 분류 라벨링
7. 한계 및 제언
연구 한계 (Limitations)
- 에이전트 표시 불확실성:
- 일부 PR이 에이전트 작성인지 식별 어려움
- AIDev-pop 데이터셋 의존
- 시기적 제약:
- 2024-2025년 데이터
- 에이전트 기술 급속 발전 → 결과 시의존성
- 프로젝트 편향:
- 100+ stars 저장소
- 대형 프로젝트/소형 프로젝트 차이 미반영
- 정성 분석 표본 크기:
- 600 PRs (±5% 오차 범위)
- 모든 거부 패턴 포함 불가
- 언어/도메인 편향:
- 영어 중심
- 특정 도메인(웹/오픈소스) 편향
향후 연구 방향 (Future Work)
- 시계열적 분석:
- 에이전트 성능 향상 추적
- 버전별 비교 (Codex GPT-3.5 vs GPT-4)
- 프로젝트 유형별 분석:
- 대형 vs 소형 저장소
- 도메인별 차이 (머신러닝, 웹, 시스템)
- 에이전트 행동 추적:
- 트레이스ability 분석
- 의사결정 프로세스 이해
- 인간-에이전트 협업 모델링:
- 최적 워크플로우 설계
- 협업 패턴 분류
- 자동화된 실패 탐지:
- CI 실패 예측
- 중복 작업 탐지
📌 3단계: 비판적 평가
방법론적 타당성 (Methodological Validity)
[!success] 강점 (Strengths)
1. 대규모 실증 연구:
– 33k+ PRs (실무 환경)
– 이론적 평가가 아닌 실제 데이터 기반
2. 혼합 방법론:
– 정량적(Cliff’s Delta, Logistic Regression)
– 정성적(Open Coding, Taxonomy)
– 다각도 분석
3. 효과 크기 중심:
– 대규모 데이터셋에서 P-value 무의미 인지
– Cliff’s Delta, Kernel Density 활용
4. 신뢰성 확보:
– Cohen’s Kappa: 0.91 (강력한 일치)
– 이중 레이블링, 논의 해소[!warning] 약점 (Weaknesses)
1. 표본 편향:
– 100+ stars 저장소만
– 소형 프로젝트/초보자 프로젝트 미반영
2. 정성 분석 표본 크기:
– 600 PRs → 562 PRs (38 삭제)
– 희귀 패턴(예: License Issues) 과소표현
3. 교란 변수 통제 미흡:
– 프로젝트 크기, 언어, 도메인 차이
– 에이전트 특성(모델 크기, 프롬프트) 미반영
논리적 일관성 (Logical Consistency)
[!success] 일관성 높음
1. RQ1 → RQ2 연결:
– 정량적 패턴(작업 유형, CI 실패) → 정성적 패턴(CI/Test Failure)
– 상호 보완적 발견
2. 기존 문헌과 정렬:
– PR 수락 요인(Zhang et al., 2023) → 에이전트 PR에 적용
– 이론적 기반 확장
3. 인과관계 명확:
– CI 실패 → 병합 확률 감소 (15%)
– 대규모 변경 → 병합 확률 감소 (1%)
– 인과적 해석 타당[!note] 논리적 격차 (Logical Gaps)
– 인과 기전 미상세화: 왜 Codex가 Copilot보다 병합율 높은지 설명 부족
– 에이전트 상호작용: 에이전트 간 중복 작업 가능성 미분석
기여도 평가 (Contribution Assessment)
[!success] 높은 기여도
1. 최초 대규모 실증 연구:
– 이전 연구: 격리된 테스트 환경
– 본 연구: 33k+ 실제 PRs 분석
– 연구 격차 해소
2. 계층적 거부 패턴 택소노미:
– 4단계 분류 체계(Reviewer, PR, Code, Agentic)
– 실패 원인 체계적 분류
– 향후 연구/설계 기반 제공
3. 사회-기술적 관점:
– 기술적 요인(CI, 구현) + 사회적 요인(방기, 중복)
– 에이전트-인간 협업 복잡성 강조
4. 실무적 시사점:
– 에이전트 개발자, 메인테이너 가이드라인
– 즉시 적용 가능한 제언[!info] 이론적 기여 (Theoretical Contribution)
– 에이전트 PR 특성화 첫 시도: 병합율, 작업 유형, 리뷰 역학 정량적 분석
– 실패 패턴 분류 체계: Reviewer → PR → Code → Agentic 4단계
실무 적용 포인트 (Practical Applications)
개발자/엔지니어:
[!tip] 에이전트 활용 시 고려사항
1. 작업 유형 선별:
– 추천: Documentation, CI, Build (84-79% 병합율)
– 주의: Performance, Fix (55-64% 병합율)
2. PR 규모 제한:
– 작고 집중된 PR 분리
– 단일 변경 제한
3. 사전 검증:
– CI 통과 확인
– 기존 PR 중복 확인코드 예시:
# 에이전트 PR 사전 검증 스크립트 # 1. CI 통과 확인 gh pr checks $PR_NUMBER # 2. 중복 PR 검색 gh pr list --search "关键词"
에이전트 개발자:
[!tip] 설계 개선 방향
1. 컨텍스트 인식:
python
# 기존 PR 탐지
existing_prs = get_open_prs(repo)
if is_duplicate(proposed_change, existing_prs):
return "이미 구현된 작업입니다"
2. 작업 분해:
– 대규모 리팩터링 → 국소적 PR로 분할
– 단일 작업 원칙
3. CI 검증:
– PR 제출 전 로컬 테스트
– CI 파이프라인 대조
4. 라이선스 체커:
– CLA 자동화
– 프로젝트 정책 준수
프로젝트 유지관리자:
[!tip] 거버넌스 강화
1. 에이전트 가이드라인:
markdown
# .github/AGENT_GUIDE.md
## AI Agent Contribution Guidelines
1. PR 크기: <100 files, <1000 LOC
2. 중복 확인: 이슈 트래커 참조
3. CI 필수: 모든 테스트 통과
4. CLA 필수: Contributor License Agreement
2. 자동화된 체커:
– 라이선스/CLA 자동 검증
– PR 템플릿 강제
3. 리뷰 우선순위:
– 에이전트 PR 별도 큐
– 리뷰어 할당 최적화
연구 확장 방향 (Research Extensions)
- 다국어/다문화 PR 분석:
- 비영어권 프로젝트
- 문화적 차이 영향
- 에이전트 모델 비교:
- GPT-4 vs Claude vs Open-source models
- 특성별 성능 분석
- 장기 추적 연구:
- 에이전트 PR 장기 영향
- 버그 도입/해결 균형
- 자동화된 실패 탐지:
- 머신러닝 기반 예측
- 사전 필터링 시스템
📖 References
논문 인용 (Paper Citation)
@article{ehsani2026where,
title={Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub},
author={Ehsani, Ramtin and Pathak, Sakshi and Rawal, Shriya and Al Mujahid, Abdullah and Imran, Mia Mohammad and Chatterjee, Preetha},
journal={arXiv preprint arXiv:2601.15195},
year={2026},
note={Accepted at MSR 2026},
doi={https://doi.org/10.48550/arXiv.2601.15195}
}
관련 문헌 (Related Literature)
PR 수락 연구:
– Lenarduzzi, D., et al. (2021). “Does code quality affect pull request acceptance? An empirical study”
– Soares, S. C., et al. (2015). “Rejection factors of pull requests filed by core team developers”
– Zhang, Y., et al. (2023). “Pull request decisions explained: an empirical overview”
AI 에이전트 평가:
– Chen, M., et al. (2021). “Evaluating large language models trained on code”
– Jimenez, J., et al. (2024). “SWE-bench: can language models resolve real-world github issues?”
– Horikawa, T., et al. (2025). “Agentic refactoring: an empirical study of ai coding agents”
– Ceka, I., et al. (2025). “Understanding software engineering agents through lens of traceability”
에이전트 행동:
– Majgaonkar, A., et al. (2025). “Understanding code agent behaviour: an empirical study of success and failure trajectories”
– Li, Z., et al. (2025). “The rise of ai teammates in software engineering (se) 3.0”
데이터셋 (Dataset)
- AIDev-pop: Li, Z., et al. (2025). GitHub Repository
복제 패키지 (Replication Package)
🏷️ Tags
#AIAgent #arXiv #DailyPaper #2026-01-25 #EmpiricalStudy #GitHubPR #PullRequest #MachineLearning #SoftwareEngineering #ResearchMethodology #QualitativeAnalysis #QuantitativeAnalysis
📌 요약 (Key Takeaways)
[!summary] 3문 요약
연구: 33k+ AI 에이전트 작성 GitHub PR 대규모 실증 분석핵심 발견:
1. 작업 유형 중요: Documentation(84%) > Performance(55%)
2. CI 통과 필수: 실패 1회당 병합 확률 15% 감소
3. 사회적 실패 dominant: 리뷰어 방기(38%), 중복(23%)시사점:
– 에이전트는 기술적 작업 능숙, 사회적 작업 미숙
– 향후 에이전트: 컨텍스트 인식, 작업 분해, CI 사전 검증 강화 필요[!tip] 핵심 교훈 (Keppa Article Lesson)
“작고 집중된 PR 선호, 단일 일관된 변경 제한, 대규모 수정 + 무관련 편집 혼합 금지”
- 작은 PR → 병합 확률 증가
- 큰 PR → 리뷰 부하 증가 → 거부 확률 증가
[!important] 실무적 적용
에이전트 활용 시:
1. Documentation/CI/Build 작업 우선 (높은 병합율)
2. PR 사전에 CI 통과 + 중복 확인
3. 대규모 작업 분할에이전트 개발 시:
1. 기존 PR/이슈 탐지
2. 컨텍스트 인식 강화
3. 거버넌스 준수(CLA, 라이선스)
작성 완료: 2026-01-26