[AI Paper] Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

2026년 01월 25일 6 Min Read

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

📌 1단계: 기본 정보

항목	내용
제목	Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
저자	Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran, Preetha Chatterjee
arXiv ID	2601.15195v1
발행일	2026-01-21
학회/저널	MSR 2026 (International Mining Software Repositories Conference)
분야	Software Engineering (cs.SE), Artificial Intelligence (cs.AI)
라이선스	CC BY 4.0
arXiv 링크	https://arxiv.org/abs/2601.15195v1
PDF 링크	https://arxiv.org/pdf/2601.15195v1.pdf

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

[!note] 핵심 배경
AI 코딩 에이전트가 단순한 보조 도구를 넘어 자율적인 기여자(autonomous contributor)로서 실제 소프트웨어 프로젝트에 Pull Request를 제출하고 있다.

현재 상황:
– AI 코딩 에이전트가 GitHub 저장소에 직접 PR을 생성하는 사례가 급증
– 이러한 “에이전트 기여(agentic contributions)”가 실제로 어떻게 동작하는지에 대한 이해 부족
– 많은 에이전트 PR이 머지되지 않는 이유에 대한 체계적 연구 부재

문제의식:
– 에이전트가 생성한 PR의 실패 패턴을 이해해야 향후 개선 방향 설정 가능
– 기술적 실패뿐 아니라 사회-기술적(socio-technical) 실패 요인도 존재할 가능성

2. 연구 목적 및 연구 질문

[!important] 연구 목적
33,000개 이상의 에이전트 생성 PR을 분석하여 머지 성공/실패 패턴을 정량적·정성적으로 규명

연구 질문 (Research Questions):

RQ	질문 내용	분석 방법
RQ1	머지된 PR과 머지되지 않은 PR은 어떤 특성 차이를 보이는가?	정량적 분석
RQ2	에이전트 PR이 머지되지 않는 구체적인 패턴은 무엇인가?	정성적 분석 (Taxonomy 개발)

RQ1의 4가지 분석 차원:
1. 태스크 유형별 머지 결과
2. 코드 변경 규모
3. CI/CD 빌드 결과
4. 리뷰 역학 (Review Dynamics)

3. 이론적 프레임워크

분석 프레임워크:

┌─────────────────────────────────────────────────────────────┐
│                    Agentic PR Analysis                      │
├─────────────────────────────────────────────────────────────┤
│  Level 1: Reviewer-Level    (리뷰어 수준 문제)              │
│  Level 2: Pull Request-Level (PR 수준 문제)                 │
│  Level 3: Code-Level         (코드 수준 문제)               │
│  Level 4: Agentic-Level      (에이전트 수준 문제)           │
└─────────────────────────────────────────────────────────────┘

4계층 분류 체계:
– Reviewer-Level: 리뷰어의 참여/비참여 문제
– PR-Level: PR 자체의 구조적 문제 (중복, 불필요한 기능 등)
– Code-Level: 코드 품질 및 CI/테스트 실패
– Agentic-Level: 에이전트 고유의 문제 (지시사항 미이행, 라이선스 위반)

4. 연구 방법론

4.1 데이터 수집

항목	내용
데이터셋	AIDev-pop 데이터셋 활용
수집 기준	GitHub 저장소 (100+ stars)
총 PR 수	33,596개
분석 에이전트	5개 코딩 에이전트

분석 대상 5개 AI 코딩 에이전트:

에이전트	PR 수	비율
OpenAI Codex	21,799	65%
Copilot	4,970	15%
Devin	4,827	14%
Cursor	1,541	5%
Claude Code	459	1%

4.2 정량적 분석 방법

[!tip] 통계적 접근
대규모 데이터셋에서 p-value의 한계를 인식하고 효과 크기(Effect Size) 중심 분석 채택

Cliff’s Delta (δ): 효과 크기 측정
Kernel Density Estimation: 분포 추정
Logistic Regression: 머지 확률 예측 모델

4.3 정성적 분석 방법

항목	내용
샘플 크기	600개 거부된 PR (층화 추출)
실제 분석	562개 (접근 가능한 PR)
신뢰도	Cohen’s Kappa = 0.91
방법	수동 코딩을 통한 Taxonomy 개발

5. 주요 결과

5.1 RQ1: 정량적 분석 결과

전체 머지율

총 PR: 33,596개
├── 머지됨: 24,014개 (71.48%)
└── 머지 안됨: 9,582개 (28.52%)

에이전트별 머지 성공률

에이전트	머지율	특징
OpenAI Codex	82.59%	가장 높은 성공률
Cursor	65.22%	중상위
Claude Code	59.04%	중위권
Devin	53.76%	중하위
Copilot	43.04%	가장 낮은 성공률

태스크 유형별 머지 성공률

태스크 유형	머지율	평가
Documentation	84%	최고
CI	79%	높음
Build	74%	양호
Fix (버그 수정)	64%	보통
Performance	55%	최저

[!warning] 핵심 발견
문서화, CI, 빌드 관련 태스크는 높은 성공률을 보이는 반면, 성능 최적화와 버그 수정 태스크는 낮은 성공률을 기록

코드 변경 특성 (Cliff’s Delta)

지표	효과 크기 (δ)	해석
코드 변경량	-0.17	미머지 PR이 17% 더 큰 변경
수정 파일 수	-0.10	미머지 PR이 10% 더 많은 파일 수정
CI 실패율	-0.24	미머지 PR이 24% 더 높은 CI 실패

로지스틱 회귀 분석 결과

머지 확률에 영향을 미치는 요인:
├── CI 실패 1건 추가 → 머지 확률 ~15% 감소
├── 변경 라인 1단위 증가 → 머지 확률 ~1% 감소
└── 수정 파일 1개 증가 → 머지 확률 ~1% 감소

5.2 RQ2: 거부 패턴 분류 (Taxonomy)

4계층 실패 분류 체계

실패 패턴 Taxonomy (N=562)
│
├── 1. Reviewer-Level Abandonment (38%, 228개)
│   └── 리뷰 없이 방치/종료
│
├── 2. Pull Request-Level Issues (31%, 188개)
│   ├── 중복 PR (Duplicate): 142개 (23%)
│   ├── 불필요한 기능 (Unwanted): 24개 (4%)
│   ├── 비기능적 (Non-functional): 13개 (2%)
│   ├── 잘못된 태스크 설명: 7개 (1%)
│   └── 잘못된 브랜치 제출: 2개 (<1%)
│
├── 3. Code-Level Failures (22%, 133개)
│   ├── CI/테스트 실패: 99개 (17%)
│   ├── 잘못된 구현: 19개 (3%)
│   └── 불완전한 구현: 15개 (2%)
│
└── 4. Agentic-Level Issues (2%, 13개)
    ├── 지시사항 미이행: 9개 (1%)
    └── 라이선스 위반: 4개 (<1%)

[!important] 핵심 인사이트
가장 큰 실패 원인은 “리뷰어 방치 (Abandoned/Not Reviewed)”로, 전체의 38%를 차지. 이는 에이전트 PR 실패가 순수 기술적 문제만이 아닌 사회-기술적 문제임을 시사.

실패 원인 시각화

┌────────────────────────────────────────────────────────────┐
│                    실패 원인 분포                          │
├────────────────────────────────────────────────────────────┤
│ Reviewer-Level  ████████████████████████████████████ 38%  │
│ PR-Level        ████████████████████████████ 31%          │
│ Code-Level      ██████████████████ 22%                    │
│ Agentic-Level   ██ 2%                                     │
└────────────────────────────────────────────────────────────┘

6. 논의 및 해석

6.1 주요 발견의 의미

[!note] 핵심 통찰
“Failures of agentic PRs can also be socio-technical rather than purely technical”
(에이전트 PR의 실패는 순수 기술적 문제가 아닌 사회-기술적 문제일 수 있다)

기술적 실패 요인:
– CI/CD 파이프라인과의 부정합
– 대규모 코드 변경으로 인한 통합 복잡성
– 테스트 실패 및 불완전한 구현

사회-기술적 실패 요인:
– 리뷰어의 무관심/방치 (가장 큰 원인)
– 개발자 기대와의 불일치 (불필요한 기능)
– 프로젝트 조정 부족 (중복 PR)

6.2 에이전트 개선을 위한 시사점

개선 영역	권장 사항
중복 방지	기존 작업 확인 메커니즘 강화
기여 규범	프로젝트별 contribution guideline 준수
변경 범위	태스크를 국소적 변경으로 분해
사전 검증	CI 파이프라인 사전 검증 후 제출
협업 인식	컨텍스트 인식 및 협업 감수성 설계

6.3 태스크 유형별 전략

높은 성공률 태스크 (적극 활용 권장)
├── Documentation (84%)
├── CI configuration (79%)
└── Build scripts (74%)

낮은 성공률 태스크 (신중한 접근 필요)
├── Bug fix (64%)
└── Performance optimization (55%)

7. 한계 및 제언

7.1 연구의 한계

한계	설명
데이터 범위	공개된 GitHub 데이터에 한정
일반화 한계	특정 5개 에이전트에 국한, 다른 에이전트로 일반화 제한
주관성	수동 분류(Taxonomy)의 주관성 가능성
시간적 한계	횡단면 분석으로, 시간에 따른 변화 미반영

7.2 향후 연구 방향

[!tip] Future Work
1. 에이전트의 컨텍스트 이해력 향상 연구
2. CI/CD 사전 검증 메커니즘 개발
3. 협업 인식(Collaboration-aware) 에이전트 설계
4. 종단 연구를 통한 에이전트 성능 변화 추적
5. 프라이빗 저장소 데이터 포함한 확장 연구

📌 3단계: 비판적 평가

방법론적 타당성

평가 항목	점수	평가 내용
데이터 규모	⭐⭐⭐⭐⭐	33,000+ PR로 대규모 실증 연구
통계 방법	⭐⭐⭐⭐⭐	p-value 대신 효과 크기 사용, 적절한 접근
신뢰도 검증	⭐⭐⭐⭐⭐	Cohen’s Kappa 0.91로 높은 평가자 간 신뢰도
표본 추출	⭐⭐⭐⭐	층화 추출로 에이전트별 대표성 확보
재현 가능성	⭐⭐⭐⭐	AIDev-pop 공개 데이터셋 활용

논리적 일관성

[!success] 강점
– 정량적(RQ1) + 정성적(RQ2) 분석의 균형 잡힌 혼합 방법론
– 4계층 분류 체계가 MECE(Mutually Exclusive, Collectively Exhaustive) 원칙 충족
– 기술적 요인과 사회-기술적 요인을 모두 포착

[!warning] 약점
– “Abandoned” 카테고리(38%)가 너무 포괄적일 수 있음
– 에이전트별 PR 수 불균형 (Codex 65% vs Claude Code 1%)

기여도 평가

학술적 기여:
– AI 코딩 에이전트 PR의 첫 대규모 실패 분석
– 4계층 실패 분류 체계(Taxonomy) 제안
– “사회-기술적 실패”라는 새로운 관점 제시

실무적 기여:
– 태스크 유형별 에이전트 활용 전략 제시
– CI/CD 사전 검증의 중요성 정량화
– 에이전트 개발 방향성 제안

실무 적용 포인트

[!example] 실무 적용 가이드

AI 코딩 에이전트 사용자 (개발자/팀):
1. 고성공률 태스크에 집중: 문서화, CI, 빌드 작업에 에이전트 우선 활용
2. 변경 범위 최소화: 대규모 변경보다 작은 단위로 분할
3. CI 사전 검증: 제출 전 로컬 CI 통과 확인
4. 중복 확인: 기존 PR/이슈와 중복 여부 사전 점검

AI 에이전트 개발자:
1. 컨텍스트 인식 강화: 프로젝트 규범, 기존 작업 이해
2. 협업 메커니즘: 리뷰어와의 상호작용 설계
3. 자기 검증: CI 실패 시 자동 수정 기능
4. 라이선스 검증: 코드 사용 전 라이선스 확인 자동화

핵심 수치 요약

지표	수치
총 분석 PR	33,596개
전체 머지율	71.48%
최고 성공 에이전트	OpenAI Codex (82.59%)
최저 성공 에이전트	Copilot (43.04%)
최고 성공 태스크	Documentation (84%)
최저 성공 태스크	Performance (55%)
최대 실패 원인	Reviewer Abandonment (38%)
CI 실패의 머지 감소 영향	건당 ~15%

References

Ehsani, R., Pathak, S., Rawal, S., Al Mujahid, A., Imran, M. M., & Chatterjee, P. (2026). Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub. MSR 2026. arXiv:2601.15195
arXiv HTML Version
arXiv PDF