[AI Paper] Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

By skycave

2026년 01월 26일 13 Min Read

📄 Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

📌 1단계: 기본 정보

논문 정보

제목 (Title): Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
저자 (Authors):
- Ramtin Ehsani (Drexel University)
- Sakshi Pathak (Drexel University)
- Shriya Rawal (Drexel University)
- Abdullah Al Mujahid (Missouri University of Science and Technology)
- Mia Mohammad Imran (Missouri University of Science and Technology)
- Preetha Chatterjee (Drexel University)
출판정보:
- arXiv ID: 2601.15195v1
- 발행일: 2026년 1월 21일
- 심사/수락: MSR 2026 (International Mining Software Repositories Conference) accepted
- DOI: https://doi.org/10.48550/arXiv.2601.15195
분야/카테고리:
- Software Engineering (cs.SE)
- Artificial Intelligence (cs.AI)
링크:

연구 데이터

분석 대상: 33,596개의 AI 에이전트 작성 PR
연구된 에이전트:
1. OpenAI Codex: 21,799 PRs (64.9%)
2. GitHub Copilot: 4,970 PRs (14.8%)
3. Devin: 4,827 PRs (14.4%)
4. Cursor: 1,541 PRs (4.6%)
5. Claude Code: 459 PRs (1.4%)
정성 분석: 600개의 거부된 PR 수동 분석
범위: 100 stars 이상의 GitHub 저장소

📌 2단계: 연구 내용 (7개 영역)

1. 연구 배경 및 문제의식

배경

AI 코딩 에이전트(Coding Agents)는 단순한 보조 도구를 넘어 자율적인 기여자(Autonomous Contributors)로 진화하고 있습니다. GitHub Copilot, OpenAI Codex, Devin, Cursor, Claude Code 등이 실제 오픈소스 프로젝트에 PR을 제출하고 있으며, 이는 “Software Engineering 3.0” 또는 “AI Teammates” 시대의 시작을 알립니다.

문제의식

에이전트 작성 PR(Agentic PRs)이 급증하고 있지만, 실제 실무 환경에서 어떻게 동작하는지, 왜 많은 PR이 병합되지 않는지에 대한 이해가 부족합니다. 기존 연구는:
– 제한된 평가: 격리된 테스트 환경에서 에이전트 성능만 평가
– 실무 부재: CI/CD 검증, 코드 리뷰, 반복 수정 등 실제 개발 워크플로우 결합 미고려
– 실패 원인 불명: 왜 에이전트 PR이 거부되는지 체계적 조사 부족

연구의 필요성

[!important] 핵심 질문
“AI 코딩 에이전트가 실제 GitHub 환경에서 어디서 왜 실패하는가?”

2. 연구 목적 및 연구 질문

연구 목적

실제 GitHub 환경에서 제출된 AI 에이전트 작성 PR의 성공/실패 요인을 체계적으로 분석하고, 실패 패턴(Taxonomy)을 도출하여 향후 에이전트 워크플로우 개선에 기여합니다.

연구 질문 (RQs)

[!info] RQ1: 정량적 특성화
병합된 PR과 병합되지 않은 PR은 작업 유형, 코드 변경, CI 결과, 리뷰 상호작용 측면에서 어떻게 다른가?

주요 분석 차원:
1. 작업 유형별 병합 결과 (Task Type & Merge Outcome)
2. 코드 변경 크기 (#LOC Changes, #File Changes)
3. CI 빌드 결과 (CI Build Results)
4. 리뷰 역학 (Review Dynamics: Comments, Revisions)

[!info] RQ2: 정성적 패턴 분석
실제 소프트웨어 저장소에서 AI 에이전트 작성 PR이 병합되지 않는 패턴은 무엇인가?

분석 방법: 600개의 거부된 PR 수동 코딩 → 거부 패턴 분류 체계(Taxonomy) 도출

3. 이론적 프레임워크

PR 수락影响因素 (Prior Work)

기존 문헌에서 PR 수락에 영향을 미치는 요인:

요인	설명	병합 확률 증가
테스트/CI 통과	빌드, 린트, 검증 파이프라인 통과	✅ 높음
문제 범위 명확성	우선순위 높은, 잘 정의된 문제	✅ 높음
코드 변경 국소성	작고 집중적인 변경(Incremental)	✅ 높음
기여자 평판	코어 개발자, 기존 기여 경험	✅ 높음
광범위한 변경	침습적 수정, 대규모 리팩터링	❌ 낮음

참고 문헌:
– Lenarduzzi et al. (2021): 코드 품질 vs PR 수락
– Soares et al. (2015): 코어 팀 개발자 PR 거부 요인
– Zhang et al. (2023): PR 결정 설명
– Zampetti et al. (2019): PR 리뷰와 CI 상호작용

AI 에이전트 평가 프레임워크

기존 연구는 다음 영역에서 에이전트를 평가했으나 실제 워크플로우 결합 미고려:

코드 생성 (Code Generation)
- Chen et al. (2021): Codex 평가
- Sajadi et al. (2025): 보안 고려 LLM 평가
테스팅 (Testing)
- Yang et al. (2024): 테스트 없는 오류 탐지
- Pangas et al. (2025): QA 테스트 계획 LLM 활용
자동 프로그램 수리 (APR)
- Jimenez et al. (2024): SWE-bench
- Ehsani et al. (2025): 계층적 지식 주입
- Nashid et al. (2025): 멀티-헝크 패치 특성화
리팩터링 (Refactoring)
- Horikawa et al. (2025): 에이전트 리팩터링 경험적 연구
- Shinn et al. (2023): Reflexion (Verbal Reinforcement Learning)
에이전트 추론/실행 (Reasoning & Execution)
- Ceka et al. (2025): 추적성(Traceability) 관점
- Majgaonkar et al. (2025): 성공/실패 궤적 이해

[!warning] 연구 격차 (Research Gap)
기존 연구는 격리된 테스트(Isolated Tasks)에서 에이전트를 평가했으나, 실제 워크플로우(Real Workflows):
– CI/CD 검증
– 코드 리뷰 피드백
– 반복적 수정(Iterative Revision)

이 연구는 이 격차를 해소하고자 합니다.

4. 연구 방법론

데이터셋: AIDev-pop

출처: Li et al. (2025) “The Rise of AI Teammates in Software Engineering 3.0”
크기: 33,596개 PRs (5개 주요 코딩 에이전트)
기준: 100 stars 이상 GitHub 저장소
시기: 2024-2025년 (에이전트 활성화 시기)

RQ1: 정량적 분석 방법

분석 차원 (4개):

작업 유형별 병합 결과
- 11개 카테고리 (ConventionalCommits):
  - Feature, Fix, Performance, Refactoring, Style
  - Documentation, Test, Chore, Build, CI, Other
- 메트릭: 병합율(Merge Rate) = 병합된 PR / 전체 PR
코드 변경 크기
- #LOC Changes: 추가/삭제 라인 수 합계
- #File Changes: 수정된 파일 수
- 목적: PR 복잡성, 리뷰 부하 지표
CI 빌드 결과
- #Failed CI Checks: 실패한 체크런 수
- Overall Status: GitHub 보고한 최종 커밋 상태 (success/failure)
- 목적: 테스트 실패, 린트 위반, 파이프라인 실패 포착
리뷰 역학
- #Review Comments: PR 내 리뷰 코멘트 수
- #Review Revisions: 리뷰 사이클 동안 개발자 추가/삭제 총수
- 목적: 개발자 주의도, 반복 수준 측정

통계적 분석:

[!note] 대규모 데이터 통계 주의사항
33k+ 데이터셋에서 P-value는 의미 없음: 모든 비교가 통계적 유의미도 보일 수 있음

해결책:
1. Cliff’s Delta (δ): 효과 크기(Effect Size) 측정
2. Kernel Density Estimates: 분포 모양 시각화 (log10 스케일)
3. Logistic Regression: PR 결과 예측 모델링

효과 크기(Cliff’s Delta) 해석:
– 0-0.147: 무시할 수 있는 (Negligible)
– 0.147-0.33: 작음 (Small)
– 0.33-0.474: 중간 (Medium)
– 0.474-1: 큼 (Large)

RQ2: 정성적 분석 방법

샘플링:
– 크기: 600개 거부된 PR (층화 추출)
– 층화 기준: 5개 에이전트 균형 분배
– 통계적 파워: 95% 신뢰도, ±5% 오차 범위 (Cochran, 1977)

코딩 프로세스 (Open Coding):

1단계: 초기 탐색 (100 PRs)
- 2명 연구자 독립 레이블링
- 반복 패턴 식별:
  - Build failures
  - License/Contribution policy violations
  - Redundant/unwanted changes
  - Logical/semantic errors
- 초기 계층적 분류 체계(Cohens’s kappa): 0.55 (중간)
2단계: 분류 체계 정교화
- 논의 통해 불일치 해소
- Agentic Level 추가
- 정교화된 분류 체계 적용 (Cohens’s kappa): 0.91 (강력)
3단계: 대규모 레이블링 (500 PRs)
- 주석자 각각 250개 PR 레이블링
- 최종 데이터셋: 600 PRs 수동 주석

거부 패턴 분류 체계(Taxonomy): 4단계 계층구조

레벨	카테고리	정의
Reviewer Level	Abandoned/Not Reviewed	의미 있는 인간 상호작용 없이 폐쇄
PR Level	Duplicate, Unwanted Feature, Wrong Branch	프로젝트 통합 부적합
Code Level	CI/Test Failure, Incorrect Implementation, Incomplete	구현 미흡/오류
Agentic Level	Misalignment, License Issues	에이전트 행동/거버넌스 위반

5. 주요 결과

RQ1 결과: 병합 vs 미병합 PR 정량적 차이

전체 병합률: 71.48% (24,014 / 33,596)

에이전트별 병합률:

에이전트	PR 수	병합 수	병합률	순위
OpenAI Codex	21,799	18,004	82.59%	1st
Cursor	1,541	1,005	65.22%	2nd
Claude Code	459	271	59.04%	3rd
Devin	4,827	2,595	53.76%	4th
GitHub Copilot	4,970	2,139	43.04%	5th

[!important] 주요 관찰
– Codex: 볼륨 최대(64.9%) + 병합률 최고(82.6%) → 가장 성공적
– Copilot: 볼륨 중간(14.8%) + 병합률 최저(43.0%) → 가장 어려움

작업 유형별 병합률 (에이전트 평균):

작업 유형	평균 병합률	순위	가장 높은 에이전트
Documentation	84%	1st	Codex: 92%
CI	79%	2nd	Cursor: 94%
Build	74%	3rd	Codex: 87%, Claude: 88%
Style	68%	4th	Devin: 68%
Refactoring	68%	5th	Codex: 80%
Test	67%	6th	Codex: 84%
Fix	64%	7th	Codex: 82%
Feature	64%	8th	Codex: 81%
Chore	64%	9th	Codex: 84%
Performance	55%	10th	Cursor: 46%

[!success] 성공 패턴 (High Merge Rates)
– 문서화/유지보수 작업: Documentation, CI, Build
– 국소적 변경: Style, Refactoring, Test

[!warning] 어려운 작업 (Low Merge Rates)
– 성능 최적화: Performance (55%)
– 버그 수정: Fix (64%)
– 기능 추가: Feature (64%)

결론: 복잡성/주관성이 높은 작업일수록 병합율 낮음

코드 변경 크기 (Cliff’s Delta):

메트릭	미병합 vs 병합 효과 크기	해석
#LOC Changes	δ = -0.17 (Small-to-Medium)	미병합이 17% 더 큼
#File Changes	δ = -0.10 (Small)	미병합이 10% 더 많은 파일 수정

[!note] 분포 특징
– Log10 스케일: 변경은 수 단위로 다양
– 커널 밀도: 미병합 분포가 오른쪽으로 이동 (더 큰 변경)

결론: 대규모, 광범위한 변경 → 병합 확률 감소

CI 빌드 결과:

메트릭	미병합 vs 병합 효과 크기	해석
#Failed CI Checks	δ = -0.24 (Medium)	미병합이 24% 더 많은 CI 실패

[!important] 로지스틱 회귀 결과
Odds Ratio (승산비):
– CI 실패 1회 증가 → 병합 확률 15% 감소 (Stat. Sig.)
– LOC 1단위 증가 → 병합 확률 1% 감소 (Stat. Sig.)
– 파일 수 1개 증가 → 병합 확률 0.11% 감소 (Stat. Sig.)

미통계적 유의미:
– #Review Comments (p ~48%)
– #Review Revisions (p ~67%)

[!warning] CI 패턴
– 병합된 PR: 0 부근 집중 (거의 모두 통과)
– 미병합된 PR: 긴 꼬리(Heavy Tail) → 다중 체크 실패 누적

리뷰 역학:

메트릭	미병합 vs 병합 효과 크기	해석
#Review Comments	δ = -0.05 (Negligible)	미병합이 5% 더 많은 코멘트
#Review Revisions	δ = -0.03 (Negligible)	미병합이 3% 더 많은 수정

[!note] 리뷰 패턴
– 밀도 곡선 넓어짐: 미병합 PR은 코멘트/수정 증가 시 분산 확대
– 해석: 미병합 PR은 반복적 논의 후 거부 (활성 리뷰 후 거부)

RQ2 결과: 거부 패턴 분류 (600 PRs 수동 분석)

데이터: 38 PRs 삭제/보관 불가 → 실제 분석 562 PRs

거부 패턴 빈도:

[!summary] 4단계 거부 패턴 택소노미

레벨	패턴	빈도	비율	상세
Reviewer Level	Abandoned/Not Reviewed	228	38%	의미 있는 인간 상호작용 없음
PR Level	Duplicate PR	142	23%	이미 구현된 변경 참조
	Unwanted Feature	24	4%	프로젝트 목표와 미부합
	Non-Functional PR	13	2%	설정/스캐폴딩만
	Wrong Task Description	7	1%	작업 오해
	Wrong Branch	2	<1%	잘못된 브랜치
Code Level	CI/Test Failure	99	17%	빌드/테스트 실패
	Incorrect Implementation	19	3%	기술적 오류
	Incomplete Implementation	15	2%	불완전한 구현
Agentic Level	Misalignment	9	1%	리뷰어 지시 미준수
	License Issues	4	<1%	CLA/저작권 문제

상세 분석:

[!important] 1. Reviewer Abandonment (38%)
– 정의: 의미 있는 인간 리뷰어 상호작용 없이 폐쇄
– 원인: 장기 비활성, 자동 폐쇄
– 의미: 상당 비율의 에이전트 PR이 활성 리뷰 진입 전 실패

예시:
– 봇만 작동 (인간 상호작용 없음)
– 수주간 무반응 후 자동 폐쇄

[!important] 2. Duplicate PRs (23%)
– 정의: 이미 다른 PR에서 동일한 변경 구현
– 리뷰어 코멘트: “Superseded by PR #715 which consolidates all GFQL code changes into a single PR”
– 의미: 에이전트가 기존 작업 중복 생성

해결 방향:
– 기존 PR/이슈 탐지 필요
– 작업 중복 방지 메커니즘

[!warning] 3. Unwanted Features (4%)
– 정의: 프로젝트 목표와 미부합, 불필요/과도한 변경
– 리뷰어 코멘트:
– “Too old already superseded by more recent pushes”
– “This is a LOT to review, would really prefer smaller granular PRs”
– 의미: 에이전트가 프로젝트 요구사항 미이해

교훈(Keppa Article):
– “작고 집중된 PR 선호”
– 단일 일관된 변경 제한

[!important] 4. CI/Test Failures (17%)
– 정의: 제출된 변경으로 인한 빌드/테스트 실패
– 리뷰어 코멘트: “@copilot fix merge conflicts; if you cannot fix these then close the PR”
– 의미: 에이전트가 자체 파기손 파이프라인 위반

해결 방향:
– PR 제출 전 CI 검증
– 자동화된 품질 검사

[!warning] 5. Incorrect/Incomplete Implementation (5%)
– Incorrect (3%): 기술적 오류, 잘못된 문제 해결
– 리뷰어 코멘트: “The changes made to the billing.test.ts file are entirely wrong”
– Incomplete (2%): 필수 로직 미포함, 불충분한 작업

의미: 에이전트가 기술적 정확성/완성성 부족

[!danger] 6. Agentic Misalignment (1%)
– 정의: 리뷰어 명시적 지시 미준수, 요청사항 오해
– 리뷰어 코멘트:
– “Devin stop being a dumb*ss, if you claim you ‘deleted 200 lines’ then continue to”
– 의미: 반복적 피드백 후에도 에이전트가 지시 불이행

특징: 리뷰어 좌절감 표현

[!note] 7. License Issues (<1%)
– 정의: 프로젝트 법적 요구사항 미준수
– 예시: Contributor License Agreement (CLA) 서명 필요
– 리뷰어 코멘트: “we ask that you sign our Contributor License Agreement before we can accept your contribution”
– 의미: 에이전트가 거버넌스/법적 제약 불충족

6. 논의 및 해석

핵심 통찰 (Key Insights)

[!success] 성공 요인 (Success Factors)
1. 국소적, 증분적 변경:
– Documentation, CI, Build 작업 → 병합율 높음
– 적은 파일/LOC 변경 → 병합 확률 증가
2. CI/CD 통과:
– CI 실패 1회당 병합 확률 15% 감소
– 대부분 병합된 PR: 0 실패
3. 명확한 작업 범위:
– Feature/Performance/Fix → 병합율 낮음
– 유지보수 작업 → 병합율 높음

[!failure] 실패 원인 (Failure Mechanisms)
1. 사회-기술적 요인(Socio-Technical):
– 리뷰어 방기(38%): 인간 상호작용 없음
– 중복 작업(23%): 기존 작업 미탐지
– 의도 불일치(4%): 프로젝트 목표 미이해
2. 기술적 요인(Technical):
– CI 실패(17%): 자동화된 품질 검사 통과 실패
– 잘못된 구현(3%): 기술적 오류
– 불완전한 구현(2%): 작업 미완성
3. 에이전트 행동(Agentic):
– 지시 미준수(1%): 반복 피드백 무시
– 라이선스 위반(<1%): 법적 요구사항 미충족

메인테이너 피드백 패턴 (Maintainer Insights)

권장 사항(Recommended Practices):

PR 규모:
- “작고 집중된 PR 선호”
- “단일 일관된 변경 제한”
- 대규모 리팩터링 + 무관련 편집 혼합 금지
작업 중복 방지:
- 기존 PR/이슈 확인
- 작업 전 공지/협의
CI 준수:
- PR 제출 전 테스트
- 빌드 통과 확인

에이전트 vs 인간 PR 차이점 (Agent vs Human PRs)

요인	인간 PR	에이전트 PR	차이점
리뷰어 상호작용	적극적 참여	38% 방기	에이전트는 사회적 기술 부족
중복 작업	이슈 트래커 참조	23% 중복	컨텍스트 인식 부족
CI 통과	개발자 책임감 높음	17% CI 실패	품질 보증 미흡
라이선스	자동화 체크	<1% 위반	거버넌스 무지

[!warning] 핵심 문제
에이전트는 기술적 작업(코드 작성)은 할 수 있으나,
사회적 작업(협업, 조정, 거버넌스)은 미숙함

실무적 시사점 (Practical Implications)

에이전트 개발자(Agent Developers):

[!tip] 개선 방향
1. 컨텍스트 인식 강화:
– 기존 PR/이슈 탐지
– 프로젝트 기여 규범 학습
2. 작업 분해:
– 대규모 변경 → 국소적 PR로 분할
– 단일 일관된 변경 제한
3. 사전 검증:
– CI 파이프라인 대조 전 통과
– 자동화된 품질 검사
4. 사회적 기술:
– 리뷰어 상호작용 개선
– 피드백 반영 메커니즘
5. 거버넌스 준수:
– CLA/라이선스 자동화
– 프로젝트 정책 준수

프로젝트 유지관리자(Project Maintainers):

[!tip] 가이드라인
1. 에이전트 PR 정책:
– 명시적인 에이전트 가이드라인
– PR 템플릿 제공
2. 자동화된 검사:
– CI/CD 강화
– 라이선스 체커 자동화
3. 리뷰 우선순위:
– 에이전트 PR 별도 큐?
– 분류 라벨링

7. 한계 및 제언

연구 한계 (Limitations)

에이전트 표시 불확실성:
- 일부 PR이 에이전트 작성인지 식별 어려움
- AIDev-pop 데이터셋 의존
시기적 제약:
- 2024-2025년 데이터
- 에이전트 기술 급속 발전 → 결과 시의존성
프로젝트 편향:
- 100+ stars 저장소
- 대형 프로젝트/소형 프로젝트 차이 미반영
정성 분석 표본 크기:
- 600 PRs (±5% 오차 범위)
- 모든 거부 패턴 포함 불가
언어/도메인 편향:
- 영어 중심
- 특정 도메인(웹/오픈소스) 편향

향후 연구 방향 (Future Work)

시계열적 분석:
- 에이전트 성능 향상 추적
- 버전별 비교 (Codex GPT-3.5 vs GPT-4)
프로젝트 유형별 분석:
- 대형 vs 소형 저장소
- 도메인별 차이 (머신러닝, 웹, 시스템)
에이전트 행동 추적:
- 트레이스ability 분석
- 의사결정 프로세스 이해
인간-에이전트 협업 모델링:
- 최적 워크플로우 설계
- 협업 패턴 분류
자동화된 실패 탐지:
- CI 실패 예측
- 중복 작업 탐지

📌 3단계: 비판적 평가

방법론적 타당성 (Methodological Validity)

[!success] 강점 (Strengths)
1. 대규모 실증 연구:
– 33k+ PRs (실무 환경)
– 이론적 평가가 아닌 실제 데이터 기반
2. 혼합 방법론:
– 정량적(Cliff’s Delta, Logistic Regression)
– 정성적(Open Coding, Taxonomy)
– 다각도 분석
3. 효과 크기 중심:
– 대규모 데이터셋에서 P-value 무의미 인지
– Cliff’s Delta, Kernel Density 활용
4. 신뢰성 확보:
– Cohen’s Kappa: 0.91 (강력한 일치)
– 이중 레이블링, 논의 해소

[!warning] 약점 (Weaknesses)
1. 표본 편향:
– 100+ stars 저장소만
– 소형 프로젝트/초보자 프로젝트 미반영
2. 정성 분석 표본 크기:
– 600 PRs → 562 PRs (38 삭제)
– 희귀 패턴(예: License Issues) 과소표현
3. 교란 변수 통제 미흡:
– 프로젝트 크기, 언어, 도메인 차이
– 에이전트 특성(모델 크기, 프롬프트) 미반영

논리적 일관성 (Logical Consistency)

[!success] 일관성 높음
1. RQ1 → RQ2 연결:
– 정량적 패턴(작업 유형, CI 실패) → 정성적 패턴(CI/Test Failure)
– 상호 보완적 발견
2. 기존 문헌과 정렬:
– PR 수락 요인(Zhang et al., 2023) → 에이전트 PR에 적용
– 이론적 기반 확장
3. 인과관계 명확:
– CI 실패 → 병합 확률 감소 (15%)
– 대규모 변경 → 병합 확률 감소 (1%)
– 인과적 해석 타당

[!note] 논리적 격차 (Logical Gaps)
– 인과 기전 미상세화: 왜 Codex가 Copilot보다 병합율 높은지 설명 부족
– 에이전트 상호작용: 에이전트 간 중복 작업 가능성 미분석

기여도 평가 (Contribution Assessment)

[!success] 높은 기여도
1. 최초 대규모 실증 연구:
– 이전 연구: 격리된 테스트 환경
– 본 연구: 33k+ 실제 PRs 분석
– 연구 격차 해소
2. 계층적 거부 패턴 택소노미:
– 4단계 분류 체계(Reviewer, PR, Code, Agentic)
– 실패 원인 체계적 분류
– 향후 연구/설계 기반 제공
3. 사회-기술적 관점:
– 기술적 요인(CI, 구현) + 사회적 요인(방기, 중복)
– 에이전트-인간 협업 복잡성 강조
4. 실무적 시사점:
– 에이전트 개발자, 메인테이너 가이드라인
– 즉시 적용 가능한 제언

[!info] 이론적 기여 (Theoretical Contribution)
– 에이전트 PR 특성화 첫 시도: 병합율, 작업 유형, 리뷰 역학 정량적 분석
– 실패 패턴 분류 체계: Reviewer → PR → Code → Agentic 4단계

실무 적용 포인트 (Practical Applications)

개발자/엔지니어:

[!tip] 에이전트 활용 시 고려사항
1. 작업 유형 선별:
– 추천: Documentation, CI, Build (84-79% 병합율)
– 주의: Performance, Fix (55-64% 병합율)
2. PR 규모 제한:
– 작고 집중된 PR 분리
– 단일 변경 제한
3. 사전 검증:
– CI 통과 확인
– 기존 PR 중복 확인

코드 예시:
# 에이전트 PR 사전 검증 스크립트
# 1. CI 통과 확인
gh pr checks $PR_NUMBER

# 2. 중복 PR 검색
gh pr list --search "关键词"

에이전트 개발자:

[!tip] 설계 개선 방향
1. 컨텍스트 인식:
python # 기존 PR 탐지 existing_prs = get_open_prs(repo) if is_duplicate(proposed_change, existing_prs): return "이미 구현된 작업입니다"
2. 작업 분해:
– 대규모 리팩터링 → 국소적 PR로 분할
– 단일 작업 원칙
3. CI 검증:
– PR 제출 전 로컬 테스트
– CI 파이프라인 대조
4. 라이선스 체커:
– CLA 자동화
– 프로젝트 정책 준수

프로젝트 유지관리자:

[!tip] 거버넌스 강화
1. 에이전트 가이드라인:
markdown # .github/AGENT_GUIDE.md ## AI Agent Contribution Guidelines 1. PR 크기: <100 files, <1000 LOC 2. 중복 확인: 이슈 트래커 참조 3. CI 필수: 모든 테스트 통과 4. CLA 필수: Contributor License Agreement
2. 자동화된 체커:
– 라이선스/CLA 자동 검증
– PR 템플릿 강제
3. 리뷰 우선순위:
– 에이전트 PR 별도 큐
– 리뷰어 할당 최적화

연구 확장 방향 (Research Extensions)

다국어/다문화 PR 분석:
- 비영어권 프로젝트
- 문화적 차이 영향
에이전트 모델 비교:
- GPT-4 vs Claude vs Open-source models
- 특성별 성능 분석
장기 추적 연구:
- 에이전트 PR 장기 영향
- 버그 도입/해결 균형
자동화된 실패 탐지:
- 머신러닝 기반 예측
- 사전 필터링 시스템

📖 References

논문 인용 (Paper Citation)

@article{ehsani2026where,
  title={Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub},
  author={Ehsani, Ramtin and Pathak, Sakshi and Rawal, Shriya and Al Mujahid, Abdullah and Imran, Mia Mohammad and Chatterjee, Preetha},
  journal={arXiv preprint arXiv:2601.15195},
  year={2026},
  note={Accepted at MSR 2026},
  doi={https://doi.org/10.48550/arXiv.2601.15195}
}

데이터셋 (Dataset)

AIDev-pop: Li, Z., et al. (2025). GitHub Repository

복제 패키지 (Replication Package)

Replication Package (2025)

🏷️ Tags

#AIAgent #arXiv #DailyPaper #2026-01-25 #EmpiricalStudy #GitHubPR #PullRequest #MachineLearning #SoftwareEngineering #ResearchMethodology #QualitativeAnalysis #QuantitativeAnalysis

📌 요약 (Key Takeaways)

[!summary] 3문 요약
연구: 33k+ AI 에이전트 작성 GitHub PR 대규모 실증 분석

핵심 발견:
1. 작업 유형 중요: Documentation(84%) > Performance(55%)
2. CI 통과 필수: 실패 1회당 병합 확률 15% 감소
3. 사회적 실패 dominant: 리뷰어 방기(38%), 중복(23%)

시사점:
– 에이전트는 기술적 작업 능숙, 사회적 작업 미숙
– 향후 에이전트: 컨텍스트 인식, 작업 분해, CI 사전 검증 강화 필요

[!tip] 핵심 교훈 (Keppa Article Lesson)
“작고 집중된 PR 선호, 단일 일관된 변경 제한, 대규모 수정 + 무관련 편집 혼합 금지”

작은 PR → 병합 확률 증가

큰 PR → 리뷰 부하 증가 → 거부 확률 증가

[!important] 실무적 적용
에이전트 활용 시:
1. Documentation/CI/Build 작업 우선 (높은 병합율)
2. PR 사전에 CI 통과 + 중복 확인
3. 대규모 작업 분할

에이전트 개발 시:
1. 기존 PR/이슈 탐지
2. 컨텍스트 인식 강화
3. 거버넌스 준수(CLA, 라이선스)

작성 완료: 2026-01-26