본문으로 건너뛰기
-
skycave's Blog
skycave's Blog
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
닫기

검색

AI

[AI Paper] Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

By skycave
2026년 01월 25일 6 Min Read
0

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub


📌 1단계: 기본 정보

항목 내용
제목 Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
저자 Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran, Preetha Chatterjee
arXiv ID 2601.15195v1
발행일 2026-01-21
학회/저널 MSR 2026 (International Mining Software Repositories Conference)
분야 Software Engineering (cs.SE), Artificial Intelligence (cs.AI)
라이선스 CC BY 4.0
arXiv 링크 https://arxiv.org/abs/2601.15195v1
PDF 링크 https://arxiv.org/pdf/2601.15195v1.pdf

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

[!note] 핵심 배경
AI 코딩 에이전트가 단순한 보조 도구를 넘어 자율적인 기여자(autonomous contributor)로서 실제 소프트웨어 프로젝트에 Pull Request를 제출하고 있다.

현재 상황:
– AI 코딩 에이전트가 GitHub 저장소에 직접 PR을 생성하는 사례가 급증
– 이러한 “에이전트 기여(agentic contributions)”가 실제로 어떻게 동작하는지에 대한 이해 부족
– 많은 에이전트 PR이 머지되지 않는 이유에 대한 체계적 연구 부재

문제의식:
– 에이전트가 생성한 PR의 실패 패턴을 이해해야 향후 개선 방향 설정 가능
– 기술적 실패뿐 아니라 사회-기술적(socio-technical) 실패 요인도 존재할 가능성


2. 연구 목적 및 연구 질문

[!important] 연구 목적
33,000개 이상의 에이전트 생성 PR을 분석하여 머지 성공/실패 패턴을 정량적·정성적으로 규명

연구 질문 (Research Questions):

RQ 질문 내용 분석 방법
RQ1 머지된 PR과 머지되지 않은 PR은 어떤 특성 차이를 보이는가? 정량적 분석
RQ2 에이전트 PR이 머지되지 않는 구체적인 패턴은 무엇인가? 정성적 분석 (Taxonomy 개발)

RQ1의 4가지 분석 차원:
1. 태스크 유형별 머지 결과
2. 코드 변경 규모
3. CI/CD 빌드 결과
4. 리뷰 역학 (Review Dynamics)


3. 이론적 프레임워크

분석 프레임워크:

┌─────────────────────────────────────────────────────────────┐
│                    Agentic PR Analysis                      │
├─────────────────────────────────────────────────────────────┤
│  Level 1: Reviewer-Level    (리뷰어 수준 문제)              │
│  Level 2: Pull Request-Level (PR 수준 문제)                 │
│  Level 3: Code-Level         (코드 수준 문제)               │
│  Level 4: Agentic-Level      (에이전트 수준 문제)           │
└─────────────────────────────────────────────────────────────┘

4계층 분류 체계:
– Reviewer-Level: 리뷰어의 참여/비참여 문제
– PR-Level: PR 자체의 구조적 문제 (중복, 불필요한 기능 등)
– Code-Level: 코드 품질 및 CI/테스트 실패
– Agentic-Level: 에이전트 고유의 문제 (지시사항 미이행, 라이선스 위반)


4. 연구 방법론

4.1 데이터 수집

항목 내용
데이터셋 AIDev-pop 데이터셋 활용
수집 기준 GitHub 저장소 (100+ stars)
총 PR 수 33,596개
분석 에이전트 5개 코딩 에이전트

분석 대상 5개 AI 코딩 에이전트:

에이전트 PR 수 비율
OpenAI Codex 21,799 65%
Copilot 4,970 15%
Devin 4,827 14%
Cursor 1,541 5%
Claude Code 459 1%

4.2 정량적 분석 방법

[!tip] 통계적 접근
대규모 데이터셋에서 p-value의 한계를 인식하고 효과 크기(Effect Size) 중심 분석 채택

  • Cliff’s Delta (δ): 효과 크기 측정
  • Kernel Density Estimation: 분포 추정
  • Logistic Regression: 머지 확률 예측 모델

4.3 정성적 분석 방법

항목 내용
샘플 크기 600개 거부된 PR (층화 추출)
실제 분석 562개 (접근 가능한 PR)
신뢰도 Cohen’s Kappa = 0.91
방법 수동 코딩을 통한 Taxonomy 개발

5. 주요 결과

5.1 RQ1: 정량적 분석 결과

전체 머지율
총 PR: 33,596개
├── 머지됨: 24,014개 (71.48%)
└── 머지 안됨: 9,582개 (28.52%)
에이전트별 머지 성공률
에이전트 머지율 특징
OpenAI Codex 82.59% 가장 높은 성공률
Cursor 65.22% 중상위
Claude Code 59.04% 중위권
Devin 53.76% 중하위
Copilot 43.04% 가장 낮은 성공률
태스크 유형별 머지 성공률
태스크 유형 머지율 평가
Documentation 84% 최고
CI 79% 높음
Build 74% 양호
Fix (버그 수정) 64% 보통
Performance 55% 최저

[!warning] 핵심 발견
문서화, CI, 빌드 관련 태스크는 높은 성공률을 보이는 반면, 성능 최적화와 버그 수정 태스크는 낮은 성공률을 기록

코드 변경 특성 (Cliff’s Delta)
지표 효과 크기 (δ) 해석
코드 변경량 -0.17 미머지 PR이 17% 더 큰 변경
수정 파일 수 -0.10 미머지 PR이 10% 더 많은 파일 수정
CI 실패율 -0.24 미머지 PR이 24% 더 높은 CI 실패
로지스틱 회귀 분석 결과
머지 확률에 영향을 미치는 요인:
├── CI 실패 1건 추가 → 머지 확률 ~15% 감소
├── 변경 라인 1단위 증가 → 머지 확률 ~1% 감소
└── 수정 파일 1개 증가 → 머지 확률 ~1% 감소

5.2 RQ2: 거부 패턴 분류 (Taxonomy)

4계층 실패 분류 체계
실패 패턴 Taxonomy (N=562)
│
├── 1. Reviewer-Level Abandonment (38%, 228개)
│   └── 리뷰 없이 방치/종료
│
├── 2. Pull Request-Level Issues (31%, 188개)
│   ├── 중복 PR (Duplicate): 142개 (23%)
│   ├── 불필요한 기능 (Unwanted): 24개 (4%)
│   ├── 비기능적 (Non-functional): 13개 (2%)
│   ├── 잘못된 태스크 설명: 7개 (1%)
│   └── 잘못된 브랜치 제출: 2개 (<1%)
│
├── 3. Code-Level Failures (22%, 133개)
│   ├── CI/테스트 실패: 99개 (17%)
│   ├── 잘못된 구현: 19개 (3%)
│   └── 불완전한 구현: 15개 (2%)
│
└── 4. Agentic-Level Issues (2%, 13개)
    ├── 지시사항 미이행: 9개 (1%)
    └── 라이선스 위반: 4개 (<1%)

[!important] 핵심 인사이트
가장 큰 실패 원인은 “리뷰어 방치 (Abandoned/Not Reviewed)”로, 전체의 38%를 차지. 이는 에이전트 PR 실패가 순수 기술적 문제만이 아닌 사회-기술적 문제임을 시사.

실패 원인 시각화
┌────────────────────────────────────────────────────────────┐
│                    실패 원인 분포                          │
├────────────────────────────────────────────────────────────┤
│ Reviewer-Level  ████████████████████████████████████ 38%  │
│ PR-Level        ████████████████████████████ 31%          │
│ Code-Level      ██████████████████ 22%                    │
│ Agentic-Level   ██ 2%                                     │
└────────────────────────────────────────────────────────────┘

6. 논의 및 해석

6.1 주요 발견의 의미

[!note] 핵심 통찰
“Failures of agentic PRs can also be socio-technical rather than purely technical”
(에이전트 PR의 실패는 순수 기술적 문제가 아닌 사회-기술적 문제일 수 있다)

기술적 실패 요인:
– CI/CD 파이프라인과의 부정합
– 대규모 코드 변경으로 인한 통합 복잡성
– 테스트 실패 및 불완전한 구현

사회-기술적 실패 요인:
– 리뷰어의 무관심/방치 (가장 큰 원인)
– 개발자 기대와의 불일치 (불필요한 기능)
– 프로젝트 조정 부족 (중복 PR)

6.2 에이전트 개선을 위한 시사점

개선 영역 권장 사항
중복 방지 기존 작업 확인 메커니즘 강화
기여 규범 프로젝트별 contribution guideline 준수
변경 범위 태스크를 국소적 변경으로 분해
사전 검증 CI 파이프라인 사전 검증 후 제출
협업 인식 컨텍스트 인식 및 협업 감수성 설계

6.3 태스크 유형별 전략

높은 성공률 태스크 (적극 활용 권장)
├── Documentation (84%)
├── CI configuration (79%)
└── Build scripts (74%)

낮은 성공률 태스크 (신중한 접근 필요)
├── Bug fix (64%)
└── Performance optimization (55%)

7. 한계 및 제언

7.1 연구의 한계

한계 설명
데이터 범위 공개된 GitHub 데이터에 한정
일반화 한계 특정 5개 에이전트에 국한, 다른 에이전트로 일반화 제한
주관성 수동 분류(Taxonomy)의 주관성 가능성
시간적 한계 횡단면 분석으로, 시간에 따른 변화 미반영

7.2 향후 연구 방향

[!tip] Future Work
1. 에이전트의 컨텍스트 이해력 향상 연구
2. CI/CD 사전 검증 메커니즘 개발
3. 협업 인식(Collaboration-aware) 에이전트 설계
4. 종단 연구를 통한 에이전트 성능 변화 추적
5. 프라이빗 저장소 데이터 포함한 확장 연구


📌 3단계: 비판적 평가

방법론적 타당성

평가 항목 점수 평가 내용
데이터 규모 ⭐⭐⭐⭐⭐ 33,000+ PR로 대규모 실증 연구
통계 방법 ⭐⭐⭐⭐⭐ p-value 대신 효과 크기 사용, 적절한 접근
신뢰도 검증 ⭐⭐⭐⭐⭐ Cohen’s Kappa 0.91로 높은 평가자 간 신뢰도
표본 추출 ⭐⭐⭐⭐ 층화 추출로 에이전트별 대표성 확보
재현 가능성 ⭐⭐⭐⭐ AIDev-pop 공개 데이터셋 활용

논리적 일관성

[!success] 강점
– 정량적(RQ1) + 정성적(RQ2) 분석의 균형 잡힌 혼합 방법론
– 4계층 분류 체계가 MECE(Mutually Exclusive, Collectively Exhaustive) 원칙 충족
– 기술적 요인과 사회-기술적 요인을 모두 포착

[!warning] 약점
– “Abandoned” 카테고리(38%)가 너무 포괄적일 수 있음
– 에이전트별 PR 수 불균형 (Codex 65% vs Claude Code 1%)

기여도 평가

학술적 기여:
– AI 코딩 에이전트 PR의 첫 대규모 실패 분석
– 4계층 실패 분류 체계(Taxonomy) 제안
– “사회-기술적 실패”라는 새로운 관점 제시

실무적 기여:
– 태스크 유형별 에이전트 활용 전략 제시
– CI/CD 사전 검증의 중요성 정량화
– 에이전트 개발 방향성 제안

실무 적용 포인트

[!example] 실무 적용 가이드

AI 코딩 에이전트 사용자 (개발자/팀):
1. 고성공률 태스크에 집중: 문서화, CI, 빌드 작업에 에이전트 우선 활용
2. 변경 범위 최소화: 대규모 변경보다 작은 단위로 분할
3. CI 사전 검증: 제출 전 로컬 CI 통과 확인
4. 중복 확인: 기존 PR/이슈와 중복 여부 사전 점검

AI 에이전트 개발자:
1. 컨텍스트 인식 강화: 프로젝트 규범, 기존 작업 이해
2. 협업 메커니즘: 리뷰어와의 상호작용 설계
3. 자기 검증: CI 실패 시 자동 수정 기능
4. 라이선스 검증: 코드 사용 전 라이선스 확인 자동화


핵심 수치 요약

지표 수치
총 분석 PR 33,596개
전체 머지율 71.48%
최고 성공 에이전트 OpenAI Codex (82.59%)
최저 성공 에이전트 Copilot (43.04%)
최고 성공 태스크 Documentation (84%)
최저 성공 태스크 Performance (55%)
최대 실패 원인 Reviewer Abandonment (38%)
CI 실패의 머지 감소 영향 건당 ~15%


References

  • Ehsani, R., Pathak, S., Rawal, S., Al Mujahid, A., Imran, M. M., & Chatterjee, P. (2026). Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub. MSR 2026. arXiv:2601.15195
  • arXiv HTML Version
  • arXiv PDF
작성자

skycave

Follow Me
다른 기사
Previous

[AI Paper] VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

Next

[AI Paper] Zero-shot Adaptable Task Planning for Autonomous Construction Robots

댓글 없음! 첫 댓글을 남겨보세요.

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

최신글

  • 📊 일일 뉴스 감성 리포트 – 2026-01-28
  • AI 시스템의 문맥 기반 검색(Contextual Retrieval) | Anthropic
  • “Think” 툴: Claude가 멈춰서 생각할 수 있도록 하기 | Anthropic
  • Claude Code 모범 사례 \ Anthropic
  • 우리가 멀티 에이전트 연구 시스템을 구축한 방법
Copyright 2026 — skycave's Blog. All rights reserved. Blogsy WordPress Theme