[AI Paper] Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance
Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance
메타 정보
| 항목 | 내용 |
|---|---|
| 저자 | Qianli Ma, Chang Guo, Zhiheng Tian, Siyu Wang, Jipeng Xiao, Yuanhao Yue, Zhipeng Zhang |
| arXiv ID | 2601.14171v1 |
| 제출일 | 2026년 1월 20일 |
| 분야 | cs.AI (Artificial Intelligence) |
| 링크 | arXiv | PDF |
| DOI | 10.48550/arXiv.2601.14171 |
한줄 요약
[!tip] TL;DR
학술 논문 피어 리뷰에 대한 반박문(Rebuttal) 작성을 증거 중심 계획 태스크로 재정의하여, 리뷰어 피드백을 원자적 우려사항으로 분해하고, 내부/외부 증거에 명시적으로 근거한 투명한 응답 계획을 생성하는 최초의 멀티에이전트 프레임워크 RebuttalAgent를 제안함.
연구 배경 및 동기
문제 정의
학술 논문의 피어 리뷰 과정에서 저자들이 직면하는 핵심 과제:
┌─────────────────────────────────────────────────────────────────┐
│ Rebuttal 작성의 핵심 과제 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 📝 리뷰어 의도 파악 🎯 원고와의 정확한 매칭 │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ "실험이 부족함" │ │ Section 4.2의 │ │
│ │ "비교가 불공정" │ ──→ │ 어떤 실험? │ │
│ │ "관련 연구 누락" │ │ 어떤 baseline? │ │
│ └─────────────────┘ └─────────────────┘ │
│ │
│ 🤖 기존 LLM 접근의 한계 │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ ❌ Hallucination: 원고에 없는 내용 생성 │ │
│ │ ❌ Overlooked Critiques: 일부 비판점 누락 │ │
│ │ ❌ No Grounding: 검증 불가능한 주장 │ │
│ │ ❌ Direct Generation: 계획 없이 바로 텍스트 생성 │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
기존 접근법의 한계
[!warning] 현재 솔루션의 문제점
대부분의 기존 접근법은 rebuttal 작성을 직접 텍스트 생성(direct-to-text generation) 문제로 취급하여, 근본적인 한계에 직면
| 한계점 | 설명 | 결과 |
|---|---|---|
| Hallucination | 원고에 없는 실험/결과 생성 | 리뷰어 신뢰 상실 |
| 우려사항 누락 | 리뷰의 일부 비판점 무시 | 불완전한 응답 |
| 검증 불가 | 주장의 근거가 명확하지 않음 | 설득력 저하 |
| 계획 부재 | 전략 없이 바로 응답 생성 | 일관성 부족 |
연구 동기
기존 접근법 제안하는 접근법
┌────────────────────┐ ┌────────────────────────────┐
│ Direct-to-Text │ │ Evidence-Centric Plan │
│ Generation │ ───→ │ Generation │
├────────────────────┤ ├────────────────────────────┤
│ Review → LLM → │ │ Review → 분석 → 증거수집 │
│ Response │ │ → 계획 → 검토 → 응답 │
│ (Black Box) │ │ (Transparent & Grounded) │
└────────────────────┘ └────────────────────────────┘
핵심 아이디어
패러다임 전환: 텍스트 생성 → 증거 중심 계획
핵심 통찰: Rebuttal 작성은 단순한 텍스트 생성이 아니라, 증거를 수집하고 전략적으로 배치하는 계획 태스크
[!important] RebuttalAgent의 3가지 핵심 혁신
1. Atomic Decomposition: 리뷰어 피드백을 원자적 우려사항으로 분해
2. Hybrid Context Construction: 압축된 요약 + 고충실도 텍스트 결합
3. Inspectable Response Plan: 응답 작성 전 검토 가능한 계획 생성
┌─────────────────────────────────────────────────────────────────┐
│ RebuttalAgent Framework │
├─────────────────────────────────────────────────────────────────┤
│ │
│ [입력] │
│ ┌───────────────┐ ┌───────────────┐ │
│ │ Paper PDF │ │ Reviewer │ │
│ │ (원고) │ │ Comments │ │
│ └───────┬───────┘ └───────┬───────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Critique Analyzer │ │
│ │ (리뷰 분해 → 원자적 우려사항) │ │
│ └──────────────────┬──────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Evidence Synthesizer │ │
│ │ (내부 증거 + 외부 문헌 수집) │ │
│ └──────────────────┬──────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Response Planner │ │
│ │ (검토 가능한 응답 계획 생성) │ │
│ └──────────────────┬──────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Response Generator │ │
│ │ (최종 Rebuttal 텍스트 생성) │ │
│ └──────────────────┬──────────────────┘ │
│ │ │
│ ▼ │
│ [출력] ┌─────────────────────────────┐ │
│ │ Grounded Rebuttal │ │
│ │ + Response Plan │ │
│ │ + Evidence Citations │ │
│ └─────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
설계 철학
[!abstract] 핵심 설계 원칙
1. Evidence-Centric: 모든 응답은 내부/외부 증거에 명시적으로 근거
2. Transparency: 응답 계획을 작성자가 검토하고 수정 가능
3. Completeness: 원자적 분해로 모든 우려사항 커버리지 보장
4. Verifiability: 각 주장의 출처를 추적 가능
방법론/아키텍처
4단계 멀티에이전트 파이프라인
| 에이전트 | 역할 | 입력 | 출력 |
|---|---|---|---|
| Critique Analyzer | 리뷰 분석 및 분해 | 리뷰어 코멘트 | 원자적 우려사항 목록 |
| Evidence Synthesizer | 증거 수집 및 통합 | 원고 + 우려사항 | 내부/외부 증거 세트 |
| Response Planner | 응답 전략 수립 | 우려사항 + 증거 | 검토 가능한 응답 계획 |
| Response Generator | 최종 응답 작성 | 응답 계획 | 완성된 Rebuttal |
Step 1: Critique Analyzer – 원자적 분해
┌─────────────────────────────────────────────────────────────────┐
│ Atomic Concern Decomposition │
├─────────────────────────────────────────────────────────────────┤
│ │
│ [원본 리뷰어 코멘트] │
│ "실험이 충분하지 않고, 특히 최신 baseline과의 비교가 │
│ 부족하며, 관련 연구 섹션에서 중요한 논문이 누락됨" │
│ │
│ ↓ 분해 │
│ │
│ [원자적 우려사항] │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ C1: 실험의 양적 충분성 (Experiment Sufficiency) │ │
│ │ - 유형: Methodological │ │
│ │ - 심각도: Major │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ C2: 최신 Baseline 비교 부족 (Missing Baselines) │ │
│ │ - 유형: Experimental │ │
│ │ - 심각도: Major │ │
│ ├─────────────────────────────────────────────────────────┤ │
│ │ C3: 관련 연구 누락 (Missing Related Work) │ │
│ │ - 유형: Literature │ │
│ │ - 심각도: Minor │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
Step 2: Evidence Synthesizer – 하이브리드 컨텍스트
[!info] Hybrid Context Construction
긴 논문 전체를 처리하기 위해 압축된 요약과 고충실도 원문 텍스트를 결합
┌─────────────────────────────────────────────────────────────────┐
│ Hybrid Context Strategy │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 📄 논문 원고 │
│ │ │
│ ├──→ [Compressed Summary Layer] │
│ │ 전체 논문 구조 및 핵심 내용 요약 │
│ │ - Abstract 요약 │
│ │ - 각 섹션 핵심 포인트 │
│ │ - 실험 결과 개요 │
│ │ │
│ └──→ [High-Fidelity Text Layer] │
│ 우려사항 관련 원문 텍스트 │
│ - 특정 실험 상세 설명 │
│ - 수치 데이터 및 테이블 │
│ - 정확한 인용 문구 │
│ │
│ 📚 외부 문헌 (External Search Module) │
│ - 우려사항에서 언급된 관련 논문 검색 │
│ - 최신 baseline 방법론 정보 수집 │
│ - 비교 실험 결과 참조 │
│ │
└─────────────────────────────────────────────────────────────────┘
Step 3: Response Planner – 검토 가능한 계획
# 응답 계획 구조 (개념적)
response_plan = {
"concern_C1": {
"strategy": "acknowledge_and_address",
"internal_evidence": [
{"section": "4.2", "content": "추가 실험 A, B 수행", "page": 8},
{"section": "Appendix", "content": "상세 ablation study", "page": 15}
],
"external_evidence": [],
"response_outline": "실험 충분성 인정 + 추가 실험 계획 제시"
},
"concern_C2": {
"strategy": "provide_comparison",
"internal_evidence": [
{"section": "4.3", "content": "Method X와 비교 결과", "page": 9}
],
"external_evidence": [
{"paper": "Recent Work 2025", "finding": "유사 결과 보고"}
],
"response_outline": "기존 비교 결과 강조 + 추가 baseline 실험 약속"
},
"concern_C3": {
"strategy": "acknowledge_and_add",
"internal_evidence": [],
"external_evidence": [
{"paper": "Missing Paper A", "relevance": "직접 관련"},
{"paper": "Missing Paper B", "relevance": "간접 관련"}
],
"response_outline": "누락 인정 + 카메라 레디 버전에 추가 약속"
}
}
Step 4: Response Generator – 근거 기반 응답
┌─────────────────────────────────────────────────────────────────┐
│ Grounded Response Generation │
├─────────────────────────────────────────────────────────────────┤
│ │
│ [Response Plan] │
│ ↓ │
│ ┌───────────────────────────────────────────────────────────┐ │
│ │ Response Generator │ │
│ │ ┌────────────────────────────────────────────────────┐ │ │
│ │ │ • 계획의 각 항목을 자연스러운 문장으로 변환 │ │ │
│ │ │ • 증거 인용을 명시적으로 포함 │ │ │
│ │ │ • 학술적 톤과 형식 유지 │ │ │
│ │ │ • 각 우려사항에 대한 완전한 응답 보장 │ │ │
│ │ └────────────────────────────────────────────────────┘ │ │
│ └───────────────────────────────────────────────────────────┘ │
│ ↓ │
│ [최종 Rebuttal] │
│ "감사합니다. C1에 대해, Section 4.2 (p.8)에서 이미... │
│ 또한 Appendix의 ablation study (p.15)에서..." │
│ │
└─────────────────────────────────────────────────────────────────┘
시스템 아키텍처 통합
User (Author)
│
├── Paper.pdf
└── Reviews.txt
│
▼
┌───────────────────────────────────────────────────────────────┐
│ RebuttalAgent │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Critique │ │ Evidence │ │ External │ │
│ │ Analyzer │───→│ Synthesizer │←───│ Search │ │
│ └─────────────┘ └──────┬──────┘ │ Module │ │
│ │ └─────────────┘ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Response │ │
│ │ Planner │ │
│ └──────┬──────┘ │
│ │ │
│ ┌──────────────┴──────────────┐ │
│ │ [Inspectable Plan] │ ←── User Review │
│ └──────────────┬──────────────┘ │
│ ▼ │
│ ┌─────────────┐ │
│ │ Response │ │
│ │ Generator │ │
│ └──────┬──────┘ │
│ │ │
└───────────────────────────┼───────────────────────────────────┘
▼
┌─────────────────────┐
│ Final Rebuttal │
│ + Evidence Sources │
│ + Response Plan │
└─────────────────────┘
실험 결과
평가 벤치마크: RebuttalBench
[!info] RebuttalBench
본 논문에서 새롭게 제안한 Rebuttal 생성 평가 벤치마크로, ICLR OpenReview 포럼 기반
평가 데이터셋 구성:
– 데이터 출처: ICLR OpenReview 포럼
– 규모: 9.3K review-rebuttal 쌍
– 특징: 리뷰어 후속 응답(follow-up) 포함으로 supervision signal 제공
– Challenge Set: RebuttalBench-Challenge – 상위 20개 논문 (각 100+ 리뷰어)
평가 메트릭 (LLM-as-Judge, 0-5 스케일)
| 메트릭 | 설명 | 세부 항목 |
|---|---|---|
| R-Score (Relevance) | 리뷰 우려사항 대응 정도 | Coverage, Semantic Alignment, Specificity |
| A-Score (Argumentation) | 논증 품질 | Logic Consistency, Evidence Support, Engagement |
| C-Score (Communication) | 소통 품질 | Professional Tone, Clarity, Constructiveness |
[!note] 평가 철학
단순한 표면적 유창함(surface fluency)이 아닌, 원자적 우려사항 커버리지와 증거 기반 논증을 핵심 평가 기준으로 설정
성능 비교
테스트 모델: GPT-5-mini, Grok-4.1-fast, Gemini-3-Flash, DeepSeekV3.2
| 메트릭 | 베이스라인 대비 향상 |
|---|---|
| Relevance (Coverage) | +0.51 ~ +0.78 |
| Argumentation (Evidence Support) | +0.09 ~ +0.63 |
| Communication | +0.14 ~ +0.27 |
| 평균 향상 | +0.38 ~ +0.57 |
┌────────────────────────────────────────────────────────────────┐
│ RebuttalBench 성능 비교 │
├────────────────────────────────────────────────────────────────┤
│ │
│ Relevance (Coverage) 향상폭 │
│ ───────────────────────────── │
│ GPT-5-mini ████████████████████████ +0.78 │
│ Grok-4.1-fast ████████████████████░░░░ +0.63 │
│ Gemini-3-Flash ████████████████░░░░░░░░ +0.55 │
│ DeepSeekV3.2 ████████████████░░░░░░░░ +0.51 │
│ │
│ Argumentation (Evidence Support) 향상폭 │
│ ─────────────────────────────────────── │
│ GPT-5-mini ████████████████████████ +0.63 │
│ Grok-4.1-fast ████████████████░░░░░░░░ +0.42 │
│ Gemini-3-Flash ████████░░░░░░░░░░░░░░░░ +0.21 │
│ DeepSeekV3.2 ████░░░░░░░░░░░░░░░░░░░░ +0.09 │
│ │
└────────────────────────────────────────────────────────────────┘
[!important] 핵심 발견
약한 베이스 모델에서 RebuttalAgent의 효과가 더 큼 – 작업 분해(task decomposition)가 제한된 모델 능력을 부분적으로 보완
주요 발견
[!success] 핵심 결과
– 일관된 성능 향상: 4개 LLM 모두에서 모든 메트릭 개선
– 약한 모델에서 더 큰 효과: 작업 분해가 모델 한계를 보완
– Evidence Construction의 중요성: Ablation에서 가장 큰 영향
– 투명성 향상: 검토 가능한 계획으로 저자의 신뢰도 증가
Ablation Study
| 제거된 구성요소 | 주요 영향 | 세부 수치 |
|---|---|---|
| Evidence Construction | 가장 큰 성능 저하 | -0.30 Specificity, -0.27 Constructiveness |
| Input Structuring | 중간 수준 영향 | -0.25 Coverage, -0.17 Alignment |
| Checkers | 최소 영향 | 미미한 변화 |
[!important] 핵심 통찰
Evidence Construction이 가장 중요한 중간 산출물(critical intermediate artifact)
– 증거 구성 단계 제거 시 가장 큰 성능 저하 발생
– 증거 기반 접근의 핵심 가치를 입증[!note] Ablation 인사이트
– Evidence Construction: Specificity(-0.30)와 Constructiveness(-0.27)에 결정적 영향
– Input Structuring: Coverage(-0.25)와 Alignment(-0.17)에 중요
– Checkers: 품질 보증 역할이지만 핵심 성능에는 최소 영향
강점 및 한계점
강점
[!tip] Strengths
1. 패러다임 전환: 생성 → 계획
기존: Review → LLM → Text (블랙박스)
제안: Review → 분석 → 증거 → 계획 → 검토 → Text (투명)
- 계획 단계 도입으로 품질 관리 가능
- 저자가 응답 전략을 미리 검토/수정 가능
2. Hallucination 대폭 감소
– 하이브리드 컨텍스트로 원고 내용에 충실
– 모든 주장에 명시적 증거 연결
– Faithfulness 87% 달성 (기존 대비 25%p 향상)
3. 완전한 우려사항 커버리지
– 원자적 분해로 누락 방지
– Coverage 94% (기존 대비 22%p 향상)
– 체크리스트 방식의 완전성 보장
4. 외부 문헌 통합
– “관련 연구 누락” 유형 우려에 효과적 대응
– 외부 검색 모듈로 최신 문헌 참조 가능
– 저자가 놓친 관련 연구도 발견
5. 투명성과 설명 가능성
– 응답 계획을 저자가 검토 가능
– 각 주장의 증거 출처 추적 가능
– “왜 이렇게 응답했는지” 이해 가능
한계점
[!warning] Limitations
1. 분야별 성능 차이
– 고도로 전문화된 분야에서는 외부 검색 정확도 저하
– 도메인 특화 지식 부족 가능성
2. 복잡한 기술적 반박의 어려움
– 깊은 수학적/기술적 논쟁에는 전문가 개입 필요
– 자동 생성 응답의 기술적 깊이 한계
3. 계산 비용
– 멀티에이전트 파이프라인으로 인한 추가 비용
– 단순 쿼리에도 전체 파이프라인 실행
4. 방어적 응답 경향
– 자동 시스템이 지나치게 방어적인 톤 생성 가능
– 건설적 대화보다 반박에 치중할 위험
5. 최신 정보 의존성
– 외부 검색의 최신성에 의존
– 매우 최근 논문/결과는 검색 누락 가능
실무 적용 포인트
1. Rebuttal 작성 워크플로우 개선
┌─────────────────────────────────────────────────────────────────┐
│ RebuttalAgent 기반 작성 워크플로우 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ [1] 리뷰 수신 │
│ └─→ 리뷰 텍스트를 시스템에 입력 │
│ │
│ [2] 자동 분석 │
│ └─→ 원자적 우려사항 목록 생성 (누락 방지) │
│ │
│ [3] 증거 매핑 │
│ └─→ 각 우려사항에 원고 내 증거 자동 연결 │
│ │
│ [4] 계획 검토 ← 저자 개입 지점 │
│ └─→ 응답 전략 검토/수정 │
│ │
│ [5] 초안 생성 │
│ └─→ 계획 기반 Rebuttal 초안 │
│ │
│ [6] 최종 편집 ← 저자 개입 지점 │
│ └─→ 톤/표현 조정, 최종 검수 │
│ │
└─────────────────────────────────────────────────────────────────┘
2. 멀티에이전트 문서 분석 패턴
# RebuttalAgent 스타일 문서 분석 패턴 (개념적)
class DocumentAnalysisFramework:
"""
논문 분석 → 질문 분해 → 증거 수집 → 계획 → 응답 패턴
다른 문서 기반 QA 시스템에도 적용 가능
"""
def __init__(self):
self.analyzer = CritiqueAnalyzer()
self.evidence_synth = EvidenceSynthesizer()
self.planner = ResponsePlanner()
self.generator = ResponseGenerator()
def process(self, document, queries):
# Step 1: 질문/요청 원자적 분해
atomic_concerns = self.analyzer.decompose(queries)
# Step 2: 하이브리드 컨텍스트 구성
context = self.evidence_synth.build_context(
document=document,
concerns=atomic_concerns,
use_summary=True, # 전체 구조 파악
use_high_fidelity=True # 정확한 인용
)
# Step 3: 응답 계획 생성 (검토 가능)
plan = self.planner.create_plan(
concerns=atomic_concerns,
evidence=context
)
# Step 4: 최종 응답 생성
response = self.generator.generate(plan)
return {
"response": response,
"plan": plan, # 투명성
"coverage": calculate_coverage(atomic_concerns, response)
}
3. 증거 기반 응답 시스템 설계 원칙
| 원칙 | RebuttalAgent 적용 | 일반화 |
|---|---|---|
| 원자적 분해 | 리뷰 → 개별 우려사항 | 복잡한 질문 → 하위 질문 |
| 하이브리드 컨텍스트 | 요약 + 원문 | 전체 이해 + 정확한 인용 |
| 검토 가능 계획 | Response Plan | 생성 전 전략 확인 |
| 명시적 근거 | 증거 인용 | 주장마다 출처 표시 |
4. 학술 글쓰기 AI 도구 구현 아이디어
┌─────────────────────────────────────────────────────────────────┐
│ 학술 글쓰기 AI 도구 확장 가능성 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 📝 Rebuttal Assistant (본 논문) │
│ ├─→ 피어 리뷰 응답 자동화 │
│ └─→ 증거 기반 반박문 생성 │
│ │
│ 📄 Related Work Writer │
│ ├─→ 관련 연구 섹션 자동 생성 │
│ ├─→ 논문 간 관계 분석 │
│ └─→ 체계적 문헌 조사 지원 │
│ │
│ 🔍 Paper Weakness Analyzer │
│ ├─→ 제출 전 약점 사전 분석 │
│ ├─→ 예상 리뷰 코멘트 시뮬레이션 │
│ └─→ 보완점 제안 │
│ │
│ 📊 Experiment Gap Finder │
│ ├─→ 실험 설계의 누락점 탐지 │
│ ├─→ 필요한 baseline 제안 │
│ └─→ 실험 계획 보완 │
│ │
└─────────────────────────────────────────────────────────────────┘
5. 구현 체크리스트
[!example] 실무 구현 시 고려사항
- [ ] 문서 처리: PDF 파싱 및 섹션 구조 추출
- [ ] 원자적 분해: 복합 질문 → 단일 우려사항 분리 로직
- [ ] 하이브리드 컨텍스트: 요약 + 원문 검색 결합 전략
- [ ] 외부 검색: 학술 검색 API 연동 (Semantic Scholar, arXiv 등)
- [ ] 계획 UI: 사용자가 계획을 검토/수정할 인터페이스
- [ ] 근거 추적: 각 주장의 출처를 표시하는 메타데이터
- [ ] 톤 조절: 방어적 vs 건설적 응답 밸런스
핵심 인사이트
[!abstract] 논문의 주요 기여
- 패러다임 전환: Rebuttal 작성을 “텍스트 생성”에서 “증거 중심 계획”으로 재정의
- 원자적 분해의 효과: 복합 피드백을 개별 우려사항으로 분리하여 누락 방지
- 하이브리드 컨텍스트: 압축 요약 + 고충실도 텍스트로 정확성과 효율성 동시 확보
- 투명성의 가치: 검토 가능한 계획으로 저자의 통제권 보장
- 외부 지식 통합: 원고 내부 증거 + 외부 문헌으로 완전한 응답 구성
References
메모
💡 향후 학습/적용 아이디어:
- 사내 기술 문서 QA 시스템에 "증거 기반 응답" 패턴 적용
- 고객 문의 응답 시스템에 원자적 분해 + 계획 검토 워크플로우 도입
- RAG 시스템에 하이브리드 컨텍스트 구성 방식 적용하여 Hallucination 감소
- 문서 기반 챗봇에 "검토 가능한 응답 계획" 기능 추가로 투명성 향상