[AI Paper] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

By skycave

2026년 01월 25일 8 Min Read

📄 Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

1단계: 기본 정보

논문 정보

제목: Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
저자: Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
출판정보:
- arXiv ID: 2601.15808v1
- 발행일: 2026년 1월 22일
- 분야: Computer Science > Artificial Intelligence (cs.AI)
링크:
- arXiv: https://arxiv.org/abs/2601.15808v1
- PDF: https://arxiv.org/pdf/2601.15808v1.pdf
- 코드: https://github.com/Tencent/CognitiveKernel-Pro, https://github.com/yxwan123/DeepVerifier

2단계: 연구 내용

1. 연구 배경 및 문제의식

Deep Research Agents (DRAs)의 한계

발전: DRAs는 LLM과 VLM을 기반으로 복잡한 문제 해결 능력을 보여주고 있음 (코딩, 웹 탐색, 파일 처리, 다단계 추론 등)
신뢰성 문제:
- 잘못된 행동, API 실패, 환각(hallucinations) 등으로 인해 불안정한 출력
- 실무 배포에 큰 제약
- 장기 작업에서는 온라인 인간 감독이 불가능
예시: 연구자의 최초 출판물을 식별하는 작업에서 불완전한 2차 자원에 의존하여 부정확한 결과 도출

기존 접근법의 한계

Post-training 중심: 대부분의 연구가 post-training을 통한 정책 능력 향상에 집중
Test-time scaling의 부족:
- 병렬 샘플링(Parallel sampling), Best-of-N 선택 등이 존재하지만, 같은 오류가 반복됨
- Reflexion 기반 방법들이 텍스트 피드백을 사용하지만, 피드백 생성 자체가 어려운 작업
검증(Verification) 과정 미탐구: DRAs의 검증과 스케일링 효과에 대한 연구가 부족

[!note] 핵심 문제
DRAs의 신뢰성을 향상시키기 위해 추론 시점(Inference-time)에서 검증(Verification)을 통해 에이전트가 자체적으로 진화할 수 있는 방법이 필요함

2. 연구 목적 및 연구 질문

연구 목표

추론 시점 검증 스케일링(Inference-Time Scaling of Verification) 패러다임 제안:
– 정책 모델의 출력을 반복적으로 검증하여 에이전트 능력을 자체 진화시킴
– 정교하게 작성된 루브릭(Rubrics)에 의해 안내된 검증

연구 질문 (RQs)

RQ1: DeepVerifier가 검증에 효과적인가?
RQ2: DeepVerifier가 test-time scaling을 통해 DRA 성능을 향상시킬 수 있는가?
RQ3: DeepVerifier-4K가 오픈소스 모델의 반성(Reflection) 능력을 향상시킬 수 있는가?

3. 이론적 프레임워크

검증 비대칭성 (Asymmetry of Verification)

핵심 원리: 복잡한 문제를 더 단순한 하위 작업으로 분해하면, 정답을 생성하는 것보다 정답을 검증하는 것이 더 쉬움
적용: DeepVerifier는 복잡한 검증 문제를 검증 가능한 정보 검색 하위 작업으로 분해

DRA 실패 분류체계 (DRA Failure Taxonomy)

WebAggregatorQA 데이터셋의 실패 트래젝토리를 분석하여 자동 구성

5가지 주요 카테고리 및 13개 하위 카테고리:

주요 카테고리	하위 카테고리	설명
Finding Sources (자원 탐색)	Wrong Evidence consulted	잘못된 증거 참조
	Relying on generic searches	일반적인 검색에 의존
	Secondary source dependence	2차 자원 의존
Reasoning (추론)	Premature conclusions	성급한 결론 도출
	Misinterpretation	오해석
	Overconfident claims	과도한 확신
Problem Understanding (문제 이해)	Misunderstanding instructions	지시사항 오해
	Goal drift	목표 이탈
Action Errors (행동 오류)	UI failures	UI 실패
	Format mistakes	형식 오류
	Wrong modality use	잘못된 모달리티 사용
Max Step Reached	–	최대 단계 도달

[!tip] 핵심 통찰
가장 빈번한 실패는 Finding Sources에서 발생 → 상류 정보 수집이 가장 취약한 지점

4. 연구 방법론

4.1 DRA Failure Taxonomy 구성

트래젝토리 수집:
– WebAggregatorQA 데이터셋에서 2,997개의 에이전트 행동 수집
– Cognitive Kernel-Pro 프레임워크 + Claude-3.7-Sonnet 사용
– 90개의 고유한 작업, 2~156 단계 범위

오류 지점 수집:
– 올바르지 않은 최종 답변을 생성한 각 트래젝토리에서 기저 실패 지점 주석
– 두 명의 연구원이 독립적으로 오류 식별 후 병합
– 전체 555개 오류 지점 수집 (주석자 간 63% 일치율)

분류체계 구성:
– 50개 오류 지점 클러스터링 후 반복적 분석 및 라벨링
– 실패 빈도에 따라 분기 너비 조정

4.2 DeepVerifier 프레임워크

3단계 다중 모듈 구조:

┌─────────────────────────────────────────────────────────────┐
│                    DeepVerifier Framework                     │
├─────────────────────────────────────────────────────────────┤
│                                                               │
│  1. Decomposition Module (분해 모듈)                        │
│     ├─ Trajectory Summarization                            │
│     │   └─ 8.2M 토큰 → compact, step-indexed synopsis       │
│     ├─ Potential Error Identification                       │
│     │   └─ ⟨behavior⟩⇒⟨potential error + taxonomy label⟩    │
│     └─ Follow-Up Question Formulation                       │
│         └─ External evidence로 답변 가능한 질문 생성         │
│                                                               │
│  2. Verification Agent (검증 에이전트)                       │
│     └─ Follow-up questions에 대한 답변 검색                  │
│         (CK-Pro agent 사용)                                  │
│                                                               │
│  3. Judge Agent (판단 에이전트)                               │
│     └─ 1-4 점 스케일링                                       │
│         1: 전혀 맞지 않음                                    │
│         2: 대부분 맞지 않음                                  │
│         3: 대부분 맞음                                       │
│         4: 전혀 맞음                                         │
│                                                               │
└─────────────────────────────────────────────────────────────┘

분해 모듈의 3단계:

Trajectory Summarization (트래젝토리 요약):
- 평균 8.2M 토큰의 트래젝토리를 compact한 요약으로 변환
- 각 단계에서 방문한 소스와 구체적인 정보(사실, 숫자, 인용) 기록
- 서술적(descriptive)이지 해석적(interpretive)이지 않음
Potential Error Identification (잠재적 오류 식별):
- 요약과 실패 분류체계를 사용하여 알려진 실패 모드와 일치하는 행동 스캔
- ⟨행동⟩⇒⟨잠재적 오류 + 분류체계 라벨⟩ 형식의 구조화된 쌍 생성
Follow-Up Question Formulation (후속 질문 구성):
- 플래그된 취약점을 타겟팅하는 고가치 후속 질문 작성
- 외부 증거로 답변 가능하며, 위험한 주장을 결정적으로 확인/거부하도록 설계

4.3 Test-Time Scaling with Reflection

반성 피드백 루프:
1. DRA가 작업 완료
2. DeepVerifier로 출력 검증
3. 검증자가 다시 시도할 수 있는 실행 가능한 지침 제공
4. 정보 내에서 올바른 답변 제안 (가능한 경우)
5. 피드백으로 안내된 재시도
6. 만족스러운 답변 도달 또는 사전 정의된 재시도 한계 도달 시까지 반복

4.4 DeepVerifier-4K 데이터셋

데이터 수집 과정:
1. 기반 트래젝토리 수집: WebAggregatorQA에서 400개 답변과 트래젝토리 수집
2. 검증 트래젝토리 수집: DeepVerifier로 검증, 검증 트래젝토리 저장
3. 필터링 및 밸런싱: True positive와 true negative 필터링 후 밸런싱
4. SFT 데이터셋 생성: 4,646개의 prompt-response 쌍

특징:
– 고질량, 고품질 데이터셋
– 반성(Reflection)과 자기 비판(Self-critique) 강조
– 오픈소스 모델의 검증 능력 개발에 사용

5. 주요 결과

RQ1: DeepVerifier의 효과성

메타 평가 F1 스코어 비교 (GAIA-Web 데이터셋):

방법	Precision	Recall	Accuracy	F1
DeepVerifier	75.00%	71.43%	75.56%	73.17%
– Verification (분해 제거)	100.00%	14.29%	60.00%	25.00%
– Decomposition (검증 제거)	86.96%	47.62%	72.22%	61.54%

분석:
– DeepVerifier는 12%-48% F1 스코어 향상 달성
– 모듈 제거 시 정밀도는 높지만 재현율과 정확도 불만족
– 분해 제거: 명백한 실수는 잡지만 미묘한 추론/사실 오류 간과
– 검증 제거: 전체 작업을 재해결하여 원래 에이전트와 동일한 추론 오류 취약

RQ2: Test-Time Scaling을 통한 DRA 성능 향상

GAIA 데이터셋에서의 정확도 (%):

데이터셋	모델	0회	2회	4회	6회	8회	10회	최종 향상	최고 향상
Web	Claude-3.7	51.11	58.89	63.33	62.22	61.11	62.22	11.11	12.22
	GPT-4.1	28.89	32.22	31.11	32.22	31.11	31.11	2.22	3.33
	DV-8B	26.67	31.11	31.11	32.22	33.33	33.33	6.67	6.67
File/Reasoning/Others	Claude-3.7	53.57	53.57	56.21	54.92	54.92	54.92	1.35	2.64
	GPT-4.1	30.67	33.33	33.33	33.33	33.33	33.33	2.67	2.67
	DV-8B	26.81	30.85	30.85	30.85	30.85	30.85	4.04	4.04
Full	Claude-3.7	52.22	56.49	60.12	58.93	58.32	58.93	6.71	7.90
	GPT-4.1	29.51	32.53	31.92	32.53	31.92	31.92	2.41	3.01
	DV-8B	26.73	30.99	30.99	31.60	32.21	32.21	5.48	5.48

주요 결과:
– Claude-3.7-Sonnet: GAIA-Full에서 52.2% → 58.9% (최고 60.1%, +7.9% 향상)
– GAIA-Web: 51.1% → 62.2% (최고 63.3%, +11.1% 향상) – 검색/웹 기반 작업에서 가장 큰 효과
– GPT-4.1: 29.5% → 31.9% (최고 32.5%, +3.0% 향상)

다른 데이터셋에서의 성능:

데이터셋	0회	최고	최종 향상
XBench-DeepSearch (중국어)	41.0	47.0	+6.0
BrowseComp (극히 어려움)	5.0	10.0	+5.0

스케일링 트렌드 분석:
– 성능은 일반적으로 초기 피드백 라운드에서 피크
– Incorrect → Correct 전환: 초기에 강력하지만 빠르게 감소
– Correct → Incorrect 전환: 약하지만 라운드 간 지속
– 두 전환의 상호작용으로 4라운드 근처에서 피크 발생

RQ3: 오픈소스 모델의 반성 능력 향상

DeepVerifier-8B의 성능 (GAIA-Full):

모델	0회	최종 (10회)	향상
DeepVerifier-8B (DV-8B)	26.73%	32.21%	+5.48%
CK-Pro-8B	–	–	+2.6%
Qwen3-8B	–	–	최소 향상

주요 결과:
– DeepVerifier-4K로 미세 조정된 DeepVerifier-8B는 5.5% 정확도 향상 달성
– CK-Pro 데이터셋만으로 학습된 CK-Pro-8B보다 2배 이상 향상
– 반성 능력이 다양한 작업 유형에서 일반화됨

6. 논의 및 해석

검증 비대칭성의 효과

분해의 힘: 복잡한 검증 문제를 단순한 하위 질문으로 분해하여 에러율 감소
표적 검증: 전체 작업 재해결 대신 구체적인 취약점만 검사
증거 기반: 외부 증거로 답변 가능한 질문 설계로 환각 감소

루브릭 기반 피드백의 효과

구조화된 신호: DRA Failure Taxonomy에서 파생된 구조화된 루브릭
판별적 정보: 단순한 “맞음/틀림” 외에 구체적인 오류 유형 제공
실행 가능한 피드백: 다시 시도할 수 있는 구체적인 지침 제공

Test-Time Scaling의 실제 적용 가능성

추가 학습 불필요: 훈련 없이 반성 루프만으로 성능 향상
Plug-and-Play: 기존 DRA에 쉽게 통합 가능
스케일링 효과: 피드백 라운드 증가에 따른 성능 향상 명확

모델 독립성

Claude-3.7-Sonnet: 가장 큰 향상 (+7.9%)
GPT-4.1: 일관된 향상 (+3.0%)
오픈소스 (Qwen3-8B): 미세 조정 후 +5.5% 향상
결론: 방법론은 다양한 모델에서 일반화됨

7. 한계 및 제언

연구 한계

검증자의 불완전한 정밀도/재현율:
- 때때로 올바른 답변을 거부하여 회귀(Regression) 유발
- 이로 인해 성능이 초기 라운드에서 피크 후 감소
데이터셋 의존성:
- DRA Failure Taxonomy는 WebAggregatorQA에서 구성
- GAIA, BrowseComp, XBench-DeepSearch로 일반화 검증했지만, 다른 도메인에서의 효과 불확실
계산 비용:
- 각 피드백 라운드에서 추가 계산 필요
- 여러 라운드 실행 시 총 계산 비용 증가
최대 단계 제한:
- 일부 트래젝토리는 최대 단계 도달으로 종료
- 조기 실수가 긴 비생산적 트래젝토리로 이어짐

향후 연구 제언

검증자 개선:
- 더 높은 정밀도와 재현율을 갖는 검증자 개발
- 오탐(False Positive) 감소로 회귀 방지
분류체계 확장:
- 더 다양한 도메인과 작업 유형으로 실패 분류체계 확장
- 자동 업데이트 메커니즘 개발
효율적 스케일링:
- 언제 피드백 루프를 중단할지 자동 결정 전략
- 계산 비용과 성능 향상 간의 균형 최적화
다중 에이전트 검증:
- 여러 검증자의 결과 통합으로 안정성 향상
- 앙상블 기반 검증 방법 탐색

3단계: 비판적 평가

방법론적 타당성

강점:
– ✅ 체계적인 실패 분석: 555개 오류 지점 주석과 63% 주석자 일치율로 신뢰성 확보
– ✅ 데이터셋 분리: 분류체계 구성(WebAggregatorQA)과 평가(GAIA, BrowseComp, XBench) 데이터셋 분리로 데이터 누설 방지
– ✅ 다층적 평가: 검증 효과(RQ1), 스케일링 효과(RQ2), 오픈소스 전이(RQ3)로 포괄적 평가
– ✅ Ablation Study: 분해 모듈과 검증 모듈의 각 기여도 분석으로 기계적 이해도 제공

약점:
– ⚠️ 주석자 수 제한: 2명의 주석자만 사용 → 더 많은 주석자로 신뢰성 강화 가능
– ⚠️ 단일 도메인 기반 분류: WebAggregatorQA에서만 분류체계 구성 → 다른 도메인에서의 일반성 검증 필요

논리적 일관성

강점:
– ✅ 명확한 연결고리: 문제(불안정한 DRA) → 해결책(검증 비대칭성 활용) → 구현(DeepVerifier) → 검증(실험)의 논리적 흐름
– ✅ 이론적 기반: “검증 비대칭성” 이론을 실제 구현에 명확하게 적용
– ✅ 결과 해석: 스케일링 트렌드를 “전환율 분석”으로 이론적으로 설명

약점:
– ⚠️ 피크 현상 설명: 초기 라운드에서 피크 후 감소 현상을 설명하지만, 이를 최적화하는 방법 제시 미흡
– ⚠️ 비용-이익 분석 부재: 추가 계산 비용 대비 성능 향상의 정량적 분석 미흡

기여도 평가

이론적 기여:
– 🌟 새로운 패러다임: Post-training 중심에서 Inference-time scaling으로의 패러다임 전환 제시
– 🌟 검증 비대칭성 적용: 검증 비대칭성 이론을 DRA 도메인에 최초로 체계적으로 적용
– 🌟 실패 분류체계: 자동 구성된 포괄적인 DRA 실패 분류체계 제공

실용적 기여:
– 🌟 DeepVerifier: 실제로 사용 가능한 plug-and-play 검증 프레임워크
– 🌟 DeepVerifier-4K: 4,646개의 고품질 검증 데이터셋 공개로 오픈소스 생태계 기여
– 🌟 성능 향상: Claude-3.7에서 +7.9%, GPT-4.1에서 +3.0%, 오픈소스에서 +5.5% 향상

연구 생태계 기여:
– 🌟 코드 및 데이터 공개: 완전한 코드와 데이터셋 공개로 재현성 보장
– 🌟 다국어 일반화: 중국어 벤치마크(XBench-DeepSearch)에서도 효과 입증

실무 적용 포인트

즉시 적용 가능한 시나리오:
1. 웹 리서치 에이전트:
– 웹 검색 기반 연구 작업에서 신뢰성 향상
– 다중 소스 검증 및 환각 감소

고객 서비스 자동화:
- 복잡한 고객 문의 처리 시 정확도 향상
- 반성 루프를 통한 오류 수정
연구 보조 도구:
- 문헌 조사 및 데이터 수집 자동화 시 신뢰성 확보
- 다중 소스 검증으로 연구 질 향상

적용 시 고려사항:

요소	고려사항	권장 사항
모델 선택	비용 대비 성능	Claude-3.7-Sonnet (최대 향상) 또는 오픈소스 + DeepVerifier-4K 미세 조정
피드백 라운드	성능 피크와 비용	4-6 라운드 권장 (최적 지점)
도메인 적용	분류체계 일반성	도메인 특화 실패 분류체계 추가 구성 권장
계산 리소스	추가 비용	총 비용 대비 성능 향상 분석 후 결정

프로덕션 통합 전략:
1. 단계적 롤아웃: 쉬운 작업부터 시작하여 점차 복잡한 작업으로 확장
2. A/B 테스트: DeepVerifier 적용 전후 성능 비교
3. 사용자 피드백 루프: 검증자의 거부를 사용자에게 노출하여 추가 검증 기회 제공

References

Wan, Y., Fang, T., Li, Z., Huo, Y., Wang, W., Mi, H., Yu, D., & Lyu, M. R. (2026). Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification. arXiv:2601.15808
GitHub: https://github.com/Tencent/CognitiveKernel-Pro
GitHub: https://github.com/yxwan123/DeepVerifier

핵심 요약

[!summary] 핵심 요약
이 논문은 Deep Research Agents (DRAs)의 신뢰성을 향상시키기 위해 Inference-Time Scaling of Verification 패러다임을 제안합니다.

주요 기여:
1. DeepVerifier: 검증 비대칭성을 활용하여 복잡한 검증을 단순한 하위 질문으로 분해하는 프레임워크
2. DRA Failure Taxonomy: 5가지 주요 카테고리와 13개 하위 카테고리로 에이전트 실패 체계적 분류
3. DeepVerifier-4K: 4,646개의 고품질 검증 데이터셋

성과:
– Claude-3.7-Sonnet: +7.9% 정확도 향상 (GAIA-Full)
– GPT-4.1: +3.0% 정확도 향상
– 오픈소스 (Qwen3-8B): 미세 조정 후 +5.5% 향상

실무적 의의:
– 추가 훈련 없이 추론 시점에 반성 루프만으로 성능 향상
– Plug-and-Play로 기존 DRA에 쉽게 통합 가능
– 웹 리서치, 고객 서비스, 연구 보조 등 다양한 분야에 즉시 적용 가능