[AI Paper] Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

2026년 01월 25일 5 Min Read

Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

📌 1단계: 기본 정보

항목	내용
제목	Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
저자	Qian Xiong, Yuekai Huang, Bo Yang, Yujia Zheng, Tianhao Li, Ziyou Jiang, Zhiyuan Chang, Zhaoyang Li, Huanxiang Feng, Mingyang Li
출판정보	arXiv:2601.15120v2, 2026년 1월 22일
분야/카테고리	Computer Science > Artificial Intelligence (cs.AI)
arXiv 링크	https://arxiv.org/abs/2601.15120v2
PDF 링크	https://arxiv.org/pdf/2601.15120v2.pdf
DOI	https://doi.org/10.48550/arXiv.2601.15120

초록 (Abstract)

[!note] 핵심 요약
LLM 기반 도구 사용 에이전트가 실제 응용에서 예상치 못한 행동이나 결과를 초래하는 문제를 다룬다. 특히 “의도 편차(Intent Deviation)” 라는 미묘한 문제가 신뢰할 수 있는 평가와 성능 향상을 심각하게 저해한다. 기존의 후처리 학습 방법들은 실제 시스템 샘플이나 LLM이 시뮬레이션한 가상 데이터를 활용하지만, 전자는 수작업 사용자 요청에 의존해 비용이 높고, 후자는 분포 이동(distribution shift) 문제를 겪는다. 본 연구는 DRiVe(Deriving Real Calls into Virtual Trajectories) 프레임워크를 제안하여 실제 API 호출을 가상 궤적으로 변환함으로써 이 문제를 해결한다.

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

1.1 도구 사용 에이전트의 부상

LLM(Large Language Model) 기반의 도구 사용 에이전트가 실제 응용 분야에서 급속히 발전하고 있다. 이러한 에이전트들은 API를 통해 외부 도구와 상호작용하여 복잡한 작업을 수행한다.

1.2 의도 편차(Intent Deviation) 문제

[!important] 핵심 문제: Intent Deviation
의도 편차란 에이전트가 올바른 도구를 선택했음에도 불구하고, 사용자의 실제 의도와 도구 호출 사이에 미묘한 불일치가 발생하는 현상이다.

명백한 실패(도구 선택 오류)와 달리 감지하기 어려움

도구를 “사용할지 여부” 가 아닌 “어떻게 올바르게 사용할지” 의 문제

주로 파라미터 설정의 부정확성에서 기인

1.3 기존 접근법의 한계

접근법	문제점
실제 시스템 샘플 활용	수작업 사용자 요청 의존으로 비용이 높음
LLM 시뮬레이션 가상 데이터	분포 이동(Distribution Shift) 문제 발생
기존 도구 학습 방법 (ToolLLM, Gorilla)	도구 선택/검색에 집중, 올바른 적용 미해결

2. 연구 목적 및 연구 질문

2.1 연구 목적

의도 편차 문제의 공식화: 도구 사용 에이전트에서 의도 편차 문제를 정의하고 분석
DRiVe 프레임워크 제안: 실제 경험을 학습 시나리오로 변환하는 새로운 방법론 개발
실험적 검증: 제안된 방법의 효과성을 정량적으로 입증

2.2 핵심 연구 질문

[!tip] Research Questions
– RQ1: 의도 편차는 어떻게 발생하며, 그 원인은 무엇인가?
– RQ2: 실제 API 호출 데이터를 어떻게 효과적인 학습 데이터로 변환할 수 있는가?
– RQ3: 가상 궤적(Virtual Trajectories)이 에이전트의 도구 사용 정확도를 어떻게 향상시키는가?

3. 이론적 프레임워크

3.1 가상 궤적(Virtual Trajectories) 개념

가상 궤적이란 실제 도구 호출에서 파생된 시뮬레이션된 학습 시나리오이다:

실제 API 호출 → 가상 대안 생성 → 정제된 에이전트 행동

성공적인 도구 호출뿐만 아니라 반사실적(Counterfactual) 학습 예시 생성
올바른 도구 사용이 어떤 모습인지 보여주는 가상의 실행 경로

3.2 궤적 기반 학습(Trajectory-based Learning)

\text{Virtual Trajectory} = f(\text{Real Call}, \text{Mutation Parameters})

여기서:
– $f$ : 가상 궤적 생성 함수
– Real Call: 실제 수집된 도구 호출
– Mutation Parameters: 파라미터 변이를 위한 설정

4. 연구 방법론: DRiVe 프레임워크

4.1 DRiVe 개요

[!note] DRiVe (Deriving Real Calls into Virtual Trajectories)
실제 API 실행 경험을 “가상 궤적” 으로 변환하여 에이전트가 올바른 도구 사용 패턴을 학습하도록 하는 프레임워크

4.2 핵심 3단계 프로세스

graph LR
    A[1단계: 실제 호출 수집] --> B[2단계: 가상 궤적 생성]
    B --> C[3단계: 정렬 학습]

1단계: 실제 호출 수집 (Real Call Collection)
– 에이전트 운영 중 실제 도구 호출을 캡처
– 성공 및 실패 사례 모두 포함

2단계: 가상 궤적 생성 (Virtual Trajectory Generation)
– 각 실제 호출에서 다수의 합성 궤적 파생
– 도구가 사용될 수 있었던 대안적(올바른) 방법 표현
– 파라미터 변이(Parameter Mutation)를 통한 다양한 부정 샘플 생성

3단계: 정렬 학습 (Alignment Learning)
– 성공적인 궤적과 수정된 궤적 모두에서 학습
– 2단계 미세 조정(Two-stage Fine-tuning) 적용
– 향후 파라미터 선택 개선

4.3 핵심 메커니즘

구성요소	기능
불일치 식별	에이전트 행동과 사용자 의도 간의 불일치 탐지
반사실적 예시 생성	올바른 파라미터 값을 보여주는 예시 생성
미세 조정	생성된 예시를 통한 에이전트 의사결정 개선

5. 주요 결과

5.1 사용된 데이터셋 및 기준선

데이터셋:
– ToolBench: 포괄적 도구 사용 벤치마크
– APIBank: API 기능 평가
– 파라미터 정확성 중심의 커스텀 평가 시나리오

비교 기준선:
– ToolLLM (기초 도구 학습 접근법)
– GPT-4 (강력한 기준선)
– Gorilla (도구 검색 중심)
– 표준 미세 조정된 LLM들

5.2 평가 지표

지표	설명
Tool Selection Accuracy	올바른 도구 식별 정확도
Parameter Correctness	적절한 인자 설정 정확도
End-to-End Success Rate	전체 작업 완료율
Intent Alignment Score	에이전트 행동과 사용자 의도의 일치도

5.3 실험 결과

[!important] 핵심 성능 향상
– Acc_task (작업 완료율): 기존 대비 35.28% 향상
– Acc_intent (의도 정렬): 기존 대비 23.27% 향상
– 파라미터 정확성: 기준선 대비 15-25% 개선
– End-to-End 성공률: 복잡한 시나리오에서 20-30% 향상

┌────────────────────┬─────────────┬─────────────┐
│       방법         │  Acc_task   │  Acc_intent │
├────────────────────┼─────────────┼─────────────┤
│ Baseline           │    Base     │    Base     │
│ DRiVe (Ours)       │  +35.28%    │  +23.27%    │
└────────────────────┴─────────────┴─────────────┘

6. 논의 및 해석

6.1 Ablation Study 결과

구성요소별 기여도 분석:

구성요소	성능 기여
가상 궤적 생성	가장 큰 영향
합성 예시 수량	학습 품질에 영향
궤적 다양성	일반화 향상과 상관관계

6.2 핵심 발견사항

[!tip] Key Insights
1. 의도 편차의 주요 원인: 도구 선택 실패보다 파라미터 불일치가 주된 원인
2. 반사실적 학습의 효과: 가상 궤적이 수정 패턴을 효과적으로 학습시킴
3. 일반화 능력: 유사한 API를 가진 새로운 도구에도 잘 일반화됨
4. 실패 학습의 가치: 성공 사례보다 실패 사례(잘못된 호출)에서 학습하는 것이 더 효과적

7. 한계 및 제언

7.1 연구의 한계

한계점	설명
계산 오버헤드	궤적 생성에 따른 계산 비용 고려 필요
성능 변동성	도구 복잡성과 API 설계 패턴에 따라 성능 향상 폭이 다름
데이터 의존성	의미 있는 궤적 생성을 위한 충분한 실제 상호작용 데이터 필요

7.2 향후 연구 방향

[!note] Future Work
1. 다단계 도구 체인: 복잡한 워크플로우로 확장
2. 전이 학습: 서로 다른 도구 도메인 간 전이 학습 연구
3. 효율적 궤적 생성: 더 효율적인 가상 궤적 생성 방법 개발
4. 대형 기반 모델 통합: 더 큰 파운데이션 모델과의 통합 탐구

📌 3단계: 비판적 평가

방법론적 타당성

[!tip] 강점
– 실제 API 호출 데이터를 활용하여 실제 분포에 가까운 학습 데이터 생성
– 반사실적 학습 예시를 통한 체계적인 오류 패턴 학습
– 2단계 미세 조정으로 점진적 성능 향상 도모

[!warning] 약점
– 궤적 생성의 품질이 초기 실제 데이터의 다양성에 의존
– 파라미터 변이 전략의 최적화 기준이 불명확할 수 있음

논리적 일관성

의도 편차 문제 정의 → 가상 궤적 해결책 → 실험적 검증의 논리적 흐름이 일관됨
실패에서 배우는 것이 성공에서 배우는 것보다 효과적이라는 주장이 실험 결과로 뒷받침됨

기여도 평가

기여 유형	평가
이론적 기여	의도 편차 문제의 공식적 정의 ⭐⭐⭐⭐
방법론적 기여	DRiVe 프레임워크 제안 ⭐⭐⭐⭐⭐
실증적 기여	상당한 성능 향상 입증 ⭐⭐⭐⭐

실무 적용 포인트

[!example] 실무 적용 시사점
1. 에이전트 개발: 도구 사용 에이전트 개발 시 파라미터 정확성에 더 집중 필요
2. 데이터 수집: 실제 API 호출 로그의 체계적 수집 및 분석 중요성
3. 학습 전략: 성공 사례뿐만 아니라 실패 사례도 학습 데이터로 활용
4. 평가 지표: 단순 작업 완료율 외에 의도 정렬 점수 측정 권장

References

arXiv Paper: https://arxiv.org/abs/2601.15120v2
PDF: https://arxiv.org/pdf/2601.15120v2.pdf
Related Work: ToolLLM, Gorilla, MetaToolBench, APIBank