[AI Paper] Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
📄 Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
📌 1단계: 기본 정보
제목
Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
저자
- Qian Xiong (Beijing Forestry University)
- Yuekai Huang (Institute of Software, Chinese Academy of Sciences)
- Bo Yang (Beijing Forestry University)
- Yujia Zheng (Duke University)
- Tianhao Li (Duke University)
- Ziyou Jiang, Zhiyuan Chang, Zhaoyang Li, Huanxiang Feng, Mingyang Li
출판정보
- arXiv ID: 2601.15120v2
- 발행일: 2026년 1월 21일 (v1), 2026년 1월 22일 (v2)
- 분야/카테고리: Computer Science > Artificial Intelligence (cs.AI)
링크
- arXiv: https://arxiv.org/abs/2601.15120v2
- PDF: https://arxiv.org/pdf/2601.15120v2.pdf
- GitHub: https://anonymous.4open.science/r/TAIAlignment-6C3801/
📌 2단계: 연구 내용
1. 연구 배경 및 문제의식
툴 사용 에이전트의 발전
- LLM(Large Language Models)이 툴 사용 에이전트(Tool-Using Agents)의 발전을 주도
- 외부 툴 호출을 통해 텍스트 생성을 확장하고 실제 응용 프로그램을 가능하게 함
- 언어 이해를 실행 가능한 액션에 기반(Grounding)시킴
기존 문제점
- 명백한 실패 (Obvious Failures)
- 파라미터 할루시네이션(Parameter Hallucination)
- 호환되지 않는 이름이나 값으로 인한 호출 실패
- 작업 중단
- 의도 편차 (Intent Deviation) ⭐ 핵심 문제
- 에이전트가 기능적으로 보이지만, 실제 사용자 의도와 트래젝토리가 다른 상태
- 계획 단계의 부적절한 툴 선택: 뉴스 검색 시 Bing 대신 Baidu 호출
- 실행 단계의 예상치 못한 파라미터 입력: 요청한 1월 19일 대신 1월 20일 입력
- 명백한 실패 트레이스와 달리, 은밀한(covert) 성격으로 식별과 평가가 어려움
기존 접근법의 한계
| 접근법 | 장점 | 단점 |
|---|---|---|
| 실제 시스템 샘플 | 진정성 보장 | 수작업된 사용자 요청에 의존 → 입력 다양성, 툴 커버리지, 정답 라벨링 비용 높음 |
| LLM 시뮬레이션 데이터 | 비용 효율적 | 가상 도구와 실제 도구 간의 분포 차이(Distribution Shift) 존재 |
| 공통 문제 | – | 의도 편차 시나리오에 맞는 네거티브 샘플 부족 → 효과적인 선호 학습(Prefrence Learning) 가이드 부족 |
2. 연구 목적 및 연구 질문
연구 목적
툴 사용 에이전트에서 의도 편차(Intent Deviation) 문제를 해결하기 위한 RISE 방법 제안
연구 질문 (RQ)
- RQ1: RISE로 합성된 데이터의 품질은 기존 베이스라인 데이터와 비교하여 어떠한가?
- RQ2: RISE로 파인튜닝된 모델은 의도 정렬(Intent Alignment) 성능을 어느 정도 개선하는가?
- RQ3: RISE로 개선된 모델은 미관찰(Unseen) 시나리오에서 어떤 일반화 능력을 보이는가?
3. 이론적 프레임워크
의도 편차 (Intent Deviation) 정의
사용자 요청 $q$가 $n$개의 핵심 요소 $\mathcal{K}={K_{1},K_{2},\dots,K_{n}}$를 포함하고, 각 $K_{j}$가 하위 의도(Sub-intention)와 키 값 $v(K_{j})$로 구성될 때:
$$K_{j} = (\text{sub-intention}{j}, v(K{j}))$$
의도 편차는 다음 중 하나 이상의 경우:
1. 툴 선택 편차: $K_{j}$에 부합하는 툴이 아닌 다른 툴 선택
2. 파라미터 값 편차: $K_{j}$의 하위 의도에 맞지 않는 파라미터 값 사용
핵심 툴 및 파라미터 (Critical Tool & Parameter)
- 핵심 툴 (Critical Tool): 사용자 요청의 핵심 의도를 수행하는 툴
- 핵심 파라미터 (Critical Parameter): 툴의 실행 결과가 사용자 의도와 정렬되는지 결정하는 파라미터
RISE의 핵심 철학
- Real-to-Virtual 전략: 실제 환경에서 검증된 툴 프리미티브에서 시작하여 가상 트래젝토리로 진화
- 의도 인식형 툴 및 파라미터 포커스: 핵심 툴/파라미터 식별 및 돌연변이를 통해 다양한 의도 편차 네거티브 생성
4. 연구 방법론
RISE 방법론 개요
실제 툴 프리미티브
↓
가상 트래젝토리 합성 (Real-to-Virtual)
↓
핵심 파라미터 식별 및 돌연변이
↓
다양한 네거티브 샘플 생성
↓
2단계 훈련 (Intent Alignment)
4.1 툴 그라운드 초기화 (Tool Ground Initialization)
- 툴 스키마 수집: 실제 환경에서 API 스키마 수집
- 툴 프리미티브 정의: 검증된 툴 프리미티브 정의
- 실행 가능성 검증: 각 툴 프리미티브의 실제 실행 가능성 검증
4.2 Real-to-Virtual 데이터 합성
4.2.1 툴 프리미티브 생성 및 실행 가능성 검증
- 툴 프리미티브: 툴 호출의 최소 단위 (툴 이름 + 파라미터)
- 검증: 실제 환경에서 실행 가능성 확인
4.2.2 다중 계획 패턴을 통한 트래젝토리 합성
계획 패턴 유형:
1. Linear Pattern: 순차적 툴 호출
2. Branching Pattern: 조건부 툴 선택
3. Loop Pattern: 반복적 툴 호출
4. Parallel Pattern: 병렬 툴 호출
4.2.3 요청 합성 및 정확성 검증
- 요청 생성: 합성된 트래젝토리로부터 역추론하여 사용자 요청 생성
- 검증: 생성된 요청이 트래젝토리와 정렬되는지 확인
4.3 다중 유형 돌연변이를 통한 네거티브 확장
4.3.1 의미론적 매핑을 통한 ICP 식별
- ICP (Intent-Critical Parameter): 의도 편차 발생에 중요한 파라미터
- 의미론적 매핑: 파라미터의 의미적 역할 식별
4.3.2 ICP에 대한 다중 유형 돌연변이를 통한 네거티브 생성
돌연변이 유형:
| 유형 | 설명 | 예시 |
|---|---|---|
| Value Substitution | 동일 유형의 다른 값으로 대체 | 날짜: 2025-01-19 → 2025-01-20 |
| Type Violation | 잘못된 유형의 값 사용 | 날짜: “yesterday” 문자열 대신 정수 123 |
| Omission | 필수 파라미터 누락 | API 키 파라미터 누락 |
| Redundancy | 불필요한 파라미터 추가 | 검색 쿼리에 불필요한 필터 추가 |
| Semantic Drift | 의미적으로 관련 있지만 부적절한 값 | 위치: “Seoul” → “Busan” (사용자가 서울 물건 찾을 때) |
4.3.3 계층적 빈닝을 통한 네거티브 서브샘플링
- 계층적 빈닝 (Stratified Binning): 다양한 돌연변이 유형별로 그룹화
- 서브샘플링: 각 빈에서 균형 있게 샘플링하여 데이터 다양성 확보
4.4 의도 정렬을 위한 2단계 훈련
단계 1: 툴 선택 및 파라미터 정렬 훈련
– 목적: 올바른 툴 선택 및 파라미터 값 학습
– 방법: 합성된 데이터 (정/부)로 지도 학습
단계 2: 의도 정렬 훈련 (RLHF/Preference Learning)
– 목적: 사용자 의도와 에이전트 응답 정렬
– 방법: 네거티브 샘플을 포함한 선호 데이터로 강화 학습
5. 주요 결과
5.1 데이터 품질 결과 (RQ1)
평가 메트릭 (8개):
1. User Request Quality: 요청의 명확성 및 완전성
2. Tool Relevance: 툴 선택의 적절성
3. Chain Coherence: 툴 체인의 논리적 일관성
4. Value Validity: 파라미터 값의 타당성
5. Execution Success: 실제 실행 성공률
6. Response Correctness: 응답의 정확성
7. Trajectory Completeness: 트래젝토리의 완결성
8. Error Handling: 에러 처리 적절성
결과:
– 전반적인 품질: 다른 베이스라인 데이터와 비교 가능한 수준
– RISE 우수 항목:
– Tool Relevance: 평균 12.62% 개선
– Chain Coherence: 평균 11.12% 개선
– Value Validity: 평균 11.80% 개선
5.2 의도 정렬 결과 (RQ2)
테스트 모델: 5개 메인스트림 LLM
평가 메트릭:
– Acctask: 작업 완료 정확도 (Task Completion)
– Accintent: 의도 정렬 정확도 (Intent Alignment)
결과:
– Acctask: 평균 35.28% 개선
– Accintent: 평균 23.27% 개선
– SOTA 대비 성과:
– Acctask: 1.20% ~ 42.09% 우수
– Accintent: 1.17% ~ 54.93% 우수
5.3 일반화 결과 (RQ3)
테스트 환경: 3개의 Out-of-Distribution (OOD) 데이터셋
결과:
– 미관찰 시나리오에서도 우수한 일반화 능력
– Acctask: 평균 18.22% 개선
– Accintent: 평균 8.64% 개선
6. 논의 및 해석
6.1 Real-to-Virtual 전략의 장점
가상 도구 시뮬레이션 vs RISE:
| 측면 | 가상 도구 시뮬레이션 | RISE (Real-to-Virtual) |
|---|---|---|
| 데이터 출처 | LLM이 완전히 가상 시뮬레이션 | 실제 환경에서 검증된 툴 프리미티브 |
| 요소 부재 (Element Absence) | 특정 작업 완료에 필수적인 정보 요소 누락 | 실제 툴 스키마 기반으로 포함 |
| 패턴 저하 (Pattern Degradation) | 풍부한 파라미터 패턴(union, regex 등) 단순화 | 실제 툴의 패턴 유지 |
| 보안 제약 누락 (Security Missing) | 민감 정보 보호 등 보안 제약 고려 X | 실제 툴의 보안 제약 반영 |
예시: githubSearchPullRequests 툴
– 가상 시뮬레이션: 기본적인 파라미터만 포함
– RISE: 실제 GitHub API의 전체 파라미터(유니온, 정규식 패턴 등) 포함
6.2 네거티브 샘플의 중요성
의도 편차 시나리오에 맞는 네거티브 샘플의 필요성:
1. 에러 경계 학습: 에이전트가 언제 의도 편차가 발생하는지 학습
2. 선호 학습(Prefrence Learning) 가이드: 정/부 예제를 통해 올바른 행동 학습
3. 강건성(Robustness) 향상: 다양한 편차 유형에 대응 능력
RISE의 돌연변이 전략:
– 다양한 돌연변이 유형(Value Substitution, Type Violation, Omission 등)을 통해 의도 편차를 포괄적으로 시뮬레이션
– 계층적 빈닝을 통해 데이터 불균형 방지
6.3 2단계 훈련의 효과
단계별 역할:
– 1단계: 툴 선택 및 파라미터 정렬 → 기본적 툴 사용 능력 향상
– 2단계: 의도 정렬(RLHF) → 사용자 의도와 응답 정렬
시너지 효과:
– 1단계에서 학습된 툴 사용 능력을 바탕으로 2단계에서 의도 정렬 훈련
– 기존 방법론보다 효과적인 의도 정렬 달성
7. 한계 및 제언
7.1 한계점
- 툴 의존성: RISE의 성능은 사용 가능한 실제 툴 프리미티브의 품질에 의존
- 돌연변이 범위: 현재 돌연변이 유형이 미래의 의도 편차 패턴을 완전히 포함하지 못할 수 있음
- 계산 비용: Real-to-Virtual 합성 및 다양한 네거티브 생성에 계산 비용 소요
- 도메인 특이성: 특정 도메인(예: 의료, 금융)에서의 특수한 의도 편차 패턴 추가 조사 필요
7.2 향후 연구 방향
- 동적 돌연변이 학습: 새로운 의도 편차 패턴이 발견될 때마다 돌연변이 전략 업데이트
- 크로스 도메인 일반화: 여러 도메인의 툴에 대한 일반화된 RISE 프레임워크 확장
- 실제 사용자 피드백 통합: 실제 사용자 피드백을 통해 합성 데이터 품질 개선
- 멀티 모달 의도 편차: 텍스트 외의 다른 모달(이미지, 오디오)에서의 의도 편차 해결
📌 3단계: 비판적 평가
방법론적 타당성
강점:
1. Real-to-Virtual 전략의 창의성: 실제 툴 프리미티브에서 시작하여 가상 데이터로 확장하는 접근법은 실제 환경과의 간격(Gap)을 최소화
2. 다중 유형 돌연변이: 다양한 의도 편차 유형을 체계적으로 시뮬레이션하여 데이터 다양성 확보
3. 2단계 훈련: 툴 사용 능력과 의도 정렬을 단계적으로 학습하여 시너지 효과 달성
4. 포괄적 평가: 데이터 품질, 의도 정렬, 일반화의 3가지 관점에서 평가
약점:
1. 돌연변이 유형의 주관성: 어떤 파라미터를 ICP로 식별하고 어떤 돌연변이 유형을 적용할지 주관적일 수 있음
2. 네거티브 샘플의 품질 검증: 생성된 네거티브 샘플이 실제 의도 편차 시나리오와 일치하는지 추가 검증 필요
논리적 일관성
강점:
1. 명확한 문제 정의: 의도 편차를 수학적으로 정의하고 구체적인 예시 제시
2. 논리적 접근: 문제 → 원인 → 해결책 → 평가의 흐름이 논리적
3. 기존 연구와의 차별화: 실제 시스템 샘플과 LLM 시뮬레이션의 한계를 모두 해결하는 Real-to-Virtual 전략 제시
약점:
1. 실제 실험 부족: 논문에 실제 사용자 연구나 A/B 테스트 결과가 부족
2. 베이스라인 비교의 제한성: 특정 베이스라인과만 비교하여 다른 방법론과의 직접 비교 부족
기여도 평가
이론적 기여:
1. 의도 편차 개념의 명확화: 툴 사용 에이전트에서 은밀한 실패 모델인 의도 편차를 체계적으로 정의
2. Real-to-Virtual 전략 제시: 가상 시뮬레이션과 실제 데이터 사이의 새로운 접근법 제안
실용적 기여:
1. RISE 패키지 오픈소스: 재현성 및 향후 연구 지원
2. 데이터 합성 방법론: 다른 툴 사용 에이전트 연구에 활용 가능한 범용적 프레임워크 제공
3. 성능 개선: 5개 메인스트림 LLM에서 Acctask 35.28%, Accintent 23.27% 개선
혁신성:
1. 새로운 문제 발견: 의도 편차라는 미탐색된 문제 영역 식별
2. 창의적 해결책: Real-to-Virtual 전략과 다중 유형 돌연변이의 조합
실무 적용 포인트
실무 적용 시나리오
- 고객 서비스 챗봇: 툴 사용을 통한 자동화된 고객 서비스에서 의도 편차 최소화
- API 호출 자동화: 복잡한 API 체인을 호출하는 시스템에서 정확한 툴 선택 및 파라미터 사용
- 데이터 분석 에이전트: 다양한 데이터 분석 툴을 사용하는 에이전트에서 정확한 툴 체인 구성
구현 가이드라인
1단계: 툴 프리미티브 수집
# 실제 환경에서 툴 스키마 수집
tools = collect_tool_schemas(api_endpoints)
validated_primitives = validate_executability(tools)
2단계: RISE 데이터 합성
# RISE로 가상 트래젝토리 및 요청 합성
synthetic_data = rise.synthesize_trajectories(
primitives=validated_primitives,
planning_patterns=['linear', 'branching', 'loop'],
negative_mutations=['substitution', 'violation', 'omission']
)
3단계: 2단계 훈련
# 1단계: 툴 선택 및 파라미터 정렬 훈련
model_stage1 = train_tool_selection(
data=synthetic_data,
loss='cross_entropy'
)
# 2단계: 의도 정렬 훈련 (RLHF)
model_stage2 = train_intent_alignment(
base_model=model_stage1,
preference_data=synthetic_data,
method='rlhf'
)
4단계: 평가 및 배포
# 평가
metrics = evaluate(model_stage2, test_data)
# 배포
deploy(model_stage2)
주의사항
- 툴 프리미티브 품질: 실제 환경에서 정확히 검증된 툴 프리미티브 사용
- 데이터 다양성: 다양한 돌연변이 유형과 계획 패턴을 통해 데이터 다양성 확보
- 지속적 업데이트: 새로운 툴과 의도 편차 패턴 발견 시 모델 재훈련
- 모니터링: 배포 후 실제 의도 편차 발생을 모니터링하여 지속적 개선
References
- Xiong, Q., Huang, Y., Yang, B., Zheng, Y., Li, T., Jiang, Z., Chang, Z., Li, Z., Feng, H., & Li, M. (2026). Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories. arXiv preprint arXiv:2601.15120v2.
- Luo, Y. et al. (2025). Large language model agent: a survey on methodology, applications and challenges.
- Mohammadi, E. et al. (2025). Evaluation and benchmarking of llm agents: a survey.
- Qin, Y. et al. (2023). ToolLLM: facilitating large language models to master 16000+ real-world apis.
- Patil, A. et al. (2024). Gorilla: large language model connected with massive apis.
- Tang, X. et al. (2023). ToolAlpaca: generalized tool learning for language models with 3000 simulated cases.
📝 요약
[!tip] 핵심 요약
이 논문은 LLM 기반 툴 사용 에이전트에서 발생하는 의도 편차(Intent Deviation) 문제를 해결하기 위해 RISE (Real-to-Virtual) 방법을 제안합니다.주요 기여:
1. Real-to-Virtual 전략: 실제 환경에서 검증된 툴 프리미티브에서 가상 트래젝토리로 진화
2. 다중 유형 돌연변이: 핵심 파라미터에 대한 다양한 돌연변이를 통해 의도 편차 네거티브 샘플 생성
3. 2단계 훈련: 툴 선택/파라미터 정렬 → 의도 정렬(RLHF)의 단계적 훈련성과: 5개 메인스트림 LLM에서 Acctask 35.28%, Accintent 23.27% 개선
실무적 의미: 툴 사용 에이전트의 신뢰성 향상 및 실제 응용 프로그램 배포 가속화
[!note] 연습문제
문제 1: 의도 편차(Intent Deviation)의 두 가지 유형을 설명하고 각각에 대한 예시를 들어보세요.문제 2: RISE의 Real-to-Virtual 전략이 기존 LLM 시뮬레이션 방법보다 우수한 이유를 설명하세요.
문제 3: 다음 돌연변이 유형 중 어떤 것이 의도 편차를 가장 잘 시뮬레이션하는지 설명하고 그 이유를 말하세요.
– Value Substitution
– Type Violation
– Omission
– Redundancy
– Semantic Drift정답 보기:
[!success]- 정답 보기
문제 1: (1) 툴 선택 편차 – 뉴스 검색 시 Bing 대신 Baidu 호출 / (2) 파라미터 값 편차 – 요청한 1월 19일 대신 1월 20일 입력문제 2: (1) 요소 부재 해결 – 실제 툴의 모든 필수 요소 포함 / (2) 패턴 저하 방지 – 실제 툴의 복잡한 파라미터 패턴 유지 / (3) 보안 제약 반영 – 실제 툴의 보안 제약 포함
문제 3: Semantic Drift가 가장 잘 시뮬레이션 – 의미적으로 관련 있지만 사용자 의도와 부적절한 값 사용이 실제 의도 편차 시나리오와 가장 유사함
작성 완료: 2026-01-26