[AI Paper] Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

2026년 01월 26일 8 Min Read

📄 Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

📌 1단계: 기본 정보

제목

Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories

저자

Qian Xiong (Beijing Forestry University)
Yuekai Huang (Institute of Software, Chinese Academy of Sciences)
Bo Yang (Beijing Forestry University)
Yujia Zheng (Duke University)
Tianhao Li (Duke University)
Ziyou Jiang, Zhiyuan Chang, Zhaoyang Li, Huanxiang Feng, Mingyang Li

출판정보

arXiv ID: 2601.15120v2
발행일: 2026년 1월 21일 (v1), 2026년 1월 22일 (v2)
분야/카테고리: Computer Science > Artificial Intelligence (cs.AI)

링크

arXiv: https://arxiv.org/abs/2601.15120v2
PDF: https://arxiv.org/pdf/2601.15120v2.pdf
GitHub: https://anonymous.4open.science/r/TAIAlignment-6C3801/

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

툴 사용 에이전트의 발전

LLM(Large Language Models)이 툴 사용 에이전트(Tool-Using Agents)의 발전을 주도
외부 툴 호출을 통해 텍스트 생성을 확장하고 실제 응용 프로그램을 가능하게 함
언어 이해를 실행 가능한 액션에 기반(Grounding)시킴

기존 문제점

명백한 실패 (Obvious Failures)
- 파라미터 할루시네이션(Parameter Hallucination)
- 호환되지 않는 이름이나 값으로 인한 호출 실패
- 작업 중단
의도 편차 (Intent Deviation) ⭐ 핵심 문제
- 에이전트가 기능적으로 보이지만, 실제 사용자 의도와 트래젝토리가 다른 상태
- 계획 단계의 부적절한 툴 선택: 뉴스 검색 시 Bing 대신 Baidu 호출
- 실행 단계의 예상치 못한 파라미터 입력: 요청한 1월 19일 대신 1월 20일 입력
- 명백한 실패 트레이스와 달리, 은밀한(covert) 성격으로 식별과 평가가 어려움

기존 접근법의 한계

접근법	장점	단점
실제 시스템 샘플	진정성 보장	수작업된 사용자 요청에 의존 → 입력 다양성, 툴 커버리지, 정답 라벨링 비용 높음
LLM 시뮬레이션 데이터	비용 효율적	가상 도구와 실제 도구 간의 분포 차이(Distribution Shift) 존재
공통 문제	–	의도 편차 시나리오에 맞는 네거티브 샘플 부족 → 효과적인 선호 학습(Prefrence Learning) 가이드 부족

2. 연구 목적 및 연구 질문

연구 목적

툴 사용 에이전트에서 의도 편차(Intent Deviation) 문제를 해결하기 위한 RISE 방법 제안

연구 질문 (RQ)

RQ1: RISE로 합성된 데이터의 품질은 기존 베이스라인 데이터와 비교하여 어떠한가?
RQ2: RISE로 파인튜닝된 모델은 의도 정렬(Intent Alignment) 성능을 어느 정도 개선하는가?
RQ3: RISE로 개선된 모델은 미관찰(Unseen) 시나리오에서 어떤 일반화 능력을 보이는가?

3. 이론적 프레임워크

의도 편차 (Intent Deviation) 정의

사용자 요청 $q$가 $n$개의 핵심 요소 $\mathcal{K}={K_{1},K_{2},\dots,K_{n}}$를 포함하고, 각 $K_{j}$가 하위 의도(Sub-intention)와 키 값 $v(K_{j})$로 구성될 때:

$$K_{j} = (\text{sub-intention}{j}, v(K{j}))$$

의도 편차는 다음 중 하나 이상의 경우:
1. 툴 선택 편차: $K_{j}$에 부합하는 툴이 아닌 다른 툴 선택
2. 파라미터 값 편차: $K_{j}$의 하위 의도에 맞지 않는 파라미터 값 사용

핵심 툴 및 파라미터 (Critical Tool & Parameter)

핵심 툴 (Critical Tool): 사용자 요청의 핵심 의도를 수행하는 툴
핵심 파라미터 (Critical Parameter): 툴의 실행 결과가 사용자 의도와 정렬되는지 결정하는 파라미터

RISE의 핵심 철학

Real-to-Virtual 전략: 실제 환경에서 검증된 툴 프리미티브에서 시작하여 가상 트래젝토리로 진화
의도 인식형 툴 및 파라미터 포커스: 핵심 툴/파라미터 식별 및 돌연변이를 통해 다양한 의도 편차 네거티브 생성

4. 연구 방법론

RISE 방법론 개요

실제 툴 프리미티브
      ↓
가상 트래젝토리 합성 (Real-to-Virtual)
      ↓
핵심 파라미터 식별 및 돌연변이
      ↓
다양한 네거티브 샘플 생성
      ↓
2단계 훈련 (Intent Alignment)

4.1 툴 그라운드 초기화 (Tool Ground Initialization)

툴 스키마 수집: 실제 환경에서 API 스키마 수집
툴 프리미티브 정의: 검증된 툴 프리미티브 정의
실행 가능성 검증: 각 툴 프리미티브의 실제 실행 가능성 검증

4.2 Real-to-Virtual 데이터 합성

4.2.1 툴 프리미티브 생성 및 실행 가능성 검증

툴 프리미티브: 툴 호출의 최소 단위 (툴 이름 + 파라미터)
검증: 실제 환경에서 실행 가능성 확인

4.2.2 다중 계획 패턴을 통한 트래젝토리 합성

계획 패턴 유형:
1. Linear Pattern: 순차적 툴 호출
2. Branching Pattern: 조건부 툴 선택
3. Loop Pattern: 반복적 툴 호출
4. Parallel Pattern: 병렬 툴 호출

4.2.3 요청 합성 및 정확성 검증

요청 생성: 합성된 트래젝토리로부터 역추론하여 사용자 요청 생성
검증: 생성된 요청이 트래젝토리와 정렬되는지 확인

4.3 다중 유형 돌연변이를 통한 네거티브 확장

4.3.1 의미론적 매핑을 통한 ICP 식별

ICP (Intent-Critical Parameter): 의도 편차 발생에 중요한 파라미터
의미론적 매핑: 파라미터의 의미적 역할 식별

4.3.2 ICP에 대한 다중 유형 돌연변이를 통한 네거티브 생성

돌연변이 유형:

유형	설명	예시
Value Substitution	동일 유형의 다른 값으로 대체	날짜: 2025-01-19 → 2025-01-20
Type Violation	잘못된 유형의 값 사용	날짜: “yesterday” 문자열 대신 정수 123
Omission	필수 파라미터 누락	API 키 파라미터 누락
Redundancy	불필요한 파라미터 추가	검색 쿼리에 불필요한 필터 추가
Semantic Drift	의미적으로 관련 있지만 부적절한 값	위치: “Seoul” → “Busan” (사용자가 서울 물건 찾을 때)

4.3.3 계층적 빈닝을 통한 네거티브 서브샘플링

계층적 빈닝 (Stratified Binning): 다양한 돌연변이 유형별로 그룹화
서브샘플링: 각 빈에서 균형 있게 샘플링하여 데이터 다양성 확보

4.4 의도 정렬을 위한 2단계 훈련

단계 1: 툴 선택 및 파라미터 정렬 훈련
– 목적: 올바른 툴 선택 및 파라미터 값 학습
– 방법: 합성된 데이터 (정/부)로 지도 학습

단계 2: 의도 정렬 훈련 (RLHF/Preference Learning)
– 목적: 사용자 의도와 에이전트 응답 정렬
– 방법: 네거티브 샘플을 포함한 선호 데이터로 강화 학습

5. 주요 결과

5.1 데이터 품질 결과 (RQ1)

평가 메트릭 (8개):
1. User Request Quality: 요청의 명확성 및 완전성
2. Tool Relevance: 툴 선택의 적절성
3. Chain Coherence: 툴 체인의 논리적 일관성
4. Value Validity: 파라미터 값의 타당성
5. Execution Success: 실제 실행 성공률
6. Response Correctness: 응답의 정확성
7. Trajectory Completeness: 트래젝토리의 완결성
8. Error Handling: 에러 처리 적절성

결과:
– 전반적인 품질: 다른 베이스라인 데이터와 비교 가능한 수준
– RISE 우수 항목:
– Tool Relevance: 평균 12.62% 개선
– Chain Coherence: 평균 11.12% 개선
– Value Validity: 평균 11.80% 개선

5.2 의도 정렬 결과 (RQ2)

테스트 모델: 5개 메인스트림 LLM
평가 메트릭:
– Acc_task: 작업 완료 정확도 (Task Completion)
– Acc_intent: 의도 정렬 정확도 (Intent Alignment)

결과:
– Acc_task: 평균 35.28% 개선
– Acc_intent: 평균 23.27% 개선
– SOTA 대비 성과:
– Acc_task: 1.20% ~ 42.09% 우수
– Acc_intent: 1.17% ~ 54.93% 우수

5.3 일반화 결과 (RQ3)

테스트 환경: 3개의 Out-of-Distribution (OOD) 데이터셋

결과:
– 미관찰 시나리오에서도 우수한 일반화 능력
– Acc_task: 평균 18.22% 개선
– Acc_intent: 평균 8.64% 개선

6. 논의 및 해석

6.1 Real-to-Virtual 전략의 장점

가상 도구 시뮬레이션 vs RISE:

측면	가상 도구 시뮬레이션	RISE (Real-to-Virtual)
데이터 출처	LLM이 완전히 가상 시뮬레이션	실제 환경에서 검증된 툴 프리미티브
요소 부재 (Element Absence)	특정 작업 완료에 필수적인 정보 요소 누락	실제 툴 스키마 기반으로 포함
패턴 저하 (Pattern Degradation)	풍부한 파라미터 패턴(union, regex 등) 단순화	실제 툴의 패턴 유지
보안 제약 누락 (Security Missing)	민감 정보 보호 등 보안 제약 고려 X	실제 툴의 보안 제약 반영

예시: githubSearchPullRequests 툴
– 가상 시뮬레이션: 기본적인 파라미터만 포함
– RISE: 실제 GitHub API의 전체 파라미터(유니온, 정규식 패턴 등) 포함

6.2 네거티브 샘플의 중요성

의도 편차 시나리오에 맞는 네거티브 샘플의 필요성:
1. 에러 경계 학습: 에이전트가 언제 의도 편차가 발생하는지 학습
2. 선호 학습(Prefrence Learning) 가이드: 정/부 예제를 통해 올바른 행동 학습
3. 강건성(Robustness) 향상: 다양한 편차 유형에 대응 능력

RISE의 돌연변이 전략:
– 다양한 돌연변이 유형(Value Substitution, Type Violation, Omission 등)을 통해 의도 편차를 포괄적으로 시뮬레이션
– 계층적 빈닝을 통해 데이터 불균형 방지

6.3 2단계 훈련의 효과

단계별 역할:
– 1단계: 툴 선택 및 파라미터 정렬 → 기본적 툴 사용 능력 향상
– 2단계: 의도 정렬(RLHF) → 사용자 의도와 응답 정렬

시너지 효과:
– 1단계에서 학습된 툴 사용 능력을 바탕으로 2단계에서 의도 정렬 훈련
– 기존 방법론보다 효과적인 의도 정렬 달성

7. 한계 및 제언

7.1 한계점

툴 의존성: RISE의 성능은 사용 가능한 실제 툴 프리미티브의 품질에 의존
돌연변이 범위: 현재 돌연변이 유형이 미래의 의도 편차 패턴을 완전히 포함하지 못할 수 있음
계산 비용: Real-to-Virtual 합성 및 다양한 네거티브 생성에 계산 비용 소요
도메인 특이성: 특정 도메인(예: 의료, 금융)에서의 특수한 의도 편차 패턴 추가 조사 필요

7.2 향후 연구 방향

동적 돌연변이 학습: 새로운 의도 편차 패턴이 발견될 때마다 돌연변이 전략 업데이트
크로스 도메인 일반화: 여러 도메인의 툴에 대한 일반화된 RISE 프레임워크 확장
실제 사용자 피드백 통합: 실제 사용자 피드백을 통해 합성 데이터 품질 개선
멀티 모달 의도 편차: 텍스트 외의 다른 모달(이미지, 오디오)에서의 의도 편차 해결

📌 3단계: 비판적 평가

방법론적 타당성

강점:
1. Real-to-Virtual 전략의 창의성: 실제 툴 프리미티브에서 시작하여 가상 데이터로 확장하는 접근법은 실제 환경과의 간격(Gap)을 최소화
2. 다중 유형 돌연변이: 다양한 의도 편차 유형을 체계적으로 시뮬레이션하여 데이터 다양성 확보
3. 2단계 훈련: 툴 사용 능력과 의도 정렬을 단계적으로 학습하여 시너지 효과 달성
4. 포괄적 평가: 데이터 품질, 의도 정렬, 일반화의 3가지 관점에서 평가

약점:
1. 돌연변이 유형의 주관성: 어떤 파라미터를 ICP로 식별하고 어떤 돌연변이 유형을 적용할지 주관적일 수 있음
2. 네거티브 샘플의 품질 검증: 생성된 네거티브 샘플이 실제 의도 편차 시나리오와 일치하는지 추가 검증 필요

논리적 일관성

강점:
1. 명확한 문제 정의: 의도 편차를 수학적으로 정의하고 구체적인 예시 제시
2. 논리적 접근: 문제 → 원인 → 해결책 → 평가의 흐름이 논리적
3. 기존 연구와의 차별화: 실제 시스템 샘플과 LLM 시뮬레이션의 한계를 모두 해결하는 Real-to-Virtual 전략 제시

약점:
1. 실제 실험 부족: 논문에 실제 사용자 연구나 A/B 테스트 결과가 부족
2. 베이스라인 비교의 제한성: 특정 베이스라인과만 비교하여 다른 방법론과의 직접 비교 부족

기여도 평가

이론적 기여:
1. 의도 편차 개념의 명확화: 툴 사용 에이전트에서 은밀한 실패 모델인 의도 편차를 체계적으로 정의
2. Real-to-Virtual 전략 제시: 가상 시뮬레이션과 실제 데이터 사이의 새로운 접근법 제안

실용적 기여:
1. RISE 패키지 오픈소스: 재현성 및 향후 연구 지원
2. 데이터 합성 방법론: 다른 툴 사용 에이전트 연구에 활용 가능한 범용적 프레임워크 제공
3. 성능 개선: 5개 메인스트림 LLM에서 Acc_task 35.28%, Acc_intent 23.27% 개선

혁신성:
1. 새로운 문제 발견: 의도 편차라는 미탐색된 문제 영역 식별
2. 창의적 해결책: Real-to-Virtual 전략과 다중 유형 돌연변이의 조합

실무 적용 포인트

실무 적용 시나리오

고객 서비스 챗봇: 툴 사용을 통한 자동화된 고객 서비스에서 의도 편차 최소화
API 호출 자동화: 복잡한 API 체인을 호출하는 시스템에서 정확한 툴 선택 및 파라미터 사용
데이터 분석 에이전트: 다양한 데이터 분석 툴을 사용하는 에이전트에서 정확한 툴 체인 구성

구현 가이드라인

1단계: 툴 프리미티브 수집

# 실제 환경에서 툴 스키마 수집
tools = collect_tool_schemas(api_endpoints)
validated_primitives = validate_executability(tools)

2단계: RISE 데이터 합성

# RISE로 가상 트래젝토리 및 요청 합성
synthetic_data = rise.synthesize_trajectories(
    primitives=validated_primitives,
    planning_patterns=['linear', 'branching', 'loop'],
    negative_mutations=['substitution', 'violation', 'omission']
)

3단계: 2단계 훈련

# 1단계: 툴 선택 및 파라미터 정렬 훈련
model_stage1 = train_tool_selection(
    data=synthetic_data,
    loss='cross_entropy'
)

# 2단계: 의도 정렬 훈련 (RLHF)
model_stage2 = train_intent_alignment(
    base_model=model_stage1,
    preference_data=synthetic_data,
    method='rlhf'
)

4단계: 평가 및 배포

# 평가
metrics = evaluate(model_stage2, test_data)

# 배포
deploy(model_stage2)

주의사항

툴 프리미티브 품질: 실제 환경에서 정확히 검증된 툴 프리미티브 사용
데이터 다양성: 다양한 돌연변이 유형과 계획 패턴을 통해 데이터 다양성 확보
지속적 업데이트: 새로운 툴과 의도 편차 패턴 발견 시 모델 재훈련
모니터링: 배포 후 실제 의도 편차 발생을 모니터링하여 지속적 개선

References

Xiong, Q., Huang, Y., Yang, B., Zheng, Y., Li, T., Jiang, Z., Chang, Z., Li, Z., Feng, H., & Li, M. (2026). Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories. arXiv preprint arXiv:2601.15120v2.
Luo, Y. et al. (2025). Large language model agent: a survey on methodology, applications and challenges.
Mohammadi, E. et al. (2025). Evaluation and benchmarking of llm agents: a survey.
Qin, Y. et al. (2023). ToolLLM: facilitating large language models to master 16000+ real-world apis.
Patil, A. et al. (2024). Gorilla: large language model connected with massive apis.
Tang, X. et al. (2023). ToolAlpaca: generalized tool learning for language models with 3000 simulated cases.

📝 요약

[!tip] 핵심 요약
이 논문은 LLM 기반 툴 사용 에이전트에서 발생하는 의도 편차(Intent Deviation) 문제를 해결하기 위해 RISE (Real-to-Virtual) 방법을 제안합니다.

주요 기여:
1. Real-to-Virtual 전략: 실제 환경에서 검증된 툴 프리미티브에서 가상 트래젝토리로 진화
2. 다중 유형 돌연변이: 핵심 파라미터에 대한 다양한 돌연변이를 통해 의도 편차 네거티브 샘플 생성
3. 2단계 훈련: 툴 선택/파라미터 정렬 → 의도 정렬(RLHF)의 단계적 훈련

성과: 5개 메인스트림 LLM에서 Acc_task 35.28%, Acc_intent 23.27% 개선

실무적 의미: 툴 사용 에이전트의 신뢰성 향상 및 실제 응용 프로그램 배포 가속화

[!note] 연습문제
문제 1: 의도 편차(Intent Deviation)의 두 가지 유형을 설명하고 각각에 대한 예시를 들어보세요.

문제 2: RISE의 Real-to-Virtual 전략이 기존 LLM 시뮬레이션 방법보다 우수한 이유를 설명하세요.

문제 3: 다음 돌연변이 유형 중 어떤 것이 의도 편차를 가장 잘 시뮬레이션하는지 설명하고 그 이유를 말하세요.
– Value Substitution
– Type Violation
– Omission
– Redundancy
– Semantic Drift

정답 보기:

[!success]- 정답 보기
문제 1: (1) 툴 선택 편차 – 뉴스 검색 시 Bing 대신 Baidu 호출 / (2) 파라미터 값 편차 – 요청한 1월 19일 대신 1월 20일 입력

문제 2: (1) 요소 부재 해결 – 실제 툴의 모든 필수 요소 포함 / (2) 패턴 저하 방지 – 실제 툴의 복잡한 파라미터 패턴 유지 / (3) 보안 제약 반영 – 실제 툴의 보안 제약 포함

문제 3: Semantic Drift가 가장 잘 시뮬레이션 – 의미적으로 관련 있지만 사용자 의도와 부적절한 값 사용이 실제 의도 편차 시나리오와 가장 유사함

작성 완료: 2026-01-26