[AI Paper] 📄 Tool Learning with Foundation Models

2026년 01월 25일 8 Min Read

📄 Tool Learning with Foundation Models

📋 메타 정보

항목	내용
제목	Tool Learning with Foundation Models
저자	Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding 외 40+ 연구자
소속	Tsinghua University, Renmin University, UIUC, NYU, CMU, Beijing University of Posts and Telecommunications
발표	arXiv: 2304.08354 (April 2023)
출판	ACM Computing Surveys (2024)
GitHub	OpenBMB/BMTools, thunlp/ToolLearningPapers
유형	Survey Paper

🎯 한줄 요약

Foundation Model이 외부 도구(API, 검색엔진, 계산기 등)를 활용하여 복잡한 문제를 해결하는 “Tool Learning” 패러다임에 대한 최초의 체계적인 종합 서베이로, 프레임워크 구성요소, 학습 방법론, 일반화 전략 및 미해결 문제를 포괄적으로 정리함.

🔍 연구 배경 및 동기

인간의 도구 사용 능력

인간은 도구를 창조하고 활용하는 탁월한 능력을 보유
도구 사용을 통해 신체적 한계 극복 및 새로운 영역 탐험 가능
인지적 관점에서 도구는 특정 기능을 가진 객체로 인식되며, 목표 지향적 시연 관찰을 통해 사용법 습득

Foundation Model의 등장

대규모 데이터로 학습된 Foundation Model은 광범위한 도메인 지식 보유
적절한 조정 시 의사결정 및 장기 계획 수행 가능
뛰어난 추론 능력으로 행동 결과 예측 및 합리적 결정 가능

Tool Learning의 필요성

Foundation Model만으로는 해결하기 어려운 문제 존재:
- 최신 정보 접근: 학습 데이터 기준일 이후 정보
- 정확한 계산: 수학적 연산의 정밀도
- 실시간 데이터: 날씨, 주가 등 동적 정보
- 전문 도구 활용: 코드 실행, 데이터베이스 쿼리

연구 동기

Tool Learning 분야의 체계적 이해 부족
핵심 과제, 기회, 미래 연구 방향에 대한 종합적 조망 필요
Foundation Model과 도구 통합의 잠재력 탐구

💡 핵심 아이디어

Tool Learning의 정의

Tool Learning with Foundation Models는 전문화된 도구와 Foundation Model의 강점을 결합하여 문제 해결에서 향상된 정확도, 효율성, 자동화를 달성하는 패러다임

핵심 개념

┌─────────────────────────────────────────────────────────┐
│                    Tool Learning                         │
├─────────────────────────────────────────────────────────┤
│  Foundation Model + External Tools = Enhanced AI        │
│                                                         │
│  • 모델의 지식 + 도구의 기능 = 시너지 효과              │
│  • 모델의 추론 + 도구의 실행 = 실질적 결과              │
│  • 모델의 계획 + 도구의 전문성 = 복잡한 문제 해결       │
└─────────────────────────────────────────────────────────┘

분류 체계

1. 도구 유형에 따른 분류

유형	설명	예시
Physical Tools	실제 세계와 상호작용하는 도구	로봇 팔, 센서, 액추에이터
Cognitive Tools	인지 기능을 확장하는 도구	계산기, 검색엔진, 번역기
Virtual Tools	디지털 환경의 소프트웨어 도구	API, 코드 라이브러리, GUI

2. 학습 접근법에 따른 분류

접근법	설명
Tool-Augmented Learning	기존 모델에 도구 사용 능력 추가
Tool-Oriented Learning	도구 사용에 최적화된 모델 학습

3. 학습 방법에 따른 분류

방법	특징
Prompting-based	고정된 모델의 In-context Learning 활용
Training-based	지도 학습으로 모델 파라미터 최적화

🏗️ 프레임워크

4가지 핵심 구성요소

┌─────────────────────────────────────────────────────────────┐
│                     Tool Learning Framework                  │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│    ┌──────────┐        ┌──────────────┐                     │
│    │   User   │───────▶│  Controller  │                     │
│    │          │        │ (Foundation  │                     │
│    │Instruction│       │    Model)    │                     │
│    └──────────┘        └──────┬───────┘                     │
│                               │                              │
│                        Plan & Execute                        │
│                               │                              │
│                               ▼                              │
│    ┌──────────┐        ┌──────────────┐                     │
│    │ Tool Set │◀──────▶│ Environment  │                     │
│    │          │        │              │                     │
│    │  APIs    │        │   Results    │                     │
│    │  Plugins │        │   Feedback   │                     │
│    └──────────┘        └──────┬───────┘                     │
│                               │                              │
│                               ▼                              │
│                        ┌──────────────┐                     │
│                        │  Perceiver   │──────▶ Controller    │
│                        │              │       (feedback)     │
│                        │  Summarize   │                      │
│                        │   Feedback   │                      │
│                        └──────────────┘                      │
│                                                              │
└─────────────────────────────────────────────────────────────┘

1. Controller (컨트롤러)

역할: Tool Learning 프레임워크의 “두뇌”
구현: Foundation Model 기반
핵심 기능:
- 사용자 의도 파악
- 사용 가능한 도구와 의도의 관계 이해
- 적절한 도구 선택을 위한 계획 수립
- 복잡한 태스크의 서브태스크 분해
- 추론을 통한 동적 계획 조정

2. Perceiver (인지기)

역할: 사용자 및 환경 피드백 처리
핵심 기능:
- 피드백 수집 및 요약
- 요약된 정보를 Controller에 전달
- 계획의 효과성 판단 지원
- 실행 중 이상 상황 감지
멀티모달 지원: 텍스트, 비전, 오디오 등 다양한 모달리티 처리

3. Tool Set (도구 집합)

역할: 태스크 수행을 위해 호출 가능한 도구들의 집합
예시: 검색 API, 계산기, 번역기, 코드 실행기, 데이터베이스 쿼리

4. Environment (환경)

역할: 도구 실행이 이루어지는 공간
기능:
- 도구 실행 결과 생성
- Perceiver에 피드백 제공

Tool 유형 분류

API 기반 도구

카테고리	예시	기능
검색 API	Google Search, Bing, Wikipedia	정보 검색
계산 API	Wolfram Alpha, Calculator	수학적 계산
번역 API	Google Translate, DeepL	언어 번역
지식 API	Knowledge Base, QA System	지식 쿼리
코드 실행	Python Interpreter	코드 실행 및 결과 반환

물리적 도구

로봇 조작 (Embodied AI)
센서 및 액추에이터
IoT 디바이스

Learning 방법 분류

1. Learning from Demonstrations (시연 학습)

┌─────────────────────────────────────────────────┐
│         Learning from Demonstrations            │
├─────────────────────────────────────────────────┤
│                                                 │
│  (1) In-Context Learning (ICL)                 │
│      • 프롬프트에 도구 사용 예시 포함           │
│      • 모델 파라미터 변경 없음                  │
│      • Few-shot 학습                           │
│                                                 │
│  (2) Full Model Fine-tuning                    │
│      • 도구 주석이 달린 데이터셋으로 학습       │
│      • 전체 모델 파라미터 업데이트              │
│      • 높은 계산 비용                          │
│                                                 │
│  (3) Parameter-Efficient Fine-tuning (PEFT)   │
│      • LoRA, Adapter 등 활용                   │
│      • 일부 파라미터만 업데이트                 │
│      • 효율적인 학습                           │
│                                                 │
│  목표: Behavioral Cloning                       │
│      • 전문가의 행동 모방                       │
│      • 특정 입력에 대한 행동 학습               │
│                                                 │
└─────────────────────────────────────────────────┘

2. Learning from Feedback (피드백 학습)

┌─────────────────────────────────────────────────┐
│          Learning from Feedback                 │
├─────────────────────────────────────────────────┤
│                                                 │
│  (1) Reinforcement Learning (RL)               │
│      • 상호작용 기반 피드백으로 학습            │
│      • 순차적, 적응적 도구 사용 학습            │
│      • 동적 학습 가능                          │
│                                                 │
│  (2) RLHF (Reinforcement Learning from         │
│      Human Feedback)                            │
│      • 인간 피드백 기반 보상 모델 학습          │
│      • PPO 등 RL 알고리즘으로 최적화            │
│      • WebGPT: 검색 엔진 조작 최적화            │
│                                                 │
│  (3) Execution Feedback                         │
│      • 도구 실행 결과를 피드백으로 활용         │
│      • 자동화된 학습 가능                       │
│      • 레이블 비용 절감                         │
│                                                 │
│  장점: 정적 시연의 한계 극복                    │
│  단점: 인간 피드백은 비용이 높고 지연 발생      │
│                                                 │
└─────────────────────────────────────────────────┘

일반 절차 (General Procedure)

1. User Instruction (사용자 지시)
         │
         ▼
2. Intent Understanding (의도 이해)
   - 사용자가 원하는 것 파악
   - 암묵적 요구사항 추론
         │
         ▼
3. Tool Understanding (도구 이해)
   - 도구의 기능과 사용법 파악
   - 적절한 도구 매칭
         │
         ▼
4. Task Planning (태스크 계획)
   - 복잡한 태스크 분해
   - 서브태스크 순서 결정
         │
         ▼
5. Tool Selection (도구 선택)
   - 각 서브태스크에 적합한 도구 선택
   - 도구 파라미터 설정
         │
         ▼
6. Task Execution (태스크 실행)
   - 선택된 도구 호출
   - 결과 수집
         │
         ▼
7. Response Generation (응답 생성)
   - 실행 결과 종합
   - 사용자에게 최종 응답 전달

📊 주요 연구 비교

대표적인 Tool Learning 연구

연구	발표	핵심 기여	학습 방법
Toolformer	NeurIPS 2023	자기 지도 학습으로 API 호출 시점/방법 학습	Self-supervised
ReAct	ICLR 2023	추론(Reasoning)과 행동(Acting)의 교차	Prompting
Gorilla	NeurIPS 2024	API 호출 정확도 향상, Retrieval-augmented	Fine-tuning
WebGPT	–	RLHF로 검색 엔진 활용 최적화	RLHF
HuggingGPT	NeurIPS 2023	ChatGPT + Hugging Face 모델 통합	Prompting
ToolLLM	–	오픈 도메인 API 활용	Fine-tuning
API-Bank	–	RESTful API 활용 벤치마크	Benchmark

학습 방법별 비교

방법	장점	단점
In-Context Learning	즉시 적용 가능, 파라미터 변경 없음	컨텍스트 길이 제한, 복잡한 도구에 부적합
Fine-tuning	높은 성능, 복잡한 도구 학습 가능	높은 계산 비용, 데이터 필요
RLHF	인간 선호도 반영, 안전성 향상	레이블 비용 높음, 지연 발생
Execution Feedback	자동화 가능, 비용 효율적	피드백 품질에 의존

실험 결과 요약

논문에서 18개의 대표적인 도구로 실험 수행
ChatGPT가 간단한 프롬프팅만으로 효과적인 도구 사용 시연
BMTools 프레임워크를 통한 오픈소스 구현 제공
Foundation Model의 일반 에이전트로서의 잠재력 입증

💪 강점

논문의 강점

포괄적인 서베이
- Tool Learning 분야의 최초 체계적 종합 서베이
- 인지과학부터 실제 구현까지 폭넓은 관점 제공
명확한 프레임워크 정의
- 4가지 핵심 구성요소(Controller, Perceiver, Tool Set, Environment) 정의
- 재사용 가능한 추상화 제공
다양한 학습 방법론 정리
- 시연 학습 vs 피드백 학습 분류
- 각 방법의 장단점 명확히 분석
실용적인 실험
- 18개 도구로 실제 실험 수행
- 오픈소스 구현(BMTools) 제공
미래 연구 방향 제시
- 명확한 오픈 문제 정의
- 후속 연구를 위한 로드맵 제공

Tool Learning 패러다임의 강점

확장성: 새로운 도구 추가로 모델 능력 확장
정확성: 전문 도구 활용으로 정밀한 결과 획득
최신성: 실시간 정보 접근 가능
효율성: 복잡한 계산을 외부 도구에 위임
투명성: 도구 호출 기록으로 의사결정 과정 추적 가능

⚠️ 한계점 및 오픈 문제

프롬프팅 방법의 한계

모델 의존성
- 작거나 능력이 부족한 모델은 프롬프트를 잘 이해하지 못함
컨텍스트 길이 제한
- 많은 복잡한 도구 설명을 프롬프트에 포함하기 어려움
- 도구 집합 확장 시 모든 도구를 프롬프트에 포함 불가능

주요 오픈 문제

1. 신뢰할 수 있는 도구 사용 (Trustworthy Tool Use)

• 고위험 시나리오에서의 배포 전 신중한 고려 필요
• 도구 사용의 안전성 보장 메커니즘 부재
• 잘못된 도구 선택/사용의 위험성

2. 도구 생성 (Tool Creation)

• AI가 새로운 도구를 창조할 수 있는가?
• 인간 고유의 능력이라 여겨졌던 영역에 대한 도전
• 자율적 도구 개발 가능성 탐구

3. 개인화된 도구 학습 (Personalized Tool Learning)

• 사용자 선호도와 도구 조작의 정렬
• 반응형에서 선제적 시스템으로의 전환
• 프라이버시 보호 문제

4. 지식 충돌 (Knowledge Conflicts)

• 도구 결과와 모델 내부 지식의 충돌
• 부정확하고 신뢰할 수 없는 예측 초래 가능
• 정보 통합 전략 필요

5. 사용자 의도와 도구 연결 (Linking Intent with Tools)

• 명령어뿐 아니라 맥락과 원하는 결과 이해 필요
• 효과적인 도구 사용을 위한 정교한 계획/추론 필요

6. 일반화 (Generalization)

• 잠재적으로 무한한 도구를 하나씩 학습하는 것은 비현실적
• 새로운 도구에 대한 일반화 능력 필요
• Zero-shot/Few-shot 도구 사용 능력

추가적인 과제

과제	설명
도구 사용 추론	복잡한 추론이 필요한 도구 선택
도구별 표현	각 도구에 특화된 표현 학습
다중 도구 조율	여러 도구의 조화로운 사용
윤리적 함의	직업 시장, 안전성, 오용 가능성
Embodied Learning	물리적 환경에서의 도구 학습

🔗 관련 논문

핵심 관련 연구

논문	연도	핵심 기여	관계
[[📄 Toolformer]]	2023	LLM의 자기 지도 도구 학습	기초 연구
[[📄 ReAct – Synergizing Reasoning and Acting]]	2023	추론-행동 교차 패러다임	프레임워크
[[📄 Gorilla]]	2024	API 호출 정확도 향상	응용 연구
[[📄 Chain-of-Thought Prompting]]	2022	단계별 추론 유도	기반 기술

분류별 관련 연구

Planning & Reasoning

ReAct: Reasoning과 Acting의 통합
ART: 자동 다단계 추론 및 도구 사용
Chain-of-Thought: 복잡한 추론을 위한 프롬프팅

Tool Integration

ToolkenGPT: 도구 임베딩으로 Frozen LLM 증강
HuggingGPT: ChatGPT + Hugging Face 생태계
TaskMatrix: 시각적 도구와 LLM 연결

Benchmarks & Datasets

ToolQA: 외부 도구를 활용한 QA 데이터셋
API-Bank: RESTful API 벤치마크
ToolBench: 도구 학습 평가 벤치마크

Training Methods

WebGPT: RLHF 기반 검색 최적화
TRICE: 실행 피드백으로 LLM 개선

💻 실무 적용 포인트

1. AI 에이전트 개발

# 기본적인 Tool Learning 구조 예시
class ToolLearningAgent:
    def __init__(self, controller_model, tools):
        self.controller = controller_model  # Foundation Model
        self.perceiver = Perceiver()
        self.tools = tools  # Tool Set

    def process(self, user_instruction):
        # 1. Intent Understanding
        intent = self.controller.understand_intent(user_instruction)

        # 2. Task Planning
        plan = self.controller.create_plan(intent, self.tools)

        # 3. Execute with Feedback Loop
        for subtask in plan:
            tool = self.select_tool(subtask)
            result = tool.execute(subtask.params)
            feedback = self.perceiver.process(result)
            self.controller.update_plan(feedback)

        # 4. Response Generation
        return self.controller.generate_response()

2. 도구 설계 가이드라인

원칙	설명
명확한 인터페이스	입력/출력 형식 명확히 정의
상세한 설명	도구의 기능과 사용법 문서화
에러 핸들링	실패 시 유용한 에러 메시지 반환
일관된 응답	예측 가능한 출력 형식 유지

3. 학습 전략 선택

┌─────────────────────────────────────────────────────────┐
│              학습 전략 선택 가이드                        │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  빠른 프로토타이핑 필요?                                 │
│       │                                                 │
│       ├── Yes ──▶ In-Context Learning (Prompting)      │
│       │           • 즉시 적용 가능                       │
│       │           • 간단한 도구에 적합                   │
│       │                                                 │
│       └── No ──▶ 대규모 도구 집합?                      │
│                    │                                    │
│                    ├── Yes ──▶ Fine-tuning + Retrieval │
│                    │           • Gorilla 스타일         │
│                    │                                    │
│                    └── No ──▶ 인간 피드백 가능?         │
│                                 │                       │
│                                 ├── Yes ──▶ RLHF       │
│                                 │                       │
│                                 └── No ──▶ Execution   │
│                                           Feedback      │
│                                                         │
└─────────────────────────────────────────────────────────┘

4. 실무 적용 시 고려사항

도구 선택

태스크에 필수적인 도구만 포함 (컨텍스트 절약)
도구 설명을 명확하고 간결하게 작성
유사한 기능의 도구는 통합 또는 구분 명확히

에러 처리

도구 실행 실패 시 대안 계획 수립
타임아웃 및 재시도 메커니즘 구현
실패 원인 로깅 및 분석

성능 최적화

불필요한 도구 호출 최소화
병렬 실행 가능한 도구 식별
캐싱 전략 수립

안전성

위험한 작업에 대한 확인 절차
민감한 정보 처리 가이드라인
감사 로그 유지

5. 활용 사례

영역	적용 예시
코딩 어시스턴트	코드 실행, 문서 검색, API 호출
연구 보조	논문 검색, 데이터 분석, 시각화
고객 서비스	FAQ 검색, 예약 시스템, CRM 연동
데이터 분석	SQL 쿼리, 통계 계산, 차트 생성
자동화 워크플로우	이메일 처리, 일정 관리, 문서 생성

🏷️ Tags

#AI-Agent #Tool-Learning #Foundation-Model #LLM #Survey #API #ReAct #Toolformer #RLHF #Prompting #Fine-tuning #Planning #Reasoning #Tsinghua #2023 #ACM-Computing-Surveys

[AI Paper] 📄 Tool Learning with Foundation Models

📄 Tool Learning with Foundation Models

📋 메타 정보

🎯 한줄 요약

🔍 연구 배경 및 동기

인간의 도구 사용 능력

Foundation Model의 등장

Tool Learning의 필요성

연구 동기

💡 핵심 아이디어

Tool Learning의 정의

핵심 개념

분류 체계

1. 도구 유형에 따른 분류

2. 학습 접근법에 따른 분류

3. 학습 방법에 따른 분류

🏗️ 프레임워크

4가지 핵심 구성요소

1. Controller (컨트롤러)

2. Perceiver (인지기)

3. Tool Set (도구 집합)

4. Environment (환경)

Tool 유형 분류

API 기반 도구

물리적 도구

Learning 방법 분류

1. Learning from Demonstrations (시연 학습)

2. Learning from Feedback (피드백 학습)

일반 절차 (General Procedure)

📊 주요 연구 비교

대표적인 Tool Learning 연구

학습 방법별 비교

실험 결과 요약

💪 강점

논문의 강점

Tool Learning 패러다임의 강점

⚠️ 한계점 및 오픈 문제

프롬프팅 방법의 한계

주요 오픈 문제

1. 신뢰할 수 있는 도구 사용 (Trustworthy Tool Use)

2. 도구 생성 (Tool Creation)

3. 개인화된 도구 학습 (Personalized Tool Learning)

4. 지식 충돌 (Knowledge Conflicts)

5. 사용자 의도와 도구 연결 (Linking Intent with Tools)

6. 일반화 (Generalization)

추가적인 과제

🔗 관련 논문

핵심 관련 연구

분류별 관련 연구

Planning & Reasoning

Tool Integration

Benchmarks & Datasets

Training Methods

💻 실무 적용 포인트

1. AI 에이전트 개발

2. 도구 설계 가이드라인

3. 학습 전략 선택

4. 실무 적용 시 고려사항

도구 선택

에러 처리

성능 최적화

안전성

5. 활용 사례

🏷️ Tags

skycave

다른 기사

[AI Paper] The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

[AI Paper] 📄 ToolLLM: Facilitating LLMs to Master 16000+ APIs

댓글 없음! 첫 댓글을 남겨보세요.

답글 남기기 응답 취소