본문으둜 κ±΄λ„ˆλ›°κΈ°
-
skycave's Blog
skycave's Blog
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
λ‹«κΈ°

검색

AI

[AI Paper] πŸ“„ Tool Learning with Foundation Models

By skycave
2026λ…„ 01μ›” 25일 8 Min Read
0

πŸ“„ Tool Learning with Foundation Models

πŸ“‹ 메타 정보

ν•­λͺ© λ‚΄μš©
제λͺ© Tool Learning with Foundation Models
μ €μž Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding μ™Έ 40+ μ—°κ΅¬μž
μ†Œμ† Tsinghua University, Renmin University, UIUC, NYU, CMU, Beijing University of Posts and Telecommunications
λ°œν‘œ arXiv: 2304.08354 (April 2023)
좜판 ACM Computing Surveys (2024)
GitHub OpenBMB/BMTools, thunlp/ToolLearningPapers
μœ ν˜• Survey Paper

🎯 ν•œμ€„ μš”μ•½

Foundation Model이 μ™ΈλΆ€ 도ꡬ(API, 검색엔진, 계산기 λ“±)λ₯Ό ν™œμš©ν•˜μ—¬ λ³΅μž‘ν•œ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” “Tool Learning” νŒ¨λŸ¬λ‹€μž„μ— λŒ€ν•œ 졜초의 체계적인 μ’…ν•© μ„œλ² μ΄λ‘œ, ν”„λ ˆμž„μ›Œν¬ κ΅¬μ„±μš”μ†Œ, ν•™μŠ΅ 방법둠, μΌλ°˜ν™” μ „λž΅ 및 λ―Έν•΄κ²° 문제λ₯Ό ν¬κ΄„μ μœΌλ‘œ 정리함.


πŸ” 연ꡬ λ°°κ²½ 및 동기

μΈκ°„μ˜ 도ꡬ μ‚¬μš© λŠ₯λ ₯

  • 인간은 도ꡬλ₯Ό μ°½μ‘°ν•˜κ³  ν™œμš©ν•˜λŠ” νƒμ›”ν•œ λŠ₯λ ₯을 보유
  • 도ꡬ μ‚¬μš©μ„ 톡해 신체적 ν•œκ³„ 극볡 및 μƒˆλ‘œμš΄ μ˜μ—­ νƒν—˜ κ°€λŠ₯
  • 인지적 κ΄€μ μ—μ„œ λ„κ΅¬λŠ” νŠΉμ • κΈ°λŠ₯을 κ°€μ§„ 객체둜 μΈμ‹λ˜λ©°, λͺ©ν‘œ μ§€ν–₯적 μ‹œμ—° 관찰을 톡해 μ‚¬μš©λ²• μŠ΅λ“

Foundation Model의 λ“±μž₯

  • λŒ€κ·œλͺ¨ λ°μ΄ν„°λ‘œ ν•™μŠ΅λœ Foundation Model은 κ΄‘λ²”μœ„ν•œ 도메인 지식 보유
  • μ μ ˆν•œ μ‘°μ • μ‹œ μ˜μ‚¬κ²°μ • 및 μž₯κΈ° κ³„νš μˆ˜ν–‰ κ°€λŠ₯
  • λ›°μ–΄λ‚œ μΆ”λ‘  λŠ₯λ ₯으둜 행동 κ²°κ³Ό 예츑 및 합리적 κ²°μ • κ°€λŠ₯

Tool Learning의 ν•„μš”μ„±

  • Foundation Modelλ§ŒμœΌλ‘œλŠ” ν•΄κ²°ν•˜κΈ° μ–΄λ €μš΄ 문제 쑴재:
    • μ΅œμ‹  정보 μ ‘κ·Ό: ν•™μŠ΅ 데이터 기쀀일 이후 정보
    • μ •ν™•ν•œ 계산: μˆ˜ν•™μ  μ—°μ‚°μ˜ 정밀도
    • μ‹€μ‹œκ°„ 데이터: 날씨, μ£Όκ°€ λ“± 동적 정보
    • μ „λ¬Έ 도ꡬ ν™œμš©: μ½”λ“œ μ‹€ν–‰, λ°μ΄ν„°λ² μ΄μŠ€ 쿼리

연ꡬ 동기

  • Tool Learning λΆ„μ•Όμ˜ 체계적 이해 λΆ€μ‘±
  • 핡심 과제, 기회, 미래 연ꡬ λ°©ν–₯에 λŒ€ν•œ 쒅합적 쑰망 ν•„μš”
  • Foundation Modelκ³Ό 도ꡬ ν†΅ν•©μ˜ 잠재λ ₯ 탐ꡬ

πŸ’‘ 핡심 아이디어

Tool Learning의 μ •μ˜

Tool Learning with Foundation ModelsλŠ” μ „λ¬Έν™”λœ 도ꡬ와 Foundation Model의 강점을 κ²°ν•©ν•˜μ—¬ 문제 ν•΄κ²°μ—μ„œ ν–₯μƒλœ 정확도, νš¨μœ¨μ„±, μžλ™ν™”λ₯Ό λ‹¬μ„±ν•˜λŠ” νŒ¨λŸ¬λ‹€μž„

핡심 κ°œλ…

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                    Tool Learning                         β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚  Foundation Model + External Tools = Enhanced AI        β”‚
β”‚                                                         β”‚
β”‚  β€’ λͺ¨λΈμ˜ 지식 + λ„κ΅¬μ˜ κΈ°λŠ₯ = μ‹œλ„ˆμ§€ 효과              β”‚
β”‚  β€’ λͺ¨λΈμ˜ μΆ”λ‘  + λ„κ΅¬μ˜ μ‹€ν–‰ = μ‹€μ§ˆμ  κ²°κ³Ό              β”‚
β”‚  β€’ λͺ¨λΈμ˜ κ³„νš + λ„κ΅¬μ˜ μ „λ¬Έμ„± = λ³΅μž‘ν•œ 문제 ν•΄κ²°       β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

λΆ„λ₯˜ 체계

1. 도ꡬ μœ ν˜•μ— λ”°λ₯Έ λΆ„λ₯˜

μœ ν˜• μ„€λͺ… μ˜ˆμ‹œ
Physical Tools μ‹€μ œ 세계와 μƒν˜Έμž‘μš©ν•˜λŠ” 도ꡬ λ‘œλ΄‡ νŒ”, μ„Όμ„œ, 앑좔에이터
Cognitive Tools 인지 κΈ°λŠ₯을 ν™•μž₯ν•˜λŠ” 도ꡬ 계산기, 검색엔진, λ²ˆμ—­κΈ°
Virtual Tools λ””μ§€ν„Έ ν™˜κ²½μ˜ μ†Œν”„νŠΈμ›¨μ–΄ 도ꡬ API, μ½”λ“œ 라이브러리, GUI

2. ν•™μŠ΅ 접근법에 λ”°λ₯Έ λΆ„λ₯˜

접근법 μ„€λͺ…
Tool-Augmented Learning κΈ°μ‘΄ λͺ¨λΈμ— 도ꡬ μ‚¬μš© λŠ₯λ ₯ μΆ”κ°€
Tool-Oriented Learning 도ꡬ μ‚¬μš©μ— μ΅œμ ν™”λœ λͺ¨λΈ ν•™μŠ΅

3. ν•™μŠ΅ 방법에 λ”°λ₯Έ λΆ„λ₯˜

방법 νŠΉμ§•
Prompting-based κ³ μ •λœ λͺ¨λΈμ˜ In-context Learning ν™œμš©
Training-based 지도 ν•™μŠ΅μœΌλ‘œ λͺ¨λΈ νŒŒλΌλ―Έν„° μ΅œμ ν™”

πŸ—οΈ ν”„λ ˆμž„μ›Œν¬

4κ°€μ§€ 핡심 κ΅¬μ„±μš”μ†Œ

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                     Tool Learning Framework                  β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚                                                              β”‚
β”‚    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”        β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”                     β”‚
β”‚    β”‚   User   │───────▢│  Controller  β”‚                     β”‚
β”‚    β”‚          β”‚        β”‚ (Foundation  β”‚                     β”‚
β”‚    β”‚Instructionβ”‚       β”‚    Model)    β”‚                     β”‚
β”‚    β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜        β””β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”˜                     β”‚
β”‚                               β”‚                              β”‚
β”‚                        Plan & Execute                        β”‚
β”‚                               β”‚                              β”‚
β”‚                               β–Ό                              β”‚
β”‚    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”        β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”                     β”‚
β”‚    β”‚ Tool Set │◀──────▢│ Environment  β”‚                     β”‚
β”‚    β”‚          β”‚        β”‚              β”‚                     β”‚
β”‚    β”‚  APIs    β”‚        β”‚   Results    β”‚                     β”‚
β”‚    β”‚  Plugins β”‚        β”‚   Feedback   β”‚                     β”‚
β”‚    β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜        β””β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”˜                     β”‚
β”‚                               β”‚                              β”‚
β”‚                               β–Ό                              β”‚
β”‚                        β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”                     β”‚
β”‚                        β”‚  Perceiver   │──────▢ Controller    β”‚
β”‚                        β”‚              β”‚       (feedback)     β”‚
β”‚                        β”‚  Summarize   β”‚                      β”‚
β”‚                        β”‚   Feedback   β”‚                      β”‚
β”‚                        β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜                      β”‚
β”‚                                                              β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

1. Controller (컨트둀러)

  • μ—­ν• : Tool Learning ν”„λ ˆμž„μ›Œν¬μ˜ “λ‘λ‡Œ”
  • κ΅¬ν˜„: Foundation Model 기반
  • 핡심 κΈ°λŠ₯:
    • μ‚¬μš©μž μ˜λ„ νŒŒμ•…
    • μ‚¬μš© κ°€λŠ₯ν•œ 도ꡬ와 μ˜λ„μ˜ 관계 이해
    • μ μ ˆν•œ 도ꡬ 선택을 μœ„ν•œ κ³„νš 수립
    • λ³΅μž‘ν•œ νƒœμŠ€ν¬μ˜ μ„œλΈŒνƒœμŠ€ν¬ λΆ„ν•΄
    • 좔둠을 ν†΅ν•œ 동적 κ³„νš μ‘°μ •

2. Perceiver (인지기)

  • μ—­ν• : μ‚¬μš©μž 및 ν™˜κ²½ ν”Όλ“œλ°± 처리
  • 핡심 κΈ°λŠ₯:
    • ν”Όλ“œλ°± μˆ˜μ§‘ 및 μš”μ•½
    • μš”μ•½λœ 정보λ₯Ό Controller에 전달
    • κ³„νšμ˜ νš¨κ³Όμ„± νŒλ‹¨ 지원
    • μ‹€ν–‰ 쀑 이상 상황 감지
  • λ©€ν‹°λͺ¨λ‹¬ 지원: ν…μŠ€νŠΈ, λΉ„μ „, μ˜€λ””μ˜€ λ“± λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹° 처리

3. Tool Set (도ꡬ μ§‘ν•©)

  • μ—­ν• : νƒœμŠ€ν¬ μˆ˜ν–‰μ„ μœ„ν•΄ 호좜 κ°€λŠ₯ν•œ λ„κ΅¬λ“€μ˜ μ§‘ν•©
  • μ˜ˆμ‹œ: 검색 API, 계산기, λ²ˆμ—­κΈ°, μ½”λ“œ μ‹€ν–‰κΈ°, λ°μ΄ν„°λ² μ΄μŠ€ 쿼리

4. Environment (ν™˜κ²½)

  • μ—­ν• : 도ꡬ 싀행이 μ΄λ£¨μ–΄μ§€λŠ” 곡간
  • κΈ°λŠ₯:
    • 도ꡬ μ‹€ν–‰ κ²°κ³Ό 생성
    • Perceiver에 ν”Όλ“œλ°± 제곡

Tool μœ ν˜• λΆ„λ₯˜

API 기반 도ꡬ

μΉ΄ν…Œκ³ λ¦¬ μ˜ˆμ‹œ κΈ°λŠ₯
검색 API Google Search, Bing, Wikipedia 정보 검색
계산 API Wolfram Alpha, Calculator μˆ˜ν•™μ  계산
λ²ˆμ—­ API Google Translate, DeepL μ–Έμ–΄ λ²ˆμ—­
지식 API Knowledge Base, QA System 지식 쿼리
μ½”λ“œ μ‹€ν–‰ Python Interpreter μ½”λ“œ μ‹€ν–‰ 및 κ²°κ³Ό λ°˜ν™˜

물리적 도ꡬ

  • λ‘œλ΄‡ μ‘°μž‘ (Embodied AI)
  • μ„Όμ„œ 및 앑좔에이터
  • IoT λ””λ°”μ΄μŠ€

Learning 방법 λΆ„λ₯˜

1. Learning from Demonstrations (μ‹œμ—° ν•™μŠ΅)

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚         Learning from Demonstrations            β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚                                                 β”‚
β”‚  (1) In-Context Learning (ICL)                 β”‚
β”‚      β€’ ν”„λ‘¬ν”„νŠΈμ— 도ꡬ μ‚¬μš© μ˜ˆμ‹œ 포함           β”‚
β”‚      β€’ λͺ¨λΈ νŒŒλΌλ―Έν„° λ³€κ²½ μ—†μŒ                  β”‚
β”‚      β€’ Few-shot ν•™μŠ΅                           β”‚
β”‚                                                 β”‚
β”‚  (2) Full Model Fine-tuning                    β”‚
β”‚      β€’ 도ꡬ 주석이 달린 λ°μ΄ν„°μ…‹μœΌλ‘œ ν•™μŠ΅       β”‚
β”‚      β€’ 전체 λͺ¨λΈ νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ              β”‚
β”‚      β€’ 높은 계산 λΉ„μš©                          β”‚
β”‚                                                 β”‚
β”‚  (3) Parameter-Efficient Fine-tuning (PEFT)   β”‚
β”‚      β€’ LoRA, Adapter λ“± ν™œμš©                   β”‚
β”‚      β€’ 일뢀 νŒŒλΌλ―Έν„°λ§Œ μ—…λ°μ΄νŠΈ                 β”‚
β”‚      β€’ 효율적인 ν•™μŠ΅                           β”‚
β”‚                                                 β”‚
β”‚  λͺ©ν‘œ: Behavioral Cloning                       β”‚
β”‚      β€’ μ „λ¬Έκ°€μ˜ 행동 λͺ¨λ°©                       β”‚
β”‚      β€’ νŠΉμ • μž…λ ₯에 λŒ€ν•œ 행동 ν•™μŠ΅               β”‚
β”‚                                                 β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

2. Learning from Feedback (ν”Όλ“œλ°± ν•™μŠ΅)

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚          Learning from Feedback                 β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚                                                 β”‚
β”‚  (1) Reinforcement Learning (RL)               β”‚
β”‚      β€’ μƒν˜Έμž‘μš© 기반 ν”Όλ“œλ°±μœΌλ‘œ ν•™μŠ΅            β”‚
β”‚      β€’ 순차적, 적응적 도ꡬ μ‚¬μš© ν•™μŠ΅            β”‚
β”‚      β€’ 동적 ν•™μŠ΅ κ°€λŠ₯                          β”‚
β”‚                                                 β”‚
β”‚  (2) RLHF (Reinforcement Learning from         β”‚
β”‚      Human Feedback)                            β”‚
β”‚      β€’ 인간 ν”Όλ“œλ°± 기반 보상 λͺ¨λΈ ν•™μŠ΅          β”‚
β”‚      β€’ PPO λ“± RL μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ μ΅œμ ν™”            β”‚
β”‚      β€’ WebGPT: 검색 μ—”μ§„ μ‘°μž‘ μ΅œμ ν™”            β”‚
β”‚                                                 β”‚
β”‚  (3) Execution Feedback                         β”‚
β”‚      β€’ 도ꡬ μ‹€ν–‰ κ²°κ³Όλ₯Ό ν”Όλ“œλ°±μœΌλ‘œ ν™œμš©         β”‚
β”‚      β€’ μžλ™ν™”λœ ν•™μŠ΅ κ°€λŠ₯                       β”‚
β”‚      β€’ λ ˆμ΄λΈ” λΉ„μš© 절감                         β”‚
β”‚                                                 β”‚
β”‚  μž₯점: 정적 μ‹œμ—°μ˜ ν•œκ³„ 극볡                    β”‚
β”‚  단점: 인간 ν”Όλ“œλ°±μ€ λΉ„μš©μ΄ λ†’κ³  μ§€μ—° λ°œμƒ      β”‚
β”‚                                                 β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

일반 절차 (General Procedure)

1. User Instruction (μ‚¬μš©μž μ§€μ‹œ)
         β”‚
         β–Ό
2. Intent Understanding (μ˜λ„ 이해)
   - μ‚¬μš©μžκ°€ μ›ν•˜λŠ” 것 νŒŒμ•…
   - 암묡적 μš”κ΅¬μ‚¬ν•­ μΆ”λ‘ 
         β”‚
         β–Ό
3. Tool Understanding (도ꡬ 이해)
   - λ„κ΅¬μ˜ κΈ°λŠ₯κ³Ό μ‚¬μš©λ²• νŒŒμ•…
   - μ μ ˆν•œ 도ꡬ λ§€μΉ­
         β”‚
         β–Ό
4. Task Planning (νƒœμŠ€ν¬ κ³„νš)
   - λ³΅μž‘ν•œ νƒœμŠ€ν¬ λΆ„ν•΄
   - μ„œλΈŒνƒœμŠ€ν¬ μˆœμ„œ κ²°μ •
         β”‚
         β–Ό
5. Tool Selection (도ꡬ 선택)
   - 각 μ„œλΈŒνƒœμŠ€ν¬μ— μ ν•©ν•œ 도ꡬ 선택
   - 도ꡬ νŒŒλΌλ―Έν„° μ„€μ •
         β”‚
         β–Ό
6. Task Execution (νƒœμŠ€ν¬ μ‹€ν–‰)
   - μ„ νƒλœ 도ꡬ 호좜
   - κ²°κ³Ό μˆ˜μ§‘
         β”‚
         β–Ό
7. Response Generation (응닡 생성)
   - μ‹€ν–‰ κ²°κ³Ό μ’…ν•©
   - μ‚¬μš©μžμ—κ²Œ μ΅œμ’… 응닡 전달

πŸ“Š μ£Όμš” 연ꡬ 비ꡐ

λŒ€ν‘œμ μΈ Tool Learning 연ꡬ

연ꡬ λ°œν‘œ 핡심 κΈ°μ—¬ ν•™μŠ΅ 방법
Toolformer NeurIPS 2023 자기 지도 ν•™μŠ΅μœΌλ‘œ API 호좜 μ‹œμ /방법 ν•™μŠ΅ Self-supervised
ReAct ICLR 2023 μΆ”λ‘ (Reasoning)κ³Ό 행동(Acting)의 ꡐ차 Prompting
Gorilla NeurIPS 2024 API 호좜 정확도 ν–₯상, Retrieval-augmented Fine-tuning
WebGPT – RLHF둜 검색 μ—”μ§„ ν™œμš© μ΅œμ ν™” RLHF
HuggingGPT NeurIPS 2023 ChatGPT + Hugging Face λͺ¨λΈ 톡합 Prompting
ToolLLM – μ˜€ν”ˆ 도메인 API ν™œμš© Fine-tuning
API-Bank – RESTful API ν™œμš© 벀치마크 Benchmark

ν•™μŠ΅ 방법별 비ꡐ

방법 μž₯점 단점
In-Context Learning μ¦‰μ‹œ 적용 κ°€λŠ₯, νŒŒλΌλ―Έν„° λ³€κ²½ μ—†μŒ μ»¨ν…μŠ€νŠΈ 길이 μ œν•œ, λ³΅μž‘ν•œ 도ꡬ에 뢀적합
Fine-tuning 높은 μ„±λŠ₯, λ³΅μž‘ν•œ 도ꡬ ν•™μŠ΅ κ°€λŠ₯ 높은 계산 λΉ„μš©, 데이터 ν•„μš”
RLHF 인간 μ„ ν˜Έλ„ 반영, μ•ˆμ „μ„± ν–₯상 λ ˆμ΄λΈ” λΉ„μš© λ†’μŒ, μ§€μ—° λ°œμƒ
Execution Feedback μžλ™ν™” κ°€λŠ₯, λΉ„μš© 효율적 ν”Όλ“œλ°± ν’ˆμ§ˆμ— 의쑴

μ‹€ν—˜ κ²°κ³Ό μš”μ•½

  • λ…Όλ¬Έμ—μ„œ 18개의 λŒ€ν‘œμ μΈ λ„κ΅¬λ‘œ μ‹€ν—˜ μˆ˜ν–‰
  • ChatGPTκ°€ κ°„λ‹¨ν•œ ν”„λ‘¬ν”„νŒ…λ§ŒμœΌλ‘œ 효과적인 도ꡬ μ‚¬μš© μ‹œμ—°
  • BMTools ν”„λ ˆμž„μ›Œν¬λ₯Ό ν†΅ν•œ μ˜€ν”ˆμ†ŒμŠ€ κ΅¬ν˜„ 제곡
  • Foundation Model의 일반 μ—μ΄μ „νŠΈλ‘œμ„œμ˜ 잠재λ ₯ μž…μ¦

πŸ’ͺ 강점

λ…Όλ¬Έμ˜ 강점

  1. 포괄적인 μ„œλ² μ΄
    • Tool Learning λΆ„μ•Όμ˜ 졜초 체계적 μ’…ν•© μ„œλ² μ΄
    • 인지과학뢀터 μ‹€μ œ κ΅¬ν˜„κΉŒμ§€ 폭넓은 관점 제곡
  2. λͺ…ν™•ν•œ ν”„λ ˆμž„μ›Œν¬ μ •μ˜
    • 4κ°€μ§€ 핡심 κ΅¬μ„±μš”μ†Œ(Controller, Perceiver, Tool Set, Environment) μ •μ˜
    • μž¬μ‚¬μš© κ°€λŠ₯ν•œ 좔상화 제곡
  3. λ‹€μ–‘ν•œ ν•™μŠ΅ 방법둠 정리
    • μ‹œμ—° ν•™μŠ΅ vs ν”Όλ“œλ°± ν•™μŠ΅ λΆ„λ₯˜
    • 각 λ°©λ²•μ˜ μž₯단점 λͺ…ν™•νžˆ 뢄석
  4. μ‹€μš©μ μΈ μ‹€ν—˜
    • 18개 λ„κ΅¬λ‘œ μ‹€μ œ μ‹€ν—˜ μˆ˜ν–‰
    • μ˜€ν”ˆμ†ŒμŠ€ κ΅¬ν˜„(BMTools) 제곡
  5. 미래 연ꡬ λ°©ν–₯ μ œμ‹œ
    • λͺ…ν™•ν•œ μ˜€ν”ˆ 문제 μ •μ˜
    • 후속 연ꡬλ₯Ό μœ„ν•œ λ‘œλ“œλ§΅ 제곡

Tool Learning νŒ¨λŸ¬λ‹€μž„μ˜ 강점

  1. ν™•μž₯μ„±: μƒˆλ‘œμš΄ 도ꡬ μΆ”κ°€λ‘œ λͺ¨λΈ λŠ₯λ ₯ ν™•μž₯
  2. μ •ν™•μ„±: μ „λ¬Έ 도ꡬ ν™œμš©μœΌλ‘œ μ •λ°€ν•œ κ²°κ³Ό νšλ“
  3. μ΅œμ‹ μ„±: μ‹€μ‹œκ°„ 정보 μ ‘κ·Ό κ°€λŠ₯
  4. νš¨μœ¨μ„±: λ³΅μž‘ν•œ 계산을 μ™ΈλΆ€ 도ꡬ에 μœ„μž„
  5. 투λͺ…μ„±: 도ꡬ 호좜 기둝으둜 μ˜μ‚¬κ²°μ • κ³Όμ • 좔적 κ°€λŠ₯

⚠️ ν•œκ³„μ  및 μ˜€ν”ˆ 문제

ν”„λ‘¬ν”„νŒ… λ°©λ²•μ˜ ν•œκ³„

  1. λͺ¨λΈ μ˜μ‘΄μ„±
    • μž‘κ±°λ‚˜ λŠ₯λ ₯이 λΆ€μ‘±ν•œ λͺ¨λΈμ€ ν”„λ‘¬ν”„νŠΈλ₯Ό 잘 μ΄ν•΄ν•˜μ§€ λͺ»ν•¨
  2. μ»¨ν…μŠ€νŠΈ 길이 μ œν•œ
    • λ§Žμ€ λ³΅μž‘ν•œ 도ꡬ μ„€λͺ…을 ν”„λ‘¬ν”„νŠΈμ— ν¬ν•¨ν•˜κΈ° 어렀움
    • 도ꡬ μ§‘ν•© ν™•μž₯ μ‹œ λͺ¨λ“  도ꡬλ₯Ό ν”„λ‘¬ν”„νŠΈμ— 포함 λΆˆκ°€λŠ₯

μ£Όμš” μ˜€ν”ˆ 문제

1. μ‹ λ’°ν•  수 μžˆλŠ” 도ꡬ μ‚¬μš© (Trustworthy Tool Use)

β€’ κ³ μœ„ν—˜ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ 배포 μ „ μ‹ μ€‘ν•œ κ³ λ € ν•„μš”
β€’ 도ꡬ μ‚¬μš©μ˜ μ•ˆμ „μ„± 보μž₯ λ©”μ»€λ‹ˆμ¦˜ λΆ€μž¬
β€’ 잘λͺ»λœ 도ꡬ 선택/μ‚¬μš©μ˜ μœ„ν—˜μ„±

2. 도ꡬ 생성 (Tool Creation)

β€’ AIκ°€ μƒˆλ‘œμš΄ 도ꡬλ₯Ό μ°½μ‘°ν•  수 μžˆλŠ”κ°€?
β€’ 인간 고유의 λŠ₯λ ₯이라 μ—¬κ²¨μ‘Œλ˜ μ˜μ—­μ— λŒ€ν•œ 도전
β€’ 자율적 도ꡬ 개발 κ°€λŠ₯μ„± 탐ꡬ

3. κ°œμΈν™”λœ 도ꡬ ν•™μŠ΅ (Personalized Tool Learning)

β€’ μ‚¬μš©μž μ„ ν˜Έλ„μ™€ 도ꡬ μ‘°μž‘μ˜ μ •λ ¬
β€’ λ°˜μ‘ν˜•μ—μ„œ μ„ μ œμ  μ‹œμŠ€ν…œμœΌλ‘œμ˜ μ „ν™˜
β€’ ν”„λΌμ΄λ²„μ‹œ 보호 문제

4. 지식 좩돌 (Knowledge Conflicts)

β€’ 도ꡬ 결과와 λͺ¨λΈ λ‚΄λΆ€ μ§€μ‹μ˜ 좩돌
β€’ λΆ€μ •ν™•ν•˜κ³  μ‹ λ’°ν•  수 μ—†λŠ” 예츑 초래 κ°€λŠ₯
β€’ 정보 톡합 μ „λž΅ ν•„μš”

5. μ‚¬μš©μž μ˜λ„μ™€ 도ꡬ μ—°κ²° (Linking Intent with Tools)

β€’ λͺ…령어뿐 μ•„λ‹ˆλΌ λ§₯락과 μ›ν•˜λŠ” κ²°κ³Ό 이해 ν•„μš”
β€’ 효과적인 도ꡬ μ‚¬μš©μ„ μœ„ν•œ μ •κ΅ν•œ κ³„νš/μΆ”λ‘  ν•„μš”

6. μΌλ°˜ν™” (Generalization)

β€’ 잠재적으둜 λ¬΄ν•œν•œ 도ꡬλ₯Ό ν•˜λ‚˜μ”© ν•™μŠ΅ν•˜λŠ” 것은 λΉ„ν˜„μ‹€μ 
β€’ μƒˆλ‘œμš΄ 도ꡬ에 λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯ ν•„μš”
β€’ Zero-shot/Few-shot 도ꡬ μ‚¬μš© λŠ₯λ ₯

좔가적인 과제

과제 μ„€λͺ…
도ꡬ μ‚¬μš© μΆ”λ‘  λ³΅μž‘ν•œ 좔둠이 ν•„μš”ν•œ 도ꡬ 선택
도ꡬ별 ν‘œν˜„ 각 도ꡬ에 νŠΉν™”λœ ν‘œν˜„ ν•™μŠ΅
닀쀑 도ꡬ 쑰율 μ—¬λŸ¬ λ„κ΅¬μ˜ μ‘°ν™”λ‘œμš΄ μ‚¬μš©
윀리적 ν•¨μ˜ 직업 μ‹œμž₯, μ•ˆμ „μ„±, 였용 κ°€λŠ₯μ„±
Embodied Learning 물리적 ν™˜κ²½μ—μ„œμ˜ 도ꡬ ν•™μŠ΅

πŸ”— κ΄€λ ¨ λ…Όλ¬Έ

핡심 κ΄€λ ¨ 연ꡬ

λ…Όλ¬Έ 연도 핡심 κΈ°μ—¬ 관계
[[πŸ“„ Toolformer]] 2023 LLM의 자기 지도 도ꡬ ν•™μŠ΅ 기초 연ꡬ
[[πŸ“„ ReAct – Synergizing Reasoning and Acting]] 2023 μΆ”λ‘ -행동 ꡐ차 νŒ¨λŸ¬λ‹€μž„ ν”„λ ˆμž„μ›Œν¬
[[πŸ“„ Gorilla]] 2024 API 호좜 정확도 ν–₯상 μ‘μš© 연ꡬ
[[πŸ“„ Chain-of-Thought Prompting]] 2022 단계별 μΆ”λ‘  μœ λ„ 기반 기술

λΆ„λ₯˜λ³„ κ΄€λ ¨ 연ꡬ

Planning & Reasoning

  • ReAct: Reasoningκ³Ό Acting의 톡합
  • ART: μžλ™ 닀단계 μΆ”λ‘  및 도ꡬ μ‚¬μš©
  • Chain-of-Thought: λ³΅μž‘ν•œ 좔둠을 μœ„ν•œ ν”„λ‘¬ν”„νŒ…

Tool Integration

  • ToolkenGPT: 도ꡬ μž„λ² λ”©μœΌλ‘œ Frozen LLM 증강
  • HuggingGPT: ChatGPT + Hugging Face μƒνƒœκ³„
  • TaskMatrix: μ‹œκ°μ  도ꡬ와 LLM μ—°κ²°

Benchmarks & Datasets

  • ToolQA: μ™ΈλΆ€ 도ꡬλ₯Ό ν™œμš©ν•œ QA 데이터셋
  • API-Bank: RESTful API 벀치마크
  • ToolBench: 도ꡬ ν•™μŠ΅ 평가 벀치마크

Training Methods

  • WebGPT: RLHF 기반 검색 μ΅œμ ν™”
  • TRICE: μ‹€ν–‰ ν”Όλ“œλ°±μœΌλ‘œ LLM κ°œμ„ 

πŸ’» 싀무 적용 포인트

1. AI μ—μ΄μ „νŠΈ 개발

# 기본적인 Tool Learning ꡬ쑰 μ˜ˆμ‹œ
class ToolLearningAgent:
    def __init__(self, controller_model, tools):
        self.controller = controller_model  # Foundation Model
        self.perceiver = Perceiver()
        self.tools = tools  # Tool Set

    def process(self, user_instruction):
        # 1. Intent Understanding
        intent = self.controller.understand_intent(user_instruction)

        # 2. Task Planning
        plan = self.controller.create_plan(intent, self.tools)

        # 3. Execute with Feedback Loop
        for subtask in plan:
            tool = self.select_tool(subtask)
            result = tool.execute(subtask.params)
            feedback = self.perceiver.process(result)
            self.controller.update_plan(feedback)

        # 4. Response Generation
        return self.controller.generate_response()

2. 도ꡬ 섀계 κ°€μ΄λ“œλΌμΈ

원칙 μ„€λͺ…
λͺ…ν™•ν•œ μΈν„°νŽ˜μ΄μŠ€ μž…λ ₯/좜λ ₯ ν˜•μ‹ λͺ…ν™•νžˆ μ •μ˜
μƒμ„Έν•œ μ„€λͺ… λ„κ΅¬μ˜ κΈ°λŠ₯κ³Ό μ‚¬μš©λ²• λ¬Έμ„œν™”
μ—λŸ¬ 핸듀링 μ‹€νŒ¨ μ‹œ μœ μš©ν•œ μ—λŸ¬ λ©”μ‹œμ§€ λ°˜ν™˜
μΌκ΄€λœ 응닡 예츑 κ°€λŠ₯ν•œ 좜λ ₯ ν˜•μ‹ μœ μ§€

3. ν•™μŠ΅ μ „λž΅ 선택

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚              ν•™μŠ΅ μ „λž΅ 선택 κ°€μ΄λ“œ                        β”‚
β”œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€
β”‚                                                         β”‚
β”‚  λΉ λ₯Έ ν”„λ‘œν† νƒ€μ΄ν•‘ ν•„μš”?                                 β”‚
β”‚       β”‚                                                 β”‚
β”‚       β”œβ”€β”€ Yes ──▢ In-Context Learning (Prompting)      β”‚
β”‚       β”‚           β€’ μ¦‰μ‹œ 적용 κ°€λŠ₯                       β”‚
β”‚       β”‚           β€’ κ°„λ‹¨ν•œ 도ꡬ에 적합                   β”‚
β”‚       β”‚                                                 β”‚
β”‚       └── No ──▢ λŒ€κ·œλͺ¨ 도ꡬ μ§‘ν•©?                      β”‚
β”‚                    β”‚                                    β”‚
β”‚                    β”œβ”€β”€ Yes ──▢ Fine-tuning + Retrieval β”‚
β”‚                    β”‚           β€’ Gorilla μŠ€νƒ€μΌ         β”‚
β”‚                    β”‚                                    β”‚
β”‚                    └── No ──▢ 인간 ν”Όλ“œλ°± κ°€λŠ₯?         β”‚
β”‚                                 β”‚                       β”‚
β”‚                                 β”œβ”€β”€ Yes ──▢ RLHF       β”‚
β”‚                                 β”‚                       β”‚
β”‚                                 └── No ──▢ Execution   β”‚
β”‚                                           Feedback      β”‚
β”‚                                                         β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

4. 싀무 적용 μ‹œ 고렀사항

도ꡬ 선택

  • νƒœμŠ€ν¬μ— ν•„μˆ˜μ μΈ λ„κ΅¬λ§Œ 포함 (μ»¨ν…μŠ€νŠΈ μ ˆμ•½)
  • 도ꡬ μ„€λͺ…을 λͺ…ν™•ν•˜κ³  κ°„κ²°ν•˜κ²Œ μž‘μ„±
  • μœ μ‚¬ν•œ κΈ°λŠ₯의 λ„κ΅¬λŠ” 톡합 λ˜λŠ” ꡬ뢄 λͺ…ν™•νžˆ

μ—λŸ¬ 처리

  • 도ꡬ μ‹€ν–‰ μ‹€νŒ¨ μ‹œ λŒ€μ•ˆ κ³„νš 수립
  • νƒ€μž„μ•„μ›ƒ 및 μž¬μ‹œλ„ λ©”μ»€λ‹ˆμ¦˜ κ΅¬ν˜„
  • μ‹€νŒ¨ 원인 λ‘œκΉ… 및 뢄석

μ„±λŠ₯ μ΅œμ ν™”

  • λΆˆν•„μš”ν•œ 도ꡬ 호좜 μ΅œμ†Œν™”
  • 병렬 μ‹€ν–‰ κ°€λŠ₯ν•œ 도ꡬ 식별
  • 캐싱 μ „λž΅ 수립

μ•ˆμ „μ„±

  • μœ„ν—˜ν•œ μž‘μ—…μ— λŒ€ν•œ 확인 절차
  • λ―Όκ°ν•œ 정보 처리 κ°€μ΄λ“œλΌμΈ
  • 감사 둜그 μœ μ§€

5. ν™œμš© 사둀

μ˜μ—­ 적용 μ˜ˆμ‹œ
μ½”λ”© μ–΄μ‹œμŠ€ν„΄νŠΈ μ½”λ“œ μ‹€ν–‰, λ¬Έμ„œ 검색, API 호좜
연ꡬ 보쑰 λ…Όλ¬Έ 검색, 데이터 뢄석, μ‹œκ°ν™”
고객 μ„œλΉ„μŠ€ FAQ 검색, μ˜ˆμ•½ μ‹œμŠ€ν…œ, CRM 연동
데이터 뢄석 SQL 쿼리, 톡계 계산, 차트 생성
μžλ™ν™” μ›Œν¬ν”Œλ‘œμš° 이메일 처리, 일정 관리, λ¬Έμ„œ 생성

🏷️ Tags

#AI-Agent #Tool-Learning #Foundation-Model #LLM #Survey #API #ReAct #Toolformer #RLHF #Prompting #Fine-tuning #Planning #Reasoning #Tsinghua #2023 #ACM-Computing-Surveys

μž‘μ„±μž

skycave

Follow Me
λ‹€λ₯Έ 기사
Previous

[AI Paper] The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

Next

[AI Paper] πŸ“„ ToolLLM: Facilitating LLMs to Master 16000+ APIs

λŒ“κΈ€ μ—†μŒ! 첫 λŒ“κΈ€μ„ λ‚¨κ²¨λ³΄μ„Έμš”.

λ‹΅κΈ€ 남기기 응닡 μ·¨μ†Œ

이메일 μ£Όμ†ŒλŠ” κ³΅κ°œλ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν•„μˆ˜ ν•„λ“œλŠ” *둜 ν‘œμ‹œλ©λ‹ˆλ‹€

μ΅œμ‹ κΈ€

  • πŸ“Š 일일 λ‰΄μŠ€ 감성 리포트 – 2026-01-28
  • AI μ‹œμŠ€ν…œμ˜ λ¬Έλ§₯ 기반 검색(Contextual Retrieval) | Anthropic
  • “Think” 툴: Claudeκ°€ λ©ˆμΆ°μ„œ 생각할 수 μžˆλ„λ‘ ν•˜κΈ° | Anthropic
  • Claude Code λͺ¨λ²” 사둀 \ Anthropic
  • μš°λ¦¬κ°€ λ©€ν‹° μ—μ΄μ „νŠΈ 연ꡬ μ‹œμŠ€ν…œμ„ κ΅¬μΆ•ν•œ 방법
Copyright 2026 — skycave's Blog. All rights reserved. Blogsy WordPress Theme