[AI Paper] Agentic Large Language Models: A Survey (2025)
Agentic Large Language Models: A Survey (2025)
📋 메타 정보
| 항목 | 내용 |
|---|---|
| 제목 | Agentic Large Language Models, a Survey |
| 저자 | Aske Plaat, Max van Duijn, Niki van Stein, Mike Preuss, Peter van der Putten, Kees Joost Batenburg |
| 소속 | Leiden University (LIACS) |
| 출판 | Journal of Artificial Intelligence Research (JAIR), Vol. 84 (2025) |
| arXiv | 2503.23037 |
| 최초 제출 | 2025년 3월 29일 |
| 최신 버전 | v3 (2025년 11월 22일) |
| 키워드 | Agentic AI, LLM Agents, Reasoning, Acting, Multi-Agent Systems |
🎯 한줄 요약
Agentic LLM을 “Reason-Act-Interact” 세 가지 핵심 능력으로 정의하고, 각 영역의 연구 동향과 상호 시너지 효과를 체계적으로 분류한 포괄적 서베이 논문
🔍 연구 배경 및 동기
LLM의 진화: 수동적 응답에서 능동적 에이전트로
기존 LLM은 단일 턴(single-turn) 응답을 생성하는 수동적 시스템이었다. 그러나 최근의 Agentic LLM은 다음과 같은 근본적 변화를 보여준다:
- 의도(Intent)를 가지고 행동: 단순 질의-응답이 아닌 목표 지향적 행동
- 계획(Planning) 수립: 복잡한 작업을 단계별로 분해
- 자율적 실행(Autonomous Execution): 외부 환경과 상호작용하며 작업 수행
연구의 필요성
- 학습 데이터 고갈 문제 해결: Agentic LLM은 추론 시간(inference-time) 행동을 통해 새로운 학습 상태를 생성하여, 점점 더 큰 데이터셋 없이도 지속적 학습 가능
- 실세계 적용 확대: 의료 진단, 물류, 금융 분석 등 고영향(high-impact) 분야에서의 활용 증가
- 체계적 분류의 부재: 빠르게 성장하는 분야를 통합적으로 정리할 프레임워크 필요
💡 핵심 아이디어
Agentic LLM의 정의
“자연어로 환경에서 입력을 받아, 의사결정을 위해 추론하고, 특정 목표를 달성하기 위해 환경에 영향을 미치는 자율적 행동을 취하는 에이전트”
Reason-Act-Interact 프레임워크
본 서베이의 핵심 기여는 Agentic LLM을 세 가지 상호 연결된 능력으로 분류한 것이다:
┌─────────────────────────────────────────────────────────────┐
│ AGENTIC LLM │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────────┐ │
│ │ REASON │◄──►│ ACT │◄──►│ INTERACT │ │
│ │ (추론) │ │ (행동) │ │ (상호작용) │ │
│ └──────────┘ └──────────┘ └──────────────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ - Reflection - Tool Use - Multi-Agent │
│ - Retrieval - Robotics - Role-Playing │
│ - Chain-of- - World - Emergent │
│ Thought Models Behaviors │
│ │
└─────────────────────────────────────────────────────────────┘
선순환 구조 (Virtuous Cycle)
세 능력은 상호 강화하는 선순환 구조를 형성:
- Retrieval → Tool Use: 검색 능력이 도구 사용을 가능하게 함
- Reflection → Multi-Agent: 자기 성찰이 다중 에이전트 협업을 개선
- Reasoning → All Categories: 추론 능력이 모든 범주에 혜택 제공
🏗️ 분류 체계
1. Reasoning (추론 능력)
의사결정 향상을 목표로 하는 추론, 성찰, 검색 연구
1.1 Chain-of-Thought (CoT) Prompting
| 기법 | 설명 | 특징 |
|---|---|---|
| Standard CoT | 단계별 추론 과정을 명시적으로 생성 | 산술 및 상식 추론 향상 |
| Zero-shot CoT | “Let’s think step by step” 프롬프트 | 예시 없이 CoT 유도 |
| Self-Consistency | 다중 추론 경로 생성 후 다수결 | 정확도 향상 |
한계점: 외부 세계 접근 불가, 지식 업데이트 불가 → 환각(hallucination) 및 오류 전파 문제
1.2 ReAct (Reasoning + Acting)
┌────────────────────────────────────────────────────────┐
│ ReAct 패러다임 │
├────────────────────────────────────────────────────────┤
│ │
│ Thought → Action → Observation → Thought → ... │
│ ↓ ↓ ↓ ↓ │
│ 추론 생성 환경 상호작용 결과 관찰 계획 수정 │
│ │
└────────────────────────────────────────────────────────┘
- 핵심: 추론 트레이스와 작업별 행동을 교차 생성
- 장점:
- 추론이 행동 계획 수립, 추적, 수정 지원
- 행동이 외부 정보(지식베이스, 환경) 수집 가능
- 평가: HotPotQA, Fever, ALFWorld, WebShop에서 검증
1.3 Tree of Thoughts (ToT)
- 접근법: 여러 추론 경로를 탐색하고 자기 평가로 다음 행동 결정
- 기능: 필요시 백트래킹 및 전역적 선택 가능
- 성과: Game of 24에서 GPT-4 CoT 4% → ToT 74% 성공률
1.4 Reflexion
- 메커니즘: 언어적 피드백을 통한 자기 성찰, 에피소드 메모리에 성찰 텍스트 저장
- 유연성: 스칼라 값 또는 자유 형식 언어, 외부 또는 내부 시뮬레이션 피드백 지원
- 성과: HumanEval 코딩 벤치마크에서 91% pass@1 달성 (GPT-4: 80%)
1.5 Language Agent Tree Search (LATS)
- 통합: 추론, 행동, 계획을 단일 프레임워크로 통합
- 방법: 외부 환경 + MCTS 기반 검색 알고리즘 활용
- 성과: GPT-3.5로 ReAct, Reflexion, CoT, ToT, RAP 모두 능가 (ICML 2024)
2. Acting (행동 능력)
실세계에서 유용한 어시스턴트로 기능하기 위한 행동 모델, 로봇, 도구 연구
2.1 Tool Use (도구 사용)
LLM이 외부 도구와 API를 활용하여 능력 확장:
| 도구 유형 | 예시 | 용도 |
|---|---|---|
| 검색 엔진 | Google, Bing API | 최신 정보 접근 |
| 계산기 | Wolfram Alpha | 정확한 수학 연산 |
| 코드 실행 | Python Interpreter | 프로그래밍 작업 |
| 데이터베이스 | SQL 쿼리 | 구조화된 데이터 접근 |
2.2 Robotics Integration
┌─────────────────────────────────────────────────────────┐
│ LLM-Robotics 통합 패턴 │
├─────────────────────────────────────────────────────────┤
│ │
│ High-Level (LLM) Low-Level (Traditional) │
│ ┌─────────────┐ ┌─────────────────────┐ │
│ │ 추론 │ ──► │ 모터 제어 │ │
│ │ 작업 분해 │ │ 센서 처리 │ │
│ │ 계획 수립 │ │ 궤적 생성 │ │
│ └─────────────┘ └─────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────┘
- SMART-LLM: 다중 로봇 작업 계획을 위한 LLM 기반 프레임워크
- LLM-driven Manipulation: 작업별 프로그래밍 없이 인간 지시를 따르는 범용 로봇
2.3 World Models
- LLM이 환경의 내부 모델을 구축하여 행동 결과 예측
- 시뮬레이션을 통한 계획 수립 및 의사결정 지원
3. Interacting (상호작용 능력)
다중 에이전트 시스템을 통한 협업적 문제 해결 및 사회적 행동 연구
3.1 Multi-Agent Systems (MAS)
┌─────────────────────────────────────────────────────────┐
│ Multi-Agent System 구성요소 │
├─────────────────────────────────────────────────────────┤
│ │
│ 1. Profile (프로필) - 에이전트 역할 정의 │
│ 2. Perception (인식) - 환경 정보 수집 │
│ 3. Self-Action (자기행동) - 독립적 행동 수행 │
│ 4. Mutual Interaction - 에이전트 간 상호작용 │
│ (상호 상호작용) │
│ 5. Evolution (진화) - 시간에 따른 적응 │
│ │
└─────────────────────────────────────────────────────────┘
3.2 Role-Playing & Simulation
- Agent Hospital: LLM 기반 의사 에이전트가 수동 라벨링 없이 진화하는 병원 시뮬라크럼
- 사회적 시뮬레이션: 협력적 문제 해결, 사회적 조정, 규범의 창발적 행동 연구
3.3 Emergent Behaviors
다중 에이전트 상호작용에서 나타나는 창발적 현상:
– 협력적 문제 해결
– 사회적 조정
– 규범 형성
📊 주요 연구 정리
Reasoning 관련 핵심 논문
| 논문 | 연도 | 핵심 기여 |
|---|---|---|
| Chain-of-Thought Prompting (Wei et al.) | 2022 | 단계별 추론으로 복잡한 문제 해결 능력 향상 |
| ReAct (Yao et al.) | 2023 (ICLR) | 추론과 행동의 시너지 결합 |
| Tree of Thoughts (Yao et al.) | 2023 | 다중 추론 경로 탐색 및 백트래킹 |
| Reflexion (Shinn et al.) | 2023 | 언어적 강화학습을 통한 자기 개선 |
| LATS | 2024 (ICML) | 추론, 행동, 계획의 통합 프레임워크 |
Acting 관련 핵심 프레임워크
| 프레임워크 | 특징 | 용도 |
|---|---|---|
| AutoGPT | 다단계 목표 자동화, 도구 사용, 계획, 실행 | 운영 자동화, 데이터 워크플로우 |
| BabyAGI | 경량 에이전트 루프 (작업 생성 → 우선순위화 → 실행) | 교육, 프로토타입, 인지 시뮬레이션 |
| LangChain | 모듈식 추상화 (에이전트, 체인, 도구, 메모리) | 기업급/연구급 시스템 |
| LangGraph | 그래프 기반 상태 관리, 다중 에이전트 앱 | 프로덕션 AI 에이전트 |
Interacting 관련 응용 사례
| 도메인 | 연구/시스템 | 설명 |
|---|---|---|
| 의료 | MDAgents, Agent Hospital, MedAgentSim | 의료 의사결정, 임상 상호작용 시뮬레이션 |
| 금융 | TradingAgents, FinRobot, Fincon | 주식 거래, 금융 의사결정 강화 |
| 연구 | STELLA, HealthFlow | 생의학 연구, 자율 헬스케어 연구 |
💪 Agentic LLM의 장점
1. 학습 데이터 문제 해결
- 추론 시간 행동이 새로운 학습 상태 생성
- 점점 더 큰 데이터셋 없이 지속적 학습 가능
2. 실세계 문제 해결 능력
- 도구 사용을 통한 외부 정보 접근
- 복잡한 다단계 작업 자동화
- 실시간 환경 적응
3. 협업적 지능
- 다중 에이전트 협력으로 복잡한 문제 해결
- 역할 기반 전문화를 통한 효율성 향상
- 창발적 행동을 통한 새로운 솔루션 발견
4. 자기 개선 능력
- Reflexion을 통한 지속적 성능 향상
- 피드백 기반 적응
- 경험에서 학습
⚠️ 현재 과제 및 미래 방향
핵심 과제
1. LLM 고유 문제의 전파
| 문제 | 설명 | 영향 |
|---|---|---|
| 보안 | 프롬프트 인젝션, 데이터 유출 | 시스템 무결성 위협 |
| 프라이버시 | 개인정보 처리 | 규제 준수 필요 |
| 편향 | 학습 데이터의 편향 전파 | 공정성 문제 |
| 환각 | 사실이 아닌 정보 생성 | 신뢰성 저하 |
| 투명성 | 의사결정 과정 불투명 | 설명가능성 부족 |
2. Agentic 특유의 새로운 과제
┌─────────────────────────────────────────────────────────┐
│ Agentic LLM 특유 과제 │
├─────────────────────────────────────────────────────────┤
│ │
│ • 컨텍스트 관리: 긴 대화에서의 컨텍스트 드리프트 │
│ • 목표 불일치: 의도한 목표와 실제 행동의 괴리 │
│ • 제한된 인간 감독: 자율적 행동의 통제 어려움 │
│ • 다중 에이전트 조정: 협업 시 충돌 및 비효율 │
│ • 윤리적/법적 책임: 행동에 대한 책임 소재 불명확 │
│ • 장기 안전성: 시간이 지남에 따른 행동 변화 │
│ │
└─────────────────────────────────────────────────────────┘
3. 보안 위협
- 확장된 공격 표면: 다단계 계획 및 외부 도구 상호작용으로 인한 취약점 증가
- 실제 위협 사례: EchoLeak (CVE-2025-32711) – Microsoft Copilot 대상 공격
- 프롬프트 감염: 다중 에이전트 시스템에서의 LLM-to-LLM 프롬프트 인젝션
- 위험의 정상화: 반복적 위험 노출로 인한 경각심 저하
미래 연구 방향
단기 목표 (1-2년)
- 다차원 안전 벤치마크 개발
- 실세계 시나리오 시뮬레이션
- 다중 에이전트 창발적 위험 평가
- 설명가능성 강화
- 투명한 의사결정 추적
- 감사 가능한 행동 로그
- 신뢰 메커니즘 구축
- 90% 이상의 시스템이 명시적 신뢰/안전 메커니즘 부재
- 가드레일, 관찰가능성, 검증 레이어 필요
중장기 목표 (3-5년)
- 적응적 추론 + 투명한 의사결정 + 통합 규정 준수
- 멀티모달 추론 및 도구 오케스트레이션 해결
- 정렬 안정성 (Alignment Stability)
- 강건한 평가 프레임워크
설계 원칙
“미래는 가장 빠르게 행동하는 모델이 아니라, 가장 신뢰할 수 있고 설명 가능하게 행동하는 모델에게 속한다.”
- 목표: 가장 자율적인 모델이 아닌, 가장 유용하게 자율적인 모델
- 핵심: 독립적 운영 + 정렬 유지 + 감사 가능 + 안전
🔗 관련 핵심 논문
Reasoning 계열
- Wei et al. (2022) – Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- Yao et al. (2023) – ReAct: Synergizing Reasoning and Acting in Language Models [ICLR 2023]
- Yao et al. (2023) – Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- Shinn et al. (2023) – Reflexion: Language Agents with Verbal Reinforcement Learning
- Zhou et al. (2024) – Language Agent Tree Search (LATS) [ICML 2024]
Acting 계열
- Schick et al. (2023) – Toolformer: Language Models Can Teach Themselves to Use Tools
- Significant-Gravitas – AutoGPT: An Autonomous GPT-4 Experiment
- Nakajima (2023) – BabyAGI: Task-Driven Autonomous Agent
Interacting 계열
- Park et al. (2023) – Generative Agents: Interactive Simulacra of Human Behavior
- Li et al. (2023) – CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society
Survey 및 개요
- Plaat et al. (2025) – Agentic Large Language Models, a Survey [JAIR]
- Wang et al. (2024) – A Survey on LLM-based Multi-Agent Systems
💻 실무 시사점
프레임워크 선택 가이드
| 사용 사례 | 권장 프레임워크 | 이유 |
|---|---|---|
| 프로덕션 시스템 | LangChain + LangGraph | 안정성, 확장성, 기업 지원 |
| 자동화 워크플로우 | AutoGPT | 다단계 목표, 도구 통합 |
| 연구/프로토타입 | BabyAGI | 경량, 이해 용이 |
| 다중 에이전트 | CrewAI, LangGraph | 역할 기반 협업 지원 |
구현 시 고려사항
1. 추론 전략 선택
# 작업 복잡도에 따른 추론 전략
if task_complexity == "simple":
use_strategy("Zero-shot CoT")
elif task_complexity == "moderate":
use_strategy("ReAct")
elif task_complexity == "complex":
use_strategy("ToT or LATS")
2. 안전 메커니즘 구축
- 가드레일: 허용된 행동 범위 정의
- 관찰가능성: 모든 행동 로깅 및 모니터링
- 검증 레이어: 행동 전 검증 단계 추가
- 인간 감독: 중요 결정에 인간 개입 지점 설정
3. 평가 체계 수립
- 추론 정확도 (Reasoning Accuracy)
- 행동 성공률 (Action Success Rate)
- 협업 효율성 (Collaboration Efficiency)
- 안전성 지표 (Safety Metrics)
도메인별 적용
| 도메인 | 핵심 고려사항 | 참고 시스템 |
|---|---|---|
| 의료 | 규제 준수, 설명가능성, 인간 감독 필수 | MDAgents, Agent Hospital |
| 금융 | 리스크 관리, 감사 추적, 규정 준수 | TradingAgents, FinRobot |
| 연구 | 재현성, 검증가능성 | STELLA |
| 고객 서비스 | 응답 품질, 에스컬레이션 정책 | LangChain Agents |
🏷️ Tags
#AI-Agent #LLM #Agentic-AI #Reasoning #ReAct #Chain-of-Thought #Tree-of-Thoughts #Reflexion #Multi-Agent-Systems #Tool-Use #AutoGPT #LangChain #Survey #2025 #JAIR #Leiden-University
📚 참고 자료
- arXiv: Agentic Large Language Models, a Survey
- JAIR Publication
- ReAct Paper
- Reflexion Paper
- LATS Project Page
마지막 업데이트: 2025년 1월