[AI Paper] Agentic Large Language Models: A Survey (2025)

2026년 01월 25일 7 Min Read

Agentic Large Language Models: A Survey (2025)

📋 메타 정보

항목	내용
제목	Agentic Large Language Models, a Survey
저자	Aske Plaat, Max van Duijn, Niki van Stein, Mike Preuss, Peter van der Putten, Kees Joost Batenburg
소속	Leiden University (LIACS)
출판	Journal of Artificial Intelligence Research (JAIR), Vol. 84 (2025)
arXiv	2503.23037
최초 제출	2025년 3월 29일
최신 버전	v3 (2025년 11월 22일)
키워드	Agentic AI, LLM Agents, Reasoning, Acting, Multi-Agent Systems

🎯 한줄 요약

Agentic LLM을 “Reason-Act-Interact” 세 가지 핵심 능력으로 정의하고, 각 영역의 연구 동향과 상호 시너지 효과를 체계적으로 분류한 포괄적 서베이 논문

🔍 연구 배경 및 동기

LLM의 진화: 수동적 응답에서 능동적 에이전트로

기존 LLM은 단일 턴(single-turn) 응답을 생성하는 수동적 시스템이었다. 그러나 최근의 Agentic LLM은 다음과 같은 근본적 변화를 보여준다:

의도(Intent)를 가지고 행동: 단순 질의-응답이 아닌 목표 지향적 행동
계획(Planning) 수립: 복잡한 작업을 단계별로 분해
자율적 실행(Autonomous Execution): 외부 환경과 상호작용하며 작업 수행

연구의 필요성

학습 데이터 고갈 문제 해결: Agentic LLM은 추론 시간(inference-time) 행동을 통해 새로운 학습 상태를 생성하여, 점점 더 큰 데이터셋 없이도 지속적 학습 가능
실세계 적용 확대: 의료 진단, 물류, 금융 분석 등 고영향(high-impact) 분야에서의 활용 증가
체계적 분류의 부재: 빠르게 성장하는 분야를 통합적으로 정리할 프레임워크 필요

💡 핵심 아이디어

Agentic LLM의 정의

“자연어로 환경에서 입력을 받아, 의사결정을 위해 추론하고, 특정 목표를 달성하기 위해 환경에 영향을 미치는 자율적 행동을 취하는 에이전트”

Reason-Act-Interact 프레임워크

본 서베이의 핵심 기여는 Agentic LLM을 세 가지 상호 연결된 능력으로 분류한 것이다:

┌─────────────────────────────────────────────────────────────┐
│                    AGENTIC LLM                              │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│    ┌──────────┐    ┌──────────┐    ┌──────────────┐        │
│    │  REASON  │◄──►│   ACT    │◄──►│  INTERACT    │        │
│    │ (추론)   │    │  (행동)  │    │   (상호작용) │        │
│    └──────────┘    └──────────┘    └──────────────┘        │
│         │              │                  │                 │
│         ▼              ▼                  ▼                 │
│    - Reflection    - Tool Use       - Multi-Agent          │
│    - Retrieval     - Robotics       - Role-Playing         │
│    - Chain-of-     - World          - Emergent             │
│      Thought         Models           Behaviors            │
│                                                             │
└─────────────────────────────────────────────────────────────┘

선순환 구조 (Virtuous Cycle)

세 능력은 상호 강화하는 선순환 구조를 형성:

Retrieval → Tool Use: 검색 능력이 도구 사용을 가능하게 함
Reflection → Multi-Agent: 자기 성찰이 다중 에이전트 협업을 개선
Reasoning → All Categories: 추론 능력이 모든 범주에 혜택 제공

🏗️ 분류 체계

1. Reasoning (추론 능력)

의사결정 향상을 목표로 하는 추론, 성찰, 검색 연구

1.1 Chain-of-Thought (CoT) Prompting

기법	설명	특징
Standard CoT	단계별 추론 과정을 명시적으로 생성	산술 및 상식 추론 향상
Zero-shot CoT	“Let’s think step by step” 프롬프트	예시 없이 CoT 유도
Self-Consistency	다중 추론 경로 생성 후 다수결	정확도 향상

한계점: 외부 세계 접근 불가, 지식 업데이트 불가 → 환각(hallucination) 및 오류 전파 문제

1.2 ReAct (Reasoning + Acting)

┌────────────────────────────────────────────────────────┐
│                    ReAct 패러다임                       │
├────────────────────────────────────────────────────────┤
│                                                        │
│   Thought → Action → Observation → Thought → ...      │
│      ↓         ↓          ↓           ↓               │
│   추론 생성   환경 상호작용  결과 관찰   계획 수정       │
│                                                        │
└────────────────────────────────────────────────────────┘

핵심: 추론 트레이스와 작업별 행동을 교차 생성
장점:
- 추론이 행동 계획 수립, 추적, 수정 지원
- 행동이 외부 정보(지식베이스, 환경) 수집 가능
평가: HotPotQA, Fever, ALFWorld, WebShop에서 검증

1.3 Tree of Thoughts (ToT)

접근법: 여러 추론 경로를 탐색하고 자기 평가로 다음 행동 결정
기능: 필요시 백트래킹 및 전역적 선택 가능
성과: Game of 24에서 GPT-4 CoT 4% → ToT 74% 성공률

1.4 Reflexion

메커니즘: 언어적 피드백을 통한 자기 성찰, 에피소드 메모리에 성찰 텍스트 저장
유연성: 스칼라 값 또는 자유 형식 언어, 외부 또는 내부 시뮬레이션 피드백 지원
성과: HumanEval 코딩 벤치마크에서 91% pass@1 달성 (GPT-4: 80%)

1.5 Language Agent Tree Search (LATS)

통합: 추론, 행동, 계획을 단일 프레임워크로 통합
방법: 외부 환경 + MCTS 기반 검색 알고리즘 활용
성과: GPT-3.5로 ReAct, Reflexion, CoT, ToT, RAP 모두 능가 (ICML 2024)

2. Acting (행동 능력)

실세계에서 유용한 어시스턴트로 기능하기 위한 행동 모델, 로봇, 도구 연구

2.1 Tool Use (도구 사용)

LLM이 외부 도구와 API를 활용하여 능력 확장:

도구 유형	예시	용도
검색 엔진	Google, Bing API	최신 정보 접근
계산기	Wolfram Alpha	정확한 수학 연산
코드 실행	Python Interpreter	프로그래밍 작업
데이터베이스	SQL 쿼리	구조화된 데이터 접근

2.2 Robotics Integration

┌─────────────────────────────────────────────────────────┐
│              LLM-Robotics 통합 패턴                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   High-Level (LLM)          Low-Level (Traditional)    │
│   ┌─────────────┐           ┌─────────────────────┐    │
│   │  추론       │    ──►    │  모터 제어          │    │
│   │  작업 분해  │           │  센서 처리          │    │
│   │  계획 수립  │           │  궤적 생성          │    │
│   └─────────────┘           └─────────────────────┘    │
│                                                         │
└─────────────────────────────────────────────────────────┘

SMART-LLM: 다중 로봇 작업 계획을 위한 LLM 기반 프레임워크
LLM-driven Manipulation: 작업별 프로그래밍 없이 인간 지시를 따르는 범용 로봇

2.3 World Models

LLM이 환경의 내부 모델을 구축하여 행동 결과 예측
시뮬레이션을 통한 계획 수립 및 의사결정 지원

3. Interacting (상호작용 능력)

다중 에이전트 시스템을 통한 협업적 문제 해결 및 사회적 행동 연구

3.1 Multi-Agent Systems (MAS)

┌─────────────────────────────────────────────────────────┐
│             Multi-Agent System 구성요소                  │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  1. Profile (프로필)        - 에이전트 역할 정의        │
│  2. Perception (인식)       - 환경 정보 수집            │
│  3. Self-Action (자기행동)  - 독립적 행동 수행          │
│  4. Mutual Interaction      - 에이전트 간 상호작용      │
│     (상호 상호작용)                                      │
│  5. Evolution (진화)        - 시간에 따른 적응          │
│                                                         │
└─────────────────────────────────────────────────────────┘

3.2 Role-Playing & Simulation

Agent Hospital: LLM 기반 의사 에이전트가 수동 라벨링 없이 진화하는 병원 시뮬라크럼
사회적 시뮬레이션: 협력적 문제 해결, 사회적 조정, 규범의 창발적 행동 연구

3.3 Emergent Behaviors

다중 에이전트 상호작용에서 나타나는 창발적 현상:
– 협력적 문제 해결
– 사회적 조정
– 규범 형성

📊 주요 연구 정리

Reasoning 관련 핵심 논문

논문	연도	핵심 기여
Chain-of-Thought Prompting (Wei et al.)	2022	단계별 추론으로 복잡한 문제 해결 능력 향상
ReAct (Yao et al.)	2023 (ICLR)	추론과 행동의 시너지 결합
Tree of Thoughts (Yao et al.)	2023	다중 추론 경로 탐색 및 백트래킹
Reflexion (Shinn et al.)	2023	언어적 강화학습을 통한 자기 개선
LATS	2024 (ICML)	추론, 행동, 계획의 통합 프레임워크

Acting 관련 핵심 프레임워크

프레임워크	특징	용도
AutoGPT	다단계 목표 자동화, 도구 사용, 계획, 실행	운영 자동화, 데이터 워크플로우
BabyAGI	경량 에이전트 루프 (작업 생성 → 우선순위화 → 실행)	교육, 프로토타입, 인지 시뮬레이션
LangChain	모듈식 추상화 (에이전트, 체인, 도구, 메모리)	기업급/연구급 시스템
LangGraph	그래프 기반 상태 관리, 다중 에이전트 앱	프로덕션 AI 에이전트

Interacting 관련 응용 사례

도메인	연구/시스템	설명
의료	MDAgents, Agent Hospital, MedAgentSim	의료 의사결정, 임상 상호작용 시뮬레이션
금융	TradingAgents, FinRobot, Fincon	주식 거래, 금융 의사결정 강화
연구	STELLA, HealthFlow	생의학 연구, 자율 헬스케어 연구

💪 Agentic LLM의 장점

1. 학습 데이터 문제 해결

추론 시간 행동이 새로운 학습 상태 생성
점점 더 큰 데이터셋 없이 지속적 학습 가능

2. 실세계 문제 해결 능력

도구 사용을 통한 외부 정보 접근
복잡한 다단계 작업 자동화
실시간 환경 적응

3. 협업적 지능

다중 에이전트 협력으로 복잡한 문제 해결
역할 기반 전문화를 통한 효율성 향상
창발적 행동을 통한 새로운 솔루션 발견

4. 자기 개선 능력

Reflexion을 통한 지속적 성능 향상
피드백 기반 적응
경험에서 학습

⚠️ 현재 과제 및 미래 방향

핵심 과제

1. LLM 고유 문제의 전파

문제	설명	영향
보안	프롬프트 인젝션, 데이터 유출	시스템 무결성 위협
프라이버시	개인정보 처리	규제 준수 필요
편향	학습 데이터의 편향 전파	공정성 문제
환각	사실이 아닌 정보 생성	신뢰성 저하
투명성	의사결정 과정 불투명	설명가능성 부족

2. Agentic 특유의 새로운 과제

┌─────────────────────────────────────────────────────────┐
│              Agentic LLM 특유 과제                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  • 컨텍스트 관리: 긴 대화에서의 컨텍스트 드리프트       │
│  • 목표 불일치: 의도한 목표와 실제 행동의 괴리          │
│  • 제한된 인간 감독: 자율적 행동의 통제 어려움          │
│  • 다중 에이전트 조정: 협업 시 충돌 및 비효율           │
│  • 윤리적/법적 책임: 행동에 대한 책임 소재 불명확       │
│  • 장기 안전성: 시간이 지남에 따른 행동 변화            │
│                                                         │
└─────────────────────────────────────────────────────────┘

3. 보안 위협

확장된 공격 표면: 다단계 계획 및 외부 도구 상호작용으로 인한 취약점 증가
실제 위협 사례: EchoLeak (CVE-2025-32711) – Microsoft Copilot 대상 공격
프롬프트 감염: 다중 에이전트 시스템에서의 LLM-to-LLM 프롬프트 인젝션
위험의 정상화: 반복적 위험 노출로 인한 경각심 저하

미래 연구 방향

단기 목표 (1-2년)

다차원 안전 벤치마크 개발
- 실세계 시나리오 시뮬레이션
- 다중 에이전트 창발적 위험 평가
설명가능성 강화
- 투명한 의사결정 추적
- 감사 가능한 행동 로그
신뢰 메커니즘 구축
- 90% 이상의 시스템이 명시적 신뢰/안전 메커니즘 부재
- 가드레일, 관찰가능성, 검증 레이어 필요

중장기 목표 (3-5년)

적응적 추론 + 투명한 의사결정 + 통합 규정 준수
멀티모달 추론 및 도구 오케스트레이션 해결
정렬 안정성 (Alignment Stability)
강건한 평가 프레임워크

설계 원칙

“미래는 가장 빠르게 행동하는 모델이 아니라, 가장 신뢰할 수 있고 설명 가능하게 행동하는 모델에게 속한다.”

목표: 가장 자율적인 모델이 아닌, 가장 유용하게 자율적인 모델
핵심: 독립적 운영 + 정렬 유지 + 감사 가능 + 안전

🔗 관련 핵심 논문

Reasoning 계열

Wei et al. (2022) – Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Yao et al. (2023) – ReAct: Synergizing Reasoning and Acting in Language Models [ICLR 2023]
Yao et al. (2023) – Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Shinn et al. (2023) – Reflexion: Language Agents with Verbal Reinforcement Learning
Zhou et al. (2024) – Language Agent Tree Search (LATS) [ICML 2024]

Acting 계열

Schick et al. (2023) – Toolformer: Language Models Can Teach Themselves to Use Tools
Significant-Gravitas – AutoGPT: An Autonomous GPT-4 Experiment
Nakajima (2023) – BabyAGI: Task-Driven Autonomous Agent

Interacting 계열

Park et al. (2023) – Generative Agents: Interactive Simulacra of Human Behavior
Li et al. (2023) – CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society

Survey 및 개요

Plaat et al. (2025) – Agentic Large Language Models, a Survey [JAIR]
Wang et al. (2024) – A Survey on LLM-based Multi-Agent Systems

💻 실무 시사점

프레임워크 선택 가이드

사용 사례	권장 프레임워크	이유
프로덕션 시스템	LangChain + LangGraph	안정성, 확장성, 기업 지원
자동화 워크플로우	AutoGPT	다단계 목표, 도구 통합
연구/프로토타입	BabyAGI	경량, 이해 용이
다중 에이전트	CrewAI, LangGraph	역할 기반 협업 지원

구현 시 고려사항

1. 추론 전략 선택

# 작업 복잡도에 따른 추론 전략
if task_complexity == "simple":
    use_strategy("Zero-shot CoT")
elif task_complexity == "moderate":
    use_strategy("ReAct")
elif task_complexity == "complex":
    use_strategy("ToT or LATS")

2. 안전 메커니즘 구축

가드레일: 허용된 행동 범위 정의
관찰가능성: 모든 행동 로깅 및 모니터링
검증 레이어: 행동 전 검증 단계 추가
인간 감독: 중요 결정에 인간 개입 지점 설정

3. 평가 체계 수립

추론 정확도 (Reasoning Accuracy)
행동 성공률 (Action Success Rate)
협업 효율성 (Collaboration Efficiency)
안전성 지표 (Safety Metrics)

도메인별 적용

도메인	핵심 고려사항	참고 시스템
의료	규제 준수, 설명가능성, 인간 감독 필수	MDAgents, Agent Hospital
금융	리스크 관리, 감사 추적, 규정 준수	TradingAgents, FinRobot
연구	재현성, 검증가능성	STELLA
고객 서비스	응답 품질, 에스컬레이션 정책	LangChain Agents

🏷️ Tags

#AI-Agent #LLM #Agentic-AI #Reasoning #ReAct #Chain-of-Thought #Tree-of-Thoughts #Reflexion #Multi-Agent-Systems #Tool-Use #AutoGPT #LangChain #Survey #2025 #JAIR #Leiden-University

📚 참고 자료

마지막 업데이트: 2025년 1월