[AI Paper] 📄 Large Language Model based Multi-Agents: A Survey of Progress and Challenges

2026년 01월 25일 7 Min Read

📄 Large Language Model based Multi-Agents: A Survey of Progress and Challenges

📋 메타 정보

항목	내용
저자	Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
소속 기관	University of Notre Dame, King Abdullah University of Science and Technology (KAUST), Southern University of Science and Technology, University of Massachusetts Boston
발표처	IJCAI 2024 (Thirty-Third International Joint Conference on Artificial Intelligence)
발표 연도	2024
arXiv	arXiv:2402.01680
GitHub	LLM_MultiAgents_Survey_Papers
페이지	pp. 8048-8057

🎯 한줄 요약

LLM 기반 Multi-Agent 시스템의 핵심 구성요소(환경 인터페이스, 에이전트 프로파일링, 커뮤니케이션, 능력 획득)를 체계적으로 분류하고, Problem Solving과 World Simulation 두 가지 주요 응용 분야의 연구 동향을 종합적으로 정리한 최초의 체계적 서베이 논문.

🔍 연구 배경 및 동기

기존 상황

LLM이 다양한 태스크에서 놀라운 성과를 달성
LLM의 뛰어난 계획(Planning) 및 추론(Reasoning) 능력을 활용한 자율 에이전트 연구 활발
초기에는 단일 에이전트 기반 의사결정/계획 시스템이 주류

문제점

단일 에이전트의 한계
- 복잡한 문제 해결에 필요한 다양한 전문성과 관점 부족
- 학제간 지식이나 다면적 문제 해결에 취약
- 정보 교차 검증 불가로 hallucination 위험
체계적 분류 부재
- Multi-Agent 연구가 급증했지만 통합적 프레임워크 부족
- 연구자들이 전체 그림을 파악하기 어려움

연구 필요성

Multi-Agent 시스템의 핵심 구성요소에 대한 체계적 분류
다양한 응용 도메인별 연구 동향 정리
향후 연구 방향 제시

💡 핵심 아이디어

Multi-Agent 시스템의 정의

여러 LLM 기반 에이전트가 협력하여 단일 에이전트로는 해결하기 어려운 복잡한 문제를 해결하거나, 실제 세계를 시뮬레이션하는 시스템

4가지 핵심 분석 축 (Four Key Aspects)

┌─────────────────────────────────────────────────────────────┐
│                    LLM-MA System                            │
├─────────────────────────────────────────────────────────────┤
│  1. Agents-Environment Interface (에이전트-환경 인터페이스)  │
│  2. Agent Profiling (에이전트 프로파일링)                    │
│  3. Agent Communication (에이전트 커뮤니케이션)              │
│  4. Agent Capability Acquisition (에이전트 능력 획득)        │
└─────────────────────────────────────────────────────────────┘

핵심 연구 질문

LLM-MA 시스템이 어떤 도메인과 환경을 시뮬레이션하는가?
에이전트는 어떻게 프로파일링되고, 어떻게 커뮤니케이션하는가?
에이전트의 능력 성장에 기여하는 메커니즘은 무엇인가?

🏗️ 분류 체계 / 프레임워크

1. Agents-Environment Interface (에이전트-환경 인터페이스)

에이전트가 태스크 환경과 상호작용하는 방식

환경 유형

유형	설명	예시
Sandbox Environment	게임 규칙, 시간 전환 등 프레임워크 설정	Werewolf Game, Avalon
Physical Environment	실제 물리적 환경 시뮬레이션	로보틱스, IoT
Virtual Environment	소프트웨어 개발, 웹 환경	ChatDev, MetaGPT

환경 피드백

에이전트는 환경으로부터 피드백을 받아 현재 상태 파악
피드백을 통해 의사결정 및 행동 조정

2. Agent Profiling (에이전트 프로파일링)

에이전트에게 특정 행동 방식을 부여하는 방법

프로파일링 전략 (3가지)

┌────────────────────────────────────────────────────────┐
│              Agent Profiling Strategies                │
├──────────────┬──────────────┬──────────────────────────┤
│  Handcrafted │ LLM-Generated│    Data-Driven           │
│  (수작업)     │ (LLM 생성)   │    (데이터 기반)          │
├──────────────┼──────────────┼──────────────────────────┤
│ 인간이 직접   │ LLM이 자동   │ 실제 데이터에서           │
│ 역할/페르소나 │ 역할 생성    │ 페르소나 추출             │
│ 정의          │              │                          │
└──────────────┴──────────────┴──────────────────────────┘

프로파일 구성요소

역할 (Role): Product Manager, Engineer, Tester 등
페르소나 (Persona): 성격, 전문 분야, 행동 양식
목표 (Goal): 에이전트가 달성해야 할 목표

동적 에이전트 생성

IAAG (Initial Automatic Agent Generation): 초기 자동 에이전트 생성
DRTAG (Dynamic Real-Time Agent Generation): 실시간 동적 에이전트 생성
태스크 요구사항에 따라 새로운 에이전트를 on-the-fly로 생성

3. Agent Communication (에이전트 커뮤니케이션)

에이전트 간 메시지 교환 및 협력 방식

Communication Structure (통신 구조) – 4가지 유형

┌─────────────────────────────────────────────────────────────────┐
│                   Communication Structures                       │
├─────────────────┬─────────────────┬─────────────────────────────┤
│   Centralized   │   Decentralized │      Layered/Hierarchical   │
│    (중앙집중형)  │    (분산형)      │         (계층형)             │
├─────────────────┼─────────────────┼─────────────────────────────┤
│ 중앙 에이전트가  │ P2P 네트워크    │ 계층별 역할 분리             │
│ 전체 조율       │ 직접 통신       │ 인접 계층과 상호작용         │
└─────────────────┴─────────────────┴─────────────────────────────┘

              ┌───────────────────────────┐
              │    Shared Message Pool    │
              │     (공유 메시지 풀)        │
              ├───────────────────────────┤
              │ MetaGPT에서 제안           │
              │ 에이전트가 메시지 발행/구독  │
              │ 역할 기반 메시지 필터링      │
              └───────────────────────────┘

Communication Paradigm (통신 패러다임)

패러다임	설명
Message Passing	자연어 또는 구조화된 데이터 전송
Speech Act	발화가 약속, 명령, 질의 역할
Blackboard Model	공유 메모리/컨텍스트 저장소

Network Topology (네트워크 토폴로지)

Bus, Star, Ring, Tree 등 다양한 구성 가능
조정 요구사항에 따라 최적화

4. Agent Capability Acquisition (에이전트 능력 획득)

에이전트가 문제 해결 능력을 개발하는 방법

Feedback Types (피드백 유형)

┌─────────────────────────────────────────────────────────┐
│                    Feedback Sources                      │
├─────────────────┬─────────────────┬─────────────────────┤
│   Environment   │     Human       │   Other Agents      │
│   (환경 피드백)  │  (인간 피드백)   │  (에이전트 피드백)   │
├─────────────────┼─────────────────┼─────────────────────┤
│ 실제/가상 환경  │ 사용자 평가     │ 동료 에이전트        │
│ 에서의 결과     │ 및 수정         │ 검증 및 비평         │
└─────────────────┴─────────────────┴─────────────────────┘

Learning Strategies (학습 전략)

Memory-based Learning
- Short-term Memory: 행동과 관찰의 궤적
- Long-term Memory: 축적된 경험
- Reflection: 자기 성찰을 통한 개선
Self-Reflection (자기 성찰)
- Reflexion: 태스크 완료/실패 후 언어적 분석 생성
- 에피소딕 메모리 버퍼에 성찰 저장
- “Verbal Reinforcement Learning”
Tool-based Feedback
- CRITIC: 도구 기반 피드백으로 출력 검증/수정
- STE: Trial-and-error 시뮬레이션으로 도구 학습 강화

5. 응용 분야 분류

Problem Solving (문제 해결)

분야	설명	대표 시스템
Software Development	소프트웨어 개발 자동화	ChatDev, MetaGPT
Scientific Research	과학 연구 가속화	ChemCrow
Mathematical Reasoning	수학적 추론	–
Code Generation	코드 생성	AutoGen

World Simulation (세계 시뮬레이션)

분야	설명	예시
Social Simulation	사회적 행동 시뮬레이션	Generative Agents
Game Simulation	게임 환경 시뮬레이션	Werewolf, Avalon
Economy Simulation	경제 시뮬레이션	–
Psychology Simulation	심리 시뮬레이션	–
Policy Making	정책 결정 시뮬레이션	–
Disease Propagation	질병 전파 시뮬레이션	–

📊 주요 연구들 비교

대표 Multi-Agent 프레임워크 비교

프레임워크	개발사	특징	GitHub Stars	주요 용도
AutoGen	Microsoft	유연한 워크플로우, 그룹 채팅, 중첩 대화 지원	~53K+	범용 (수학, 코딩, QA 등)
MetaGPT	–	SOP 기반, 소프트웨어 회사 구조 모방	~40K+	소프트웨어 개발
ChatDev	OpenBMB	Waterfall 모델, 역할 기반 협업	–	소프트웨어 개발
CAMEL	–	Role-playing 기반 초기 프레임워크	–	연구/실험

성능 비교

┌─────────────────────────────────────────────────────────────┐
│             Performance Comparison (Code Generation)         │
├──────────────┬──────────────────────────────────────────────┤
│  Framework   │  특징                                         │
├──────────────┼──────────────────────────────────────────────┤
│  ChatDev     │ 품질 메트릭에서 MetaGPT 대비 우수              │
│              │ 자연어 + 프로그래밍 언어 협력적 통신            │
├──────────────┼──────────────────────────────────────────────┤
│  MetaGPT     │ SOP로 워크플로우 체계화, 에러 감소             │
│              │ 높은 통신 비용 (~$10/HumanEval task)          │
├──────────────┼──────────────────────────────────────────────┤
│  AutoGen     │ 가장 유연한 대화 패턴                          │
│              │ SOP 외 다양한 시나리오 지원                    │
├──────────────┼──────────────────────────────────────────────┤
│ GPT-Engineer │ 단일 에이전트, Multi-Agent 대비 성능 저조      │
│ (Single)     │ 복잡한 태스크에서 한계                         │
└──────────────┴──────────────────────────────────────────────┘

통신 구조별 대표 연구

통신 구조	대표 연구	특징
Centralized	AutoGen Supervisor	명확한 제어, 병목 가능성
Decentralized	CAMEL	높은 적응성, 조정 복잡성
Shared Pool	MetaGPT	효율적 메시지 관리
Layered	DyLAN	동적 상호작용, 조기 종료 메커니즘

💪 Multi-Agent의 장점

Single Agent 대비 핵심 장점

1. 향상된 문제 해결 능력

복잡한 문제를 관리 가능한 하위 태스크로 분해
각 에이전트가 전문 분야에 집중
학제간 지식 결합 가능

2. 정확성 및 신뢰성 향상

교차 검증: 여러 에이전트가 정보 상호 검증
Hallucination 감소: 토론, 검토, 검증을 통한 오류 수정
단일 에이전트 대비 더 정확하고 견고한 솔루션

3. 확장성 (Scalability)

시스템 전체 재작업 없이 에이전트 추가 가능
비즈니스 요구 변화에 유연하게 대응
워크로드 증가시 새로운 에이전트 통합 용이

4. 효율성 (Efficiency)

워크로드 분산으로 더 빠른 실행
병목현상 감소
병렬 처리 가능

5. 회복탄력성 (Resilience)

한 컴포넌트 실패 시에도 시스템 유지
헬스케어, 물류 등 상시 가동 환경에 적합

6. 인간 행동 시뮬레이션

전략적 추론 시뮬레이션에서 Multi-Agent가 우수 (88% vs 50% 정확도)
정책 결정자를 위한 예비 탐색에 활용 가능

정량적 비교

측면	Single Agent	Multi-Agent
인간 전략적 추론 시뮬레이션	50% 정확도	88% 정확도
복잡한 태스크 처리	성능 저하	효과적 분업
정보 검증	불가	교차 검증 가능

⚠️ 현재 한계점 및 미해결 과제

1. Hallucination (환각) 문제

Cascading Hallucinations: 한 에이전트의 오류가 연쇄적으로 확대
Communication Hallucinations: 부정확한 사실, 오해석, 오도하는 추론 포함 메시지 생성
LLM 자체의 Factuality/Faithfulness Hallucination이 Multi-Agent 환경에서 증폭

2. 확장성 및 효율성 문제

추론 속도: LLM의 autoregressive 특성으로 느린 추론
반복 쿼리: 메모리 추출, 계획 수립 등 각 행동마다 여러 번 LLM 쿼리 필요
통신 비용: MetaGPT, ChatDev 등 대규모 에이전트 그룹에서 높은 비용 (~$10/task)

3. 조정 및 오케스트레이션

Agent Orchestration: 다양한 에이전트 관리의 복잡성
분산형 패러다임에서 에이전트 수 증가 시 효율성 저하
명확한 계획 없는 자유로운 통신 시 혼란 발생

4. 평가 및 벤치마크 부재

표준화된 벤치마크 부족: 동일 종류의 LLM-MAS 비교 불가
그룹 행동 객관적 메트릭 부재: 집단 수준의 상세한 평가 지표 미확립
정적 인간 주석 기반 평가의 확장성 한계

5. 조직 설계 문제

기본 모델 성능 향상만으로는 모든 이슈 해결 불가
조직 구조 결함: 정교한 개인들의 조직도 구조 결함 시 실패 가능
개별 에이전트 한계보다 조직 설계와 조정의 문제

6. 안전성 문제

Multi-Agent 시나리오에서 Emergent Risks 발생 가능
적대적 입력에 대한 견고성 부족
편향 완화 및 정책 준수 테스트 부족

7. 디버깅 어려움

출력 실패 시 어떤 에이전트의 문제인지 불명확
3-에이전트 체인이 비용과 지연 3배 증가 가능

🔮 향후 연구 방향

1. 평가 방법론 개선

Agent-as-a-Judge: LLM 기반 에이전트를 평가자로 활용
더 현실적이고 확장 가능한 평가 접근법 개발
자동화된 평가 시스템 구축

2. 안전성 벤치마크 개발

Multi-Agent 시나리오 특화 안전성 테스트
실제 시나리오 시뮬레이션
AgentHarm 등 초기 노력 확장

3. 효율성 최적화

추론 속도 개선
통신 비용 절감
조기 종료 메커니즘 (DyLAN 등)

4. 기업 특화 과제 해결

역할 기반 데이터 접근
신뢰성 보장
동적/장기 상호작용
규정 준수

🔗 관련 핵심 논문

Multi-Agent 프레임워크

AutoGen: Wu et al. – Microsoft의 Multi-Agent 대화 프레임워크
MetaGPT: Hong et al. – SOP 기반 소프트웨어 개발 프레임워크
ChatDev: Qian et al. – 가상 소프트웨어 회사 시뮬레이션
CAMEL: Li et al. – Role-playing 기반 초기 프레임워크

World Simulation

Generative Agents: Park et al. – 25명 에이전트의 사회 시뮬레이션

Agent Architecture

ReAct: Yao et al. – Reasoning + Acting 통합
Reflexion: Shinn et al. – 자기 성찰 기반 학습

Communication

DyLAN: Liu et al. – Dynamic LLM-Agent Network

💻 실무 적용 포인트

시스템 설계 시 고려사항

1. 프레임워크 선택 가이드

사용 사례	권장 프레임워크
기업 애플리케이션	AutoGen, LangGraph
소프트웨어 개발	MetaGPT, ChatDev
연구/실험	CAMEL
유연한 대화	AutoGen

2. 통신 구조 설계

중앙집중형: 명확한 제어 필요 시 (병목 주의)
분산형: 높은 적응성 필요 시 (조정 복잡성 주의)
공유 메시지 풀: 효율적 메시지 관리 필요 시

3. 에이전트 프로파일링

역할과 책임 명확히 정의
적절한 수의 에이전트 유지 (과도한 에이전트는 비용 증가)
동적 에이전트 생성 고려

4. 비용 최적화

직렬 메시지 최소화
조기 종료 메커니즘 도입
에이전트 수와 통신 복잡도 균형

5. 오류 처리

교차 검증 메커니즘 구현
Hallucination 감지 로직 추가
폴백 전략 수립

6. 평가 전략

SWE-bench, WebArena, AgentBench 등 표준 벤치마크 활용
TheAgentCompany 같은 현실적 태스크 벤치마크 고려
자체 평가 메트릭 정의

실무 체크리스트

□ 문제가 Multi-Agent가 필요한 복잡성인가?
□ 적절한 프레임워크를 선택했는가?
□ 에이전트 역할이 명확히 정의되었는가?
□ 통신 구조가 요구사항에 맞는가?
□ 비용 추정을 완료했는가?
□ 오류 처리 전략이 있는가?
□ 평가 방법이 정의되었는가?
□ 확장성을 고려했는가?

🏷️ Tags

#AIAgent #MultiAgent #LLM #Survey #IJCAI2024 #AutoGen #MetaGPT #ChatDev #CAMEL #AgentCommunication #AgentProfiling #WorldSimulation #ProblemSolving #SoftwareDevelopment #AI시스템설계 #멀티에이전트 #대규모언어모델

📚 참고 자료

Last Updated: 2024
Note: 이 노트는 서베이 논문의 핵심 내용을 학습 목적으로 정리한 것입니다.