[AI Paper] 📄 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

2026년 01월 25일 8 Min Read

📄 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

📋 메타 정보

항목	내용
저자	Sirui Hong, Mingchen Zhuge, Jonathan Chen, Xiawu Zheng, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu, Jurgen Schmidhuber
소속 기관	DeepWisdom, KAUST AI Initiative, Xiamen University, CUHK-Shenzhen, Nanjing University, UPenn, UC Berkeley, IDSIA
발표처	ICLR 2024 (Oral Presentation, Top 1.2%)
연도	2024 (arXiv 초판: 2023년 8월)
arXiv	arxiv:2308.00352
GitHub	github.com/FoundationAgents/MetaGPT
OpenReview	openreview.net/forum?id=VtmBAGCN7o
공식 문서	docs.deepwisdom.ai

🎯 한줄 요약

인간 조직의 표준 운영 절차(SOPs)를 LLM 기반 멀티 에이전트 시스템에 도입하여, 구조화된 출력물을 통한 역할 기반 협업으로 복잡한 소프트웨어 개발 작업의 품질과 일관성을 획기적으로 개선한 메타 프로그래밍 프레임워크

🔍 연구 배경 및 동기

기존 Multi-Agent 시스템의 문제점

Cascading Hallucinations (연쇄적 환각)
- 기존 LLM 기반 멀티 에이전트 시스템은 LLM을 단순히 체이닝하는 방식 사용
- 한 에이전트의 오류가 다음 에이전트로 전파되어 논리적 불일치 발생
- 복잡한 작업에서 품질 저하가 심각함
비구조화된 커뮤니케이션
- AutoGPT, AgentVerse 등 기존 시스템은 자연어 대화를 통한 소통
- 불필요한 정보 교환, 핵심 정보 누락 등의 문제 발생
- 대화 기반 협업은 비효율적이고 오류 발생 가능성 높음
체계적 요구사항 분해 부재
- AutoGPT, LangChain 등은 복잡한 시스템 개발을 위한 체계적 분해 능력 부족
- 코드 생성은 가능하나 PRD, 기술 설계, API 프로토타이핑 등 프로젝트 관리 기능 부재
실행 가능성 문제
- 기존 방법들(AutoGPT, AgentVerse)은 실행 가능한 코드 생성에 실패
- 평균 실행 가능성 점수: AutoGPT 1.0, AgentVerse 1.0 vs MetaGPT 3.9
피드백 루프 부재
- 초기 프레임워크들은 워터폴 방식으로 단방향 진행
- 초기 단계의 버그가 끝까지 전파됨
- 자기 수정(self-correction) 메커니즘 부재

💡 핵심 아이디어

1. SOPs (Standard Operating Procedures) 도입

Code = SOP(Team)

핵심 철학: 인간 조직의 표준 운영 절차를 AI 에이전트 협업에 적용
실제 소프트웨어 회사의 워크플로우를 모방
각 단계별로 명확한 입출력과 검증 절차 정의
중간 결과물에 대한 검증으로 오류 조기 발견

SOP가 제공하는 이점:
– 모호성 완화 (Mitigate Ambiguities)
– 작업 분해를 통한 명확한 실행 초점 제공
– 전문화된 역할을 통한 관련성 향상
– 표준화된 출력을 통한 명시적 의존성 설정
– 공유 환경을 통한 투명성 제공

2. 역할 기반 협업 (Role-based Collaboration)

소프트웨어 회사의 조직 구조를 그대로 반영
각 에이전트는 특정 역할과 전문성 보유
역할별 명확한 책임과 산출물 정의
Assembly Line (조립 라인) 패러다임 적용

3. 구조화된 출력 (Structured Outputs)

기존 방식 (ChatDev 등)	MetaGPT 방식
자연어 대화로 소통	문서와 다이어그램으로 소통
정보 누락/중복 가능	필요한 정보만 명확히 전달
비효율적 커뮤니케이션	효율적 정보 공유

PRD (Product Requirement Document)
시스템 설계 문서
API 인터페이스 정의
시퀀스 다이어그램

4. Global Message Pool

모든 에이전트가 접근 가능한 공유 메시지 풀
에이전트 간 직접 질의 불필요
필요한 정보를 투명하게 조회 가능
커뮤니케이션 오버헤드 대폭 감소

🏗️ 아키텍처 / 방법론

에이전트 역할 (Software Company Roles)

┌─────────────────────────────────────────────────────────────┐
│                    MetaGPT Software Company                  │
├─────────────────────────────────────────────────────────────┤
│  👔 Product Manager                                          │
│     └─→ PRD (User Stories, Requirement Pool)                │
│                          ↓                                   │
│  🏛️ Architect                                                │
│     └─→ System Design (File List, Data Structures,          │
│          Interface Definitions, Sequence Diagrams)          │
│                          ↓                                   │
│  📋 Project Manager                                          │
│     └─→ Task Distribution & Assignment                      │
│                          ↓                                   │
│  💻 Engineer                                                 │
│     └─→ Code Implementation                                 │
│                          ↓                                   │
│  🔍 QA Engineer                                              │
│     └─→ Test Cases, Bug Detection                           │
└─────────────────────────────────────────────────────────────┘

시스템 아키텍처

┌─────────────────────────────────────────────────────────────┐
│                      MetaGPT Framework                       │
├─────────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│  │   Product   │  │  Architect  │  │   Project   │         │
│  │   Manager   │──│             │──│   Manager   │         │
│  └─────────────┘  └─────────────┘  └─────────────┘         │
│         │                │                │                  │
│         ▼                ▼                ▼                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              Shared Message Pool                     │   │
│  │         (Publish-Subscribe Mechanism)                │   │
│  └─────────────────────────────────────────────────────┘   │
│         │                │                │                  │
│         ▼                ▼                ▼                  │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│  │  Engineer   │  │  Engineer   │  │ QA Engineer │         │
│  │     #1      │  │     #2      │  │             │         │
│  └─────────────┘  └─────────────┘  └─────────────┘         │
├─────────────────────────────────────────────────────────────┤
│                 Executable Feedback Loop                     │
│            (Runtime Debugging & Self-Correction)             │
└─────────────────────────────────────────────────────────────┘

각 역할별 상세

1. Product Manager (제품 관리자)

입력: 사용자 요구사항 (한 줄 아이디어)
출력: PRD (Product Requirement Document)
- User Stories
- Requirement Pool
- 기능 분해 (Functional Breakdown)
역할: 요구사항 분석 및 문서화

2. Architect (설계자)

입력: PRD
출력:
- System Design Components
- File Lists
- Data Structures
- Interface Definitions
- Sequence Flow Diagrams
역할: 기술 사양 및 시스템 아키텍처 설계

3. Project Manager (프로젝트 관리자)

입력: System Design
출력: Task Distribution Plan
역할: 기술 사양을 관리 가능한 작업으로 분해

4. Engineer (엔지니어)

입력: Task Assignments, Design Documents
출력: Implementation Code
역할: 지정된 클래스와 함수 구현

5. QA Engineer (QA 엔지니어)

입력: Code Output
출력: Unit Test Code, Bug Reports
역할: 테스트 케이스 생성 및 버그 검출

워크플로우 상세

사용자 요구사항
      ↓
[Product Manager] ─→ PRD 생성
      ↓
[Architect] ─→ 시스템 설계 & 인터페이스 정의
      ↓
[Project Manager] ─→ 작업 분배
      ↓
[Engineer] ─→ 코드 구현
      ↓
[QA Engineer] ─→ 테스트 & 디버깅
      ↓
[Executive Feedback] ─→ 런타임 디버깅 & 코드 실행
      ↓
최종 소프트웨어 산출물

Executable Feedback Mechanism

런타임 중 코드 디버깅 및 실행을 통해 코드 생성 품질을 향상시키는 핵심 메커니즘

# Pseudo-code for Executable Feedback Loop
def engineer_workflow(requirements, design, memory):
    code = generate_initial_code(requirements, design)

    for iteration in range(max_iterations):
        # 코드 실행 및 오류 검사
        result, errors = execute_code(code)

        if no_errors(errors):
            return code

        # 메모리에서 과거 실행/디버깅 기록 참조
        context = retrieve_from_memory(memory, errors)

        # PRD, 시스템 설계와 비교하여 코드 개선
        code = improve_code(
            code=code,
            errors=errors,
            prd=requirements,
            design=design,
            history=context
        )

    return code

효과: HumanEval에서 4.2%, MBPP에서 5.4% Pass@1 향상

통신 프로토콜 (Publish-Subscribe)

class Agent:
    def __init__(self, role, watch_actions):
        self.role = role
        self.watch_actions = watch_actions  # 구독할 액션 목록

    def _observe(self, environment):
        """환경에서 관련 메시지 관찰"""
        messages = environment.get_messages()
        relevant = [m for m in messages
                   if m.caused_by in self.watch_actions]
        return relevant

    def _think(self, observations):
        """수행할 액션 선택"""
        todo = self.select_action(observations)
        return todo

    def _act(self, todo):
        """액션 실행 및 결과 생성"""
        result = todo.execute()
        return result

📊 실험 및 결과

사용된 벤치마크

벤치마크	설명
HumanEval	164개의 수작업 프로그래밍 태스크 (함수 명세, 설명, 참조 코드, 테스트 포함)
MBPP	427개의 Python 태스크 (핵심 개념, 표준 라이브러리 기능 포함)
SoftwareDev	70개의 소프트웨어 개발 태스크 (미니 게임, 이미지 처리, 데이터 시각화 등)

주요 결과

HumanEval & MBPP 성능

모델/시스템	HumanEval Pass@1	MBPP Pass@1
GPT-4 (baseline)	67.0%	–
Codex + CodeT	–	67.7%
MetaGPT + GPT-3.5 (one-pass)	62.8%	74.7%
MetaGPT (w/o feedback)	81.7%	82.3%
MetaGPT (w/ feedback)	85.9%	87.7%

SoftwareDev 벤치마크 결과

메트릭	MetaGPT	ChatDev	AutoGPT	AgentVerse
Executability Score	3.75 (거의 완벽)	2.1	1.0	1.0
실행 시간	503초	더 김	–	–
Task Completion Rate	100%	낮음	0%	0%

Ablation Study – Executable Feedback 효과

설정	HumanEval	MBPP
Without Feedback	81.7%	82.3%
With Feedback	85.9% (+4.2%)	87.7% (+5.4%)

다른 프레임워크와의 비교

특성	MetaGPT	ChatDev	AutoGPT	AgentVerse
커뮤니케이션	구조화된 문서	자연어 대화	자연어	자연어
PRD 생성	O	X	X	X
기술 설계	O	X	X	X
코드 리뷰	O	O	X	O
사전 컴파일 실행	O	X	X	X
실행 가능성	매우 높음	중간	낮음	낮음

💪 강점 및 기여

학술적 기여

SOPs의 AI 시스템 최초 체계적 적용
- 인간 조직의 운영 절차를 AI 멀티 에이전트에 최초로 체계적 적용
- “Code = SOP(Team)” 철학 제시
구조화된 커뮤니케이션 프로토콜
- 자연어 대화 대신 구조화된 문서 기반 소통
- 정보 손실 및 환각 현상 대폭 감소
Executable Feedback Mechanism
- 런타임 디버깅을 통한 코드 품질 향상
- Self-improvement 메커니즘 도입
ICLR 2024 Oral (Top 1.2%)
- LLM-based Agent 카테고리 1위
- HumanEval, MBPP에서 State-of-the-Art 달성

실용적 강점

End-to-End 소프트웨어 개발
- 한 줄 요구사항에서 실행 가능한 코드까지 자동 생성
- PRD, 설계 문서, 코드, 테스트 모두 포함
높은 코드 품질
- 실행 가능성 점수 3.75/4.0 (거의 완벽)
- 인간 수정 필요량 최소화
효율성
- ChatDev 대비 빠른 실행 시간 (503초)
- 토큰 사용량 효율적
확장성
- 커스텀 에이전트 및 역할 정의 가능
- 다양한 도메인에 적용 가능한 프레임워크

⚠️ 한계점 및 향후 연구

현재 한계점

도메인 제한
- 현재 구현은 소프트웨어 엔지니어링에 집중
- 다른 도메인 적용 시 새로운 SOPs와 역할 정의 필요
인간 개입 필요성
- 버그 수정 및 품질 보증에서 가끔 인간 개입 필요
- 완전 자율 시스템까지는 미흡
계산 자원 요구
- 다수의 LLM 에이전트 동시 운영에 상당한 리소스 필요
- HumanEval 작업당 $10 이상의 비용 발생
테스트 정확도
- 생성된 테스트의 정확도가 약 80% 수준
- Feedback Loop 개선 여지 있음
복잡한 상호작용 태스크
- 높은 상호작용이 요구되는 태스크는 엄격한 제약으로 인해 완료 실패 가능
하드코딩된 상호작용 프로세스
- 실제 팀워크에서는 상호작용이 동적으로 변화
- 현재 SOP는 고정된 워크플로우
지식 경계
- 기반 LLM의 학습 데이터에 의존
- 최신 기술 동향 반영에 한계

향후 연구 방향

다른 협업 도메인으로 확장
- 데이터 분석, 연구, 컨설팅 등
모호한 요구사항 처리 능력 향상
- 불명확한 사용자 입력에 대한 robustness 개선
지속적 메모리 시스템 도입
- 벡터 스토어, 지식 그래프 활용
- 대규모 프로젝트 확장성 향상
하이브리드 프로토콜 설계
- MetaGPT 스타일 역할 템플릿 + Reflexion 스타일 피드백 결합
더 나은 평가 메트릭 개발
- Pass@1 외에 가독성, 성능, 보안 등 평가
자기 조직화 및 동적 SOP
- 강화학습 기반 동적 역할 할당
- Economy of Minds (EOM) 개념 적용

🔗 관련 논문

선행 연구 (Prior Work)

논문/프로젝트	설명	관계
AutoGPT	자율적 AI 에이전트	비교 대상, 체계적 분해 부재
ChatDev	대화 기반 멀티 에이전트 소프트웨어 개발	비교 대상, 자연어 소통 방식
AgentVerse	멀티 에이전트 시뮬레이션 프레임워크	비교 대상
CAMEL	역할 플레이 기반 멀티 에이전트 통신	선행 연구
LangChain	LLM 애플리케이션 프레임워크	기반 기술
GPT-Engineering	코드 생성 에이전트	비교 대상

후속 연구 (Follow-up Work)

논문	설명
AFlow	Agentic Workflow 자동 생성 (ICLR 2025 Oral, 상위 1.8%)
MGX (MetaGPT X)	세계 최초 AI 에이전트 개발팀 제품 (2025년 2월)
MapCoder	HumanEval 93.9%, MBPP 83.1% 달성
AgentCoder	HumanEval 96.3%, MBPP 91.8% 달성

💻 실무 적용 포인트

설치 및 환경 설정

요구사항

Python 3.9 이상, 3.12 미만
Node.js 및 pnpm 필요

Conda 환경 설정

conda create -n metagpt python=3.9
conda activate metagpt

설치 방법

# pip으로 설치
pip install --upgrade metagpt

# GitHub에서 직접 설치
pip install --upgrade git+https://github.com/geekan/MetaGPT.git

# 소스에서 설치
git clone https://github.com/geekan/MetaGPT
cd MetaGPT
pip install --upgrade -e .

Docker 설치

git clone https://github.com/geekan/MetaGPT.git
cd MetaGPT
docker build -t metagpt:custom .

설정 파일 (~/.metagpt/config2.yaml)

llm:
  api_type: "openai"
  model: "gpt-4-turbo"
  base_url: "https://api.openai.com/v1"
  api_key: "YOUR_API_KEY"

metagpt:
  max_budget: 10.0  # 최대 비용 (USD)
  workspace: ./workspace

기본 사용법

from metagpt.software_company import SoftwareCompany
from metagpt.roles import ProjectManager, ProductManager, Architect, Engineer

# 소프트웨어 회사 생성
company = SoftwareCompany()

# 역할 고용
company.hire([
    ProductManager(),
    Architect(),
    ProjectManager(),
    Engineer()
])

# 투자 및 프로젝트 시작
company.invest(investment=3.0)  # USD
company.start_project("Create a snake game with pygame")

# 실행
await company.run(n_round=5)

데이터 분석 작업

import asyncio
from metagpt.roles.di.data_interpreter import DataInterpreter

async def main():
    di = DataInterpreter()
    await di.run("Run data analysis on sklearn Iris dataset, include a plot")

asyncio.run(main())

커스텀 에이전트 정의

단일 에이전트 (Agent 101)

from metagpt.roles import Role
from metagpt.actions import Action
from metagpt.schema import Message

class SimpleWriteCode(Action):
    """코드 작성 액션"""
    name: str = "SimpleWriteCode"

    async def run(self, instruction: str):
        prompt = f"Write code for: {instruction}"
        code = await self._aask(prompt)
        return code

class SimpleCoder(Role):
    """간단한 코더 역할"""
    name: str = "Alice"
    profile: str = "SimpleCoder"
    goal: str = "Write elegant code"
    constraints: str = "Code should be readable"

    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self._init_actions([SimpleWriteCode()])

    async def _act(self):
        # 최신 메모리에서 지시사항 가져오기
        instruction = self.get_memories(k=1)[0].content

        # 액션 실행
        code = await self.todo.run(instruction)

        # 메시지 반환
        return Message(content=code, role=self.profile)

멀티 에이전트 팀 (MultiAgent 101)

from metagpt.team import Team

# 역할 정의
coder = SimpleCoder()
tester = SimpleTester()
reviewer = SimpleReviewer()

# 역할별 관찰 대상 설정
tester.watch([SimpleWriteCode])  # 코더의 출력 관찰
reviewer.watch([SimpleWriteTest])  # 테스터의 출력 관찰

# 팀 구성
team = Team()
team.hire([coder, tester, reviewer])
team.invest(investment=3.0)

# 프로젝트 실행
team.run_project("Create a calculator function")
await team.run(n_round=3)

CLI 사용

# 명령줄에서 직접 실행
python startup.py "Write a cli snake game"
# 결과는 workspace/ 디렉토리에 생성

활용 사례

Data Interpreter: 데이터 분석 자동화
Debate: 토론 시뮬레이션
Researcher: 연구 보조
Receipt Assistant: 영수증 처리

실무 팁

비용 관리: invest() 메서드로 예산 설정하여 토큰 사용량 제어
라운드 수 조절: n_round 파라미터로 협업 반복 횟수 조절
역할 커스터마이징: 도메인에 맞는 역할과 액션 정의
출력 검토: 생성된 PRD와 설계 문서 검토 후 코드 생성 진행
에러 처리: Executable Feedback으로 자동 디버깅, 최대 반복 횟수 설정 권장
확장성: 역할 추가 시 watch_actions 설정 중요

🏷️ Tags

#AIAgent #MultiAgent #MetaGPT #SOP #LLM #CodeGeneration #SoftwareEngineering #ICLR2024 #DeepWisdom #AutomatedProgramming #CollaborativeAI #RoleBasedAgent #StructuredOutput #ExecutableFeedback #MetaProgramming #HumanEval #MBPP