[AI Paper] AgentBench: Evaluating LLMs as Agents

2026년 01월 25일 5 Min Read

AgentBench: Evaluating LLMs as Agents

메타 정보

항목	내용
논문 제목	AgentBench: Evaluating LLMs as Agents
저자	Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
소속	Tsinghua University, Ohio State University, UC Berkeley
학회/저널	ICLR 2024 (Poster)
발표 연도	2024 (arXiv: 2023.08)
arXiv	2308.03688
GitHub	THUDM/AgentBench

한줄 요약

LLM을 Agent로 활용할 때의 추론 및 의사결정 능력을 8개의 다양한 인터랙티브 환경에서 체계적으로 평가하는 최초의 종합 벤치마크

연구 배경 및 동기

Agent 평가의 필요성

LLM의 발전과 Agent로서의 잠재력
- LLM이 단순 텍스트 생성을 넘어 실제 환경에서 자율적으로 행동하는 Agent로 활용 가능
- 복잡한 실세계 태스크 해결을 위한 추론, 계획, 도구 사용 능력 필요
기존 평가 방식의 한계
- 기존 벤치마크는 정적 데이터셋 기반의 단일 턴 평가에 집중
- Multi-turn 인터랙션, 장기 추론, 동적 환경 대응 능력 평가 부재
- 단일 도메인에 국한된 평가로 일반화된 Agent 능력 측정 어려움
표준화된 벤치마크의 부재
- LLM-as-Agent에 대한 체계적이고 포괄적인 벤치마크 없음
- 다양한 LLM 간 공정한 비교가 어려운 상황

핵심 아이디어

8개 환경에서의 종합 평가

AgentBench는 다양한 도메인과 상호작용 방식을 포함하는 8개의 환경을 통해 LLM의 Agent 능력을 다차원적으로 평가한다.

설계 원칙:
– Multi-turn 인터랙션 기반 평가
– 실제 환경(Real Environment)과의 상호작용
– 추론, 의사결정, 지시 따르기 능력의 통합 평가
– 문제당 5~50턴의 상호작용 필요

환경 분류:

카테고리	환경
Code-Grounded	OS, DB, KG
Game-Grounded	DCG, LTP
Web-Grounded	HH, WS, WB

벤치마크 구성

8개 환경 상세 설명

1. Operating System (OS) – 신규 생성

태스크: 자연어 지시를 bash 명령어로 변환하여 실행
환경: Ubuntu Docker 기반 실제 운영체제
평가 내용: 파일 조작, 디렉토리 탐색, 시스템 설정 등
예시: “디렉토리 내 모든 파일을 읽기 전용으로 설정”
평가 지표: Success Rate (SR)

2. Database (DB) – 신규 생성

태스크: SQL 쿼리 생성 및 실행을 통한 데이터베이스 조작
환경: 실제 MySQL 다중 테이블 데이터베이스
평가 내용: 복잡한 다단계 쿼리 작성, 데이터 추출/수정
특징: 실제 SQL 인터페이스와의 상호작용
평가 지표: Success Rate (SR)

3. Knowledge Graph (KG) – 신규 생성

태스크: 지식 그래프 도구를 활용한 질의 응답
환경: 부분 관측 가능한 대규모 지식 그래프
평가 내용: 복잡한 태스크 분해, 계획 수립, 적응적 전략
특징: 에이전트의 의사결정 능력 집중 평가
평가 지표: F1 Score

4. Digital Card Game (DCG) – 신규 생성

태스크: 턴제 카드 게임에서의 전략적 의사결정
환경: Aquawar 프레임워크 기반
평가 내용: 게임 규칙 이해, 전략 수립, 상황 기반 판단
특징: 텍스트 기반 LLM 평가에 적합한 게임 환경
평가 지표: Win Rate

5. Lateral Thinking Puzzles (LTP) – 신규 생성

태스크: 수평적 사고 퍼즐 해결
환경: 창의적 문제 해결이 필요한 퍼즐
평가 내용: 비관행적 추론, 창의적 사고
특징: 질문-응답 형식의 인터랙션
평가 지표: Progress Rate, Game Progress

6. House-Holding (HH) – ALFWorld 기반

태스크: 가상 가정환경에서의 물리적 태스크 수행
환경: ALFWorld/TextWorld 기반 시뮬레이션
평가 내용: 상식 기반 추론, 물체 조작
예시: “팬을 식탁 위에 놓아라”
평가 지표: Success Rate (SR)

7. Web Shopping (WS) – WebShop 기반

태스크: 온라인 쇼핑 환경에서의 상품 검색 및 구매
환경: WebShop 시뮬레이션 환경
평가 내용: 검색, 탐색, 의사결정
특징: 실용적이고 현실적인 e-commerce 시나리오
평가 지표: Reward Score

8. Web Browsing (WB) – Mind2Web 기반

태스크: 다양한 웹사이트에서의 복잡한 태스크 수행
환경: Mind2Web 기반 웹 브라우징
평가 내용: 클릭, 선택, 타이핑 등 웹 상호작용
특징: 파인튜닝 없이 프롬프트 기반 평가로 수정
평가 지표: Step Success Rate (SSR)

실험 및 결과

평가 대상 모델

총 29개 LLM 평가 (API 기반 + 오픈소스)
API 기반: GPT-4, GPT-3.5-turbo, Claude, text-davinci-003 등
오픈소스: LLaMA-2, Vicuna, CodeLLaMA, OpenChat 등

모델별 성능 비교

주요 결과

모델	전체 성능	특징
GPT-4	8개 환경 중 7개에서 최고 성능	House-Holding 78% 성공률
GPT-3.5-turbo	준수한 성능	API 기반 모델 중 2위권
Claude	경쟁력 있는 성능	특정 태스크에서 강점
오픈소스 최고 (OpenChat-13B)	GPT-3.5-turbo와 큰 격차	상업용 모델과 현저한 차이

핵심 발견

상업용 vs 오픈소스 격차
- 상위 상업용 LLM과 70B 이하 오픈소스 모델 간 현저한 성능 차이
- 오픈소스 모델이 기존 정적 벤치마크에서 보여준 성능과 달리 Agent 태스크에서 취약
실패 원인 분석
- Task Limit Exceeded: 가장 빈번한 실패 원인 (추론/의사결정 능력 부족)
- Invalid Format: DB, DCG에서 빈번 (엄격한 포맷 요구사항)
- Invalid Action: HH, WB에서 빈번 (정의된 액션 공간 벗어남)
코드 학습의 영향
- 코드 학습이 Agent 태스크에 미치는 영향이 일관되지 않음
- 태스크 유형에 따라 긍정적/부정적 영향 상이
고품질 정렬 데이터의 중요성
- ShareGPT 데이터(GPT-4/3.5 생성)로 학습한 Vicuna-13B가 LLaMA-2-13B 능가
- CodeLLaMA-34B(3배 큰 모델)와 유사한 성능 달성

강점 및 기여

학술적 기여

최초의 체계적 LLM-as-Agent 벤치마크
- 8개 다양한 환경을 통한 포괄적 평가 체계 수립
- 5개 환경 신규 개발, 3개 기존 데이터셋 통합
대규모 실증 연구
- 29개 LLM에 대한 체계적 비교 분석
- API 기반/오픈소스 모델 간 성능 격차 정량화
실패 원인의 체계적 분석
- 환경별, 모델별 실패 패턴 식별
- LLM Agent 개선 방향 제시
오픈소스 공개
- 데이터셋, 환경, 통합 평가 패키지 공개
- 후속 연구 및 재현 가능성 확보

실용적 기여

LLM Agent 개발 가이드라인
- 고품질 multi-round 정렬 데이터의 중요성 입증
- 지시 따르기 능력 향상의 중요성 강조
모델 선택 기준 제공
- Agent 태스크 유형별 적합 모델 파악
- 상업용 vs 오픈소스 트레이드오프 이해

한계점

벤치마크 설계 측면

환경 다양성의 한계
- 8개 환경이 실세계 Agent 시나리오를 완전히 대표하지 못함
- 멀티모달(시각, 음성) 환경 미포함
평가 지표의 단순성
- 주로 Success Rate 기반 평가
- 효율성, 안전성, 설명가능성 등 다차원 평가 부족
정적 평가의 한계
- 환경이 고정되어 있어 지속적 학습 능력 평가 어려움
- 적대적 환경, 예외 상황 대응 능력 미평가

실험 측면

모델 커버리지
- 평가 시점(2023) 이후 등장한 최신 모델 미포함
- 일부 모델의 버전/설정 차이로 인한 비교 한계
GPT-4도 실용적 Agent 수준 미달
- 최고 성능 모델조차 실제 배포 가능한 수준에 미도달
- 현재 LLM의 근본적 한계 시사
비용 및 지연 시간 미고려
- API 호출 비용, 응답 시간 등 실용적 요소 미포함

논문	설명	AgentBench 내 환경
ALFWorld (Shridhar et al., 2020)	텍스트 기반 가정환경 게임	House-Holding
WebShop (Yao et al., 2022)	시뮬레이션 온라인 쇼핑 환경	Web Shopping
Mind2Web (Deng et al., 2023)	범용 웹 에이전트 벤치마크	Web Browsing
TextWorld (Cote et al., 2018)	텍스트 기반 게임 프레임워크	기반 기술

논문	특징
ToolBench	도구 사용 능력 평가
API-Bank	API 호출 능력 평가
MINT	Multi-turn 인터랙션 평가
SWE-bench	소프트웨어 엔지니어링 Agent 평가

모델 선택
- Agent 태스크에는 GPT-4 급 모델 권장
- 오픈소스 사용 시 70B 이상 모델 또는 고품질 정렬 데이터 학습 모델 고려
프롬프트 설계
- Multi-turn 컨텍스트 관리 전략 필수
- 명확한 액션 포맷 및 제약 조건 명시
- 실패 복구 메커니즘 포함
평가 전략
- 단일 지표가 아닌 다차원 평가 필요
- 실패 원인 분석을 통한 반복 개선
- 실제 환경 테스트 병행

AgentBench 활용 방법

자체 Agent 평가

# GitHub에서 AgentBench 클론
git clone https://github.com/THUDM/AgentBench

# 환경 설정 및 평가 실행
# 세부 사항은 GitHub README 참조

환경별 테스트 우선순위
- 실용적 배포 목적: OS, DB, Web Shopping
- 추론 능력 검증: KG, LTP
- 전략적 의사결정: DCG
결과 해석 가이드
- Task Limit Exceeded 빈발 시: 추론 능력 개선 필요
- Invalid Format 빈발 시: 출력 포맷 제어 개선 필요
- Invalid Action 빈발 시: 액션 공간 제약 명시 강화

개선 방향 제안

데이터 관점
- 고품질 multi-turn 대화 데이터로 파인튜닝
- 실패 케이스 기반 데이터 증강
아키텍처 관점
- 장기 컨텍스트 처리 능력 강화
- 계획-실행 분리 구조 고려
시스템 관점
- 체계적 에러 핸들링 메커니즘
- 인간 피드백 통합 루프

[AI Paper] AgentBench: Evaluating LLMs as Agents

AgentBench: Evaluating LLMs as Agents

메타 정보

한줄 요약

연구 배경 및 동기

Agent 평가의 필요성

핵심 아이디어

8개 환경에서의 종합 평가

벤치마크 구성

8개 환경 상세 설명

1. Operating System (OS) – 신규 생성

2. Database (DB) – 신규 생성

3. Knowledge Graph (KG) – 신규 생성

4. Digital Card Game (DCG) – 신규 생성

5. Lateral Thinking Puzzles (LTP) – 신규 생성

6. House-Holding (HH) – ALFWorld 기반

7. Web Shopping (WS) – WebShop 기반

8. Web Browsing (WB) – Mind2Web 기반

실험 및 결과

평가 대상 모델

모델별 성능 비교

주요 결과

핵심 발견

강점 및 기여

학술적 기여

실용적 기여

한계점

벤치마크 설계 측면

실험 측면

관련 논문

선행 연구 (AgentBench가 통합/참조한 벤치마크)

관련 Agent 벤치마크

후속 연구에 미친 영향

실무 적용 포인트

LLM Agent 개발 시 고려사항

AgentBench 활용 방법

개선 방향 제안

Tags

skycave

다른 기사

[AI Paper] Agent Identity URI Scheme: Topology-Independent Naming and Capability-Based Discovery

[AI Paper] 📄 AgentSM: Semantic Memory for Agentic Text-to-SQL

댓글 없음! 첫 댓글을 남겨보세요.

답글 남기기 응답 취소