본문으로 건너뛰기
-
skycave's Blog
skycave's Blog
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
  • Home
  • Investment
  • IT
    • Data engineering
    • AI
    • Programing
  • Leisure
    • Camping
    • Fishing
  • Travel
    • Domestic
    • Overseas
  • Book
  • Product
  • Hot keyword in google
닫기

검색

AI

[AI Paper] AgentBench: Evaluating LLMs as Agents

By skycave
2026년 01월 25일 5 Min Read
0

AgentBench: Evaluating LLMs as Agents

메타 정보

항목내용
논문 제목AgentBench: Evaluating LLMs as Agents
저자Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
소속Tsinghua University, Ohio State University, UC Berkeley
학회/저널ICLR 2024 (Poster)
발표 연도2024 (arXiv: 2023.08)
arXiv2308.03688
GitHubTHUDM/AgentBench

한줄 요약

LLM을 Agent로 활용할 때의 추론 및 의사결정 능력을 8개의 다양한 인터랙티브 환경에서 체계적으로 평가하는 최초의 종합 벤치마크


연구 배경 및 동기

Agent 평가의 필요성

  1. LLM의 발전과 Agent로서의 잠재력
    • LLM이 단순 텍스트 생성을 넘어 실제 환경에서 자율적으로 행동하는 Agent로 활용 가능
    • 복잡한 실세계 태스크 해결을 위한 추론, 계획, 도구 사용 능력 필요
  2. 기존 평가 방식의 한계
    • 기존 벤치마크는 정적 데이터셋 기반의 단일 턴 평가에 집중
    • Multi-turn 인터랙션, 장기 추론, 동적 환경 대응 능력 평가 부재
    • 단일 도메인에 국한된 평가로 일반화된 Agent 능력 측정 어려움
  3. 표준화된 벤치마크의 부재
    • LLM-as-Agent에 대한 체계적이고 포괄적인 벤치마크 없음
    • 다양한 LLM 간 공정한 비교가 어려운 상황

핵심 아이디어

8개 환경에서의 종합 평가

AgentBench는 다양한 도메인과 상호작용 방식을 포함하는 8개의 환경을 통해 LLM의 Agent 능력을 다차원적으로 평가한다.

설계 원칙:
– Multi-turn 인터랙션 기반 평가
– 실제 환경(Real Environment)과의 상호작용
– 추론, 의사결정, 지시 따르기 능력의 통합 평가
– 문제당 5~50턴의 상호작용 필요

환경 분류:

카테고리환경
Code-GroundedOS, DB, KG
Game-GroundedDCG, LTP
Web-GroundedHH, WS, WB

벤치마크 구성

8개 환경 상세 설명

1. Operating System (OS) – 신규 생성

  • 태스크: 자연어 지시를 bash 명령어로 변환하여 실행
  • 환경: Ubuntu Docker 기반 실제 운영체제
  • 평가 내용: 파일 조작, 디렉토리 탐색, 시스템 설정 등
  • 예시: “디렉토리 내 모든 파일을 읽기 전용으로 설정”
  • 평가 지표: Success Rate (SR)

2. Database (DB) – 신규 생성

  • 태스크: SQL 쿼리 생성 및 실행을 통한 데이터베이스 조작
  • 환경: 실제 MySQL 다중 테이블 데이터베이스
  • 평가 내용: 복잡한 다단계 쿼리 작성, 데이터 추출/수정
  • 특징: 실제 SQL 인터페이스와의 상호작용
  • 평가 지표: Success Rate (SR)

3. Knowledge Graph (KG) – 신규 생성

  • 태스크: 지식 그래프 도구를 활용한 질의 응답
  • 환경: 부분 관측 가능한 대규모 지식 그래프
  • 평가 내용: 복잡한 태스크 분해, 계획 수립, 적응적 전략
  • 특징: 에이전트의 의사결정 능력 집중 평가
  • 평가 지표: F1 Score

4. Digital Card Game (DCG) – 신규 생성

  • 태스크: 턴제 카드 게임에서의 전략적 의사결정
  • 환경: Aquawar 프레임워크 기반
  • 평가 내용: 게임 규칙 이해, 전략 수립, 상황 기반 판단
  • 특징: 텍스트 기반 LLM 평가에 적합한 게임 환경
  • 평가 지표: Win Rate

5. Lateral Thinking Puzzles (LTP) – 신규 생성

  • 태스크: 수평적 사고 퍼즐 해결
  • 환경: 창의적 문제 해결이 필요한 퍼즐
  • 평가 내용: 비관행적 추론, 창의적 사고
  • 특징: 질문-응답 형식의 인터랙션
  • 평가 지표: Progress Rate, Game Progress

6. House-Holding (HH) – ALFWorld 기반

  • 태스크: 가상 가정환경에서의 물리적 태스크 수행
  • 환경: ALFWorld/TextWorld 기반 시뮬레이션
  • 평가 내용: 상식 기반 추론, 물체 조작
  • 예시: “팬을 식탁 위에 놓아라”
  • 평가 지표: Success Rate (SR)

7. Web Shopping (WS) – WebShop 기반

  • 태스크: 온라인 쇼핑 환경에서의 상품 검색 및 구매
  • 환경: WebShop 시뮬레이션 환경
  • 평가 내용: 검색, 탐색, 의사결정
  • 특징: 실용적이고 현실적인 e-commerce 시나리오
  • 평가 지표: Reward Score

8. Web Browsing (WB) – Mind2Web 기반

  • 태스크: 다양한 웹사이트에서의 복잡한 태스크 수행
  • 환경: Mind2Web 기반 웹 브라우징
  • 평가 내용: 클릭, 선택, 타이핑 등 웹 상호작용
  • 특징: 파인튜닝 없이 프롬프트 기반 평가로 수정
  • 평가 지표: Step Success Rate (SSR)

실험 및 결과

평가 대상 모델

  • 총 29개 LLM 평가 (API 기반 + 오픈소스)
  • API 기반: GPT-4, GPT-3.5-turbo, Claude, text-davinci-003 등
  • 오픈소스: LLaMA-2, Vicuna, CodeLLaMA, OpenChat 등

모델별 성능 비교

주요 결과

모델전체 성능특징
GPT-48개 환경 중 7개에서 최고 성능House-Holding 78% 성공률
GPT-3.5-turbo준수한 성능API 기반 모델 중 2위권
Claude경쟁력 있는 성능특정 태스크에서 강점
오픈소스 최고 (OpenChat-13B)GPT-3.5-turbo와 큰 격차상업용 모델과 현저한 차이

핵심 발견

  1. 상업용 vs 오픈소스 격차
    • 상위 상업용 LLM과 70B 이하 오픈소스 모델 간 현저한 성능 차이
    • 오픈소스 모델이 기존 정적 벤치마크에서 보여준 성능과 달리 Agent 태스크에서 취약
  2. 실패 원인 분석
    • Task Limit Exceeded: 가장 빈번한 실패 원인 (추론/의사결정 능력 부족)
    • Invalid Format: DB, DCG에서 빈번 (엄격한 포맷 요구사항)
    • Invalid Action: HH, WB에서 빈번 (정의된 액션 공간 벗어남)
  3. 코드 학습의 영향
    • 코드 학습이 Agent 태스크에 미치는 영향이 일관되지 않음
    • 태스크 유형에 따라 긍정적/부정적 영향 상이
  4. 고품질 정렬 데이터의 중요성
    • ShareGPT 데이터(GPT-4/3.5 생성)로 학습한 Vicuna-13B가 LLaMA-2-13B 능가
    • CodeLLaMA-34B(3배 큰 모델)와 유사한 성능 달성

강점 및 기여

학술적 기여

  1. 최초의 체계적 LLM-as-Agent 벤치마크
    • 8개 다양한 환경을 통한 포괄적 평가 체계 수립
    • 5개 환경 신규 개발, 3개 기존 데이터셋 통합
  2. 대규모 실증 연구
    • 29개 LLM에 대한 체계적 비교 분석
    • API 기반/오픈소스 모델 간 성능 격차 정량화
  3. 실패 원인의 체계적 분석
    • 환경별, 모델별 실패 패턴 식별
    • LLM Agent 개선 방향 제시
  4. 오픈소스 공개
    • 데이터셋, 환경, 통합 평가 패키지 공개
    • 후속 연구 및 재현 가능성 확보

실용적 기여

  1. LLM Agent 개발 가이드라인
    • 고품질 multi-round 정렬 데이터의 중요성 입증
    • 지시 따르기 능력 향상의 중요성 강조
  2. 모델 선택 기준 제공
    • Agent 태스크 유형별 적합 모델 파악
    • 상업용 vs 오픈소스 트레이드오프 이해

한계점

벤치마크 설계 측면

  1. 환경 다양성의 한계
    • 8개 환경이 실세계 Agent 시나리오를 완전히 대표하지 못함
    • 멀티모달(시각, 음성) 환경 미포함
  2. 평가 지표의 단순성
    • 주로 Success Rate 기반 평가
    • 효율성, 안전성, 설명가능성 등 다차원 평가 부족
  3. 정적 평가의 한계
    • 환경이 고정되어 있어 지속적 학습 능력 평가 어려움
    • 적대적 환경, 예외 상황 대응 능력 미평가

실험 측면

  1. 모델 커버리지
    • 평가 시점(2023) 이후 등장한 최신 모델 미포함
    • 일부 모델의 버전/설정 차이로 인한 비교 한계
  2. GPT-4도 실용적 Agent 수준 미달
    • 최고 성능 모델조차 실제 배포 가능한 수준에 미도달
    • 현재 LLM의 근본적 한계 시사
  3. 비용 및 지연 시간 미고려
    • API 호출 비용, 응답 시간 등 실용적 요소 미포함

관련 논문

선행 연구 (AgentBench가 통합/참조한 벤치마크)

논문설명AgentBench 내 환경
ALFWorld (Shridhar et al., 2020)텍스트 기반 가정환경 게임House-Holding
WebShop (Yao et al., 2022)시뮬레이션 온라인 쇼핑 환경Web Shopping
Mind2Web (Deng et al., 2023)범용 웹 에이전트 벤치마크Web Browsing
TextWorld (Cote et al., 2018)텍스트 기반 게임 프레임워크기반 기술

관련 Agent 벤치마크

논문특징
ToolBench도구 사용 능력 평가
API-BankAPI 호출 능력 평가
MINTMulti-turn 인터랙션 평가
SWE-bench소프트웨어 엔지니어링 Agent 평가

후속 연구에 미친 영향

  • LLM Agent 평가의 표준 프레임워크로 자리매김
  • 다양한 도메인별 Agent 벤치마크 개발에 영감 제공

실무 적용 포인트

LLM Agent 개발 시 고려사항

  1. 모델 선택
    • Agent 태스크에는 GPT-4 급 모델 권장
    • 오픈소스 사용 시 70B 이상 모델 또는 고품질 정렬 데이터 학습 모델 고려
  2. 프롬프트 설계
    • Multi-turn 컨텍스트 관리 전략 필수
    • 명확한 액션 포맷 및 제약 조건 명시
    • 실패 복구 메커니즘 포함
  3. 평가 전략
    • 단일 지표가 아닌 다차원 평가 필요
    • 실패 원인 분석을 통한 반복 개선
    • 실제 환경 테스트 병행

AgentBench 활용 방법

  1. 자체 Agent 평가
    # GitHub에서 AgentBench 클론
    git clone https://github.com/THUDM/AgentBench

    # 환경 설정 및 평가 실행
    # 세부 사항은 GitHub README 참조

  2. 환경별 테스트 우선순위
    • 실용적 배포 목적: OS, DB, Web Shopping
    • 추론 능력 검증: KG, LTP
    • 전략적 의사결정: DCG
  3. 결과 해석 가이드
    • Task Limit Exceeded 빈발 시: 추론 능력 개선 필요
    • Invalid Format 빈발 시: 출력 포맷 제어 개선 필요
    • Invalid Action 빈발 시: 액션 공간 제약 명시 강화

개선 방향 제안

  1. 데이터 관점
    • 고품질 multi-turn 대화 데이터로 파인튜닝
    • 실패 케이스 기반 데이터 증강
  2. 아키텍처 관점
    • 장기 컨텍스트 처리 능력 강화
    • 계획-실행 분리 구조 고려
  3. 시스템 관점
    • 체계적 에러 핸들링 메커니즘
    • 인간 피드백 통합 루프

Tags

#AI-Agent #LLM #Benchmark #ICLR2024 #AgentBench #Evaluation #Multi-turn #Interactive-Environment #GPT-4 #Reasoning #Decision-Making #Tsinghua #OSS-vs-Commercial #Tool-Use #Web-Agent #Code-Agent

작성자

skycave

Follow Me
다른 기사
Previous

[AI Paper] Agent Identity URI Scheme: Topology-Independent Naming and Capability-Based Discovery

Next

[AI Paper] 📄 AgentSM: Semantic Memory for Agentic Text-to-SQL

댓글 없음! 첫 댓글을 남겨보세요.

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

최신글

  • 📊 일일 뉴스 감성 리포트 – 2026-01-28
  • AI 시스템의 문맥 기반 검색(Contextual Retrieval) | Anthropic
  • “Think” 툴: Claude가 멈춰서 생각할 수 있도록 하기 | Anthropic
  • Claude Code 모범 사례 \ Anthropic
  • 우리가 멀티 에이전트 연구 시스템을 구축한 방법
Copyright 2026 — skycave's Blog. All rights reserved. Blogsy WordPress Theme