[AI Paper] Improving Methodologies for Agentic Evaluations Across Domains
Improving Methodologies for Agentic Evaluations Across Domains
[!abstract] 논문 요약
본 논문은 9개국 70명의 연구자가 참여한 제3차 국제 공동 테스트 연습(3rd Joint Testing Exercise)의 결과물로, 자율 AI 에이전트 시스템의 안전성 평가 방법론을 개선하기 위한 연구이다. 민감정보 유출(Sensitive Information Leakage), 사기(Fraud), 사이버보안 위협(Cybersecurity Threats) 세 가지 위험 영역에서 에이전트 평가 방법론의 문제점을 식별하고 모범 사례를 도출하였다.
1단계: 기본 정보
서지 정보
| 항목 | 내용 |
|---|---|
| 제목 | Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats |
| 저자 | Ee Wei Seah, Yongsen Zheng, Naga Nikshith, Mahran Morsidi, Gabriel Waikin Loh Matienzo 외 65명 (총 70명) |
| arXiv ID | 2601.15679v1 |
| 발행일 | 2026년 1월 22일 |
| 분야 | Computer Science – Artificial Intelligence (cs.AI) |
| 라이선스 | CC BY 4.0 |
링크
- arXiv Abstract: https://arxiv.org/abs/2601.15679v1
- PDF: https://arxiv.org/pdf/2601.15679v1.pdf
- UK AISI 블로그: International Joint Testing Exercise
- Singapore AISI 보고서: Evaluation Report
참여 기관
The International Network for Advanced AI Measurement, Evaluation and Science 소속 9개국:
– 싱가포르 (리드 – 공통 위험 영역)
– 영국 (리드 – 사이버보안 영역)
– 일본, 호주, 캐나다, 프랑스, 케냐, 한국, 유럽연합
2단계: 연구 내용
1. 연구 배경 및 문제의식
[!important] 핵심 문제
자율 AI 시스템의 급격한 발전으로 실세계 상호작용에 대한 감독이 줄어들면서 새로운 위험이 발생하고 있으나, 에이전트 테스팅은 아직 초기 단계이며 발전 중인 과학 분야이다.
배경 요인:
1. 자율성 증가: LLM 에이전트가 단순 텍스트 생성에서 자율적 추론, 계획, 도구 사용, 작업 실행으로 진화
2. 글로벌 배포: AI 에이전트가 전 세계적으로 배포되면서 다양한 언어와 문화에 대한 정확하고 안전한 처리 필요
3. 평가 방법론 부재: 전통적 평가 방법이 자율 에이전트 행동의 복잡성에 대한 신뢰할 수 있는 통찰 제공에 불충분
4. 국제 협력 필요성: 개별 국가의 노력만으로는 글로벌 AI 안전성 확보 어려움
2. 연구 목적 및 연구 질문
주요 목적:
– 모델 성능 비교보다 방법론적 이슈 이해에 초점
– 에이전트 평가 과학의 발전 및 공통 모범 사례 구축
연구 질문:
1. 에이전트 평가에서 어떤 방법론적 문제가 발생하는가?
2. 다국어 환경에서 안전성 평가는 어떻게 달라지는가?
3. Judge-LLM의 신뢰성은 어느 정도인가?
4. 평가 파라미터(온도, 토큰 제한 등)가 결과에 어떤 영향을 미치는가?
3. 이론적 프레임워크
graph TD
A[Agentic AI System] --> B[Perception]
A --> C[Brain/Reasoning]
A --> D[Planning]
A --> E[Action]
A --> F[Tool Use]
A --> G[Collaboration]
H[Evaluation Framework] --> I[Common Risks]
H --> J[Cybersecurity]
I --> K[Sensitive Info Leakage]
I --> L[Fraud]
J --> M[Cybench Benchmark]
J --> N[Intercode Benchmark]
평가 구조:
– Strand 1 (공통 위험): 싱가포르 AISI 주도
– 민감정보 유출
– 사기 행위
– Strand 2 (사이버보안): 영국 AISI 주도
– 사이버보안 위협 평가
4. 연구 방법론
4.1 데이터셋 및 모델
| 구분 | 내용 |
|---|---|
| 태스크 수 | ~1,500개 |
| 도구 수 | ~1,200개 |
| 평가 언어 | 9개 (영어, 페르시아어, 프랑스어, 힌디어, 일본어, 스와힐리어, 한국어, 중국어, 텔루구어) |
| 에이전트 모델 | Model A (closed-weight), Model B (open-weight) |
| Judge 모델 | Model C (closed-weight), Model D (open-weight) |
| 사이버보안 모델 | Model E, Model F (둘 다 open-source) |
4.2 평가 방법
공통 위험 평가:
– LLM-as-a-Judge 방식 + 인간 어노테이션
– 다국어 데이터셋 번역 및 검증
– 국가별 역할 분담:
– 프랑스, 케냐: 새로운 태스크/도구 개발
– 호주, 일본, 한국: 영어 데이터셋 어노테이션 검증
– 호주, 캐나다, 프랑스, 일본, 케냐, 한국: 번역 및 다국어 어노테이션
사이버보안 평가:
– 벤치마크: Cybench, Intercode
– 기본 설정: temperature 0.7, 태스크당 10회 샘플링, 250만 토큰 제한
– 통계 분석: HiBayES 계층적 베이지안 모델링 프레임워크
4.3 변수 조작
# 사이버보안 평가 파라미터 변수
evaluation_params = {
"temperature": [0.0, 0.3, 0.7, 1.0], # 무작위성 조절
"task_attempts": [1, 5, 10], # 태스크 시도 횟수
"token_limit": [2_500_000, 5_000_000], # 최대 토큰 수
"agent_prompts": ["minimal", "detailed"],
"tool_configurations": ["baseline", "enhanced"]
}
5. 주요 결과
5.1 안전성 성능 (Safety Performance)
[!warning] 핵심 발견
에이전트 태스크의 안전성 통과율이 대화형 태스크보다 현저히 낮음
– 이전 연습 대화형 태스크: ~99% 통과율
– 에이전트 태스크: 최대 60-70% (제한된 하위집합)
| 지표 | Model A | Model B |
|---|---|---|
| 최고 통과율 | ~57% | ~35% |
| 영어 안전장치 | 약간 강함 (~40%) | – |
| 전반적 성능 | 언어/위험 조합에 따라 불균일 | – |
5.2 Judge-LLM 성능
[!note] Judge 모델의 한계
Judge 모델은 방향성 참고용으로만 사용 가능하며, 인간 평가를 신뢰성 있게 대체할 수 없음
| Judge 모델 | 인간 어노테이션과의 평균 불일치율 |
|---|---|
| Model C | ~23% |
| Model D | ~28% |
주요 특징:
– Judge 모델이 인간보다 일반적으로 더 관대(lenient)
– 미묘한 뉘앙스와 불일치 감지 실패
– Judge 간 상당한 변동성 관찰
5.3 사이버보안 평가 결과
파라미터 영향 분석:
| 파라미터 | Model E | Model F |
|---|---|---|
| Temperature 증가 | 영향 거의 없음 | 정확도 감소 |
| 토큰 제한 2배 증가 | 최소한의 추가 성공 | 최소한의 추가 성공 |
환경 문제:
– 실패 태스크의 13-40%에서 가상머신 버그 발생
– 모델이 대안 전략을 사용하지 않아 성공률 과소평가 가능성
6. 논의 및 해석
6.1 방법론적 학습 사항
테스트 준비 단계:
– 태스크와 도구는 현실적으로 설계하여 인위적 시뮬레이션 감지 감소
– 도구 번역 시 어떤 구성요소(이름 포함)를 번역할지 복잡성 존재
에이전트 설정 고려사항:
– 태스크 결과뿐만 아니라 에이전트 경로(trajectory) 분석 중요
– 명확한 목표와 최소한의 가드레일로 테스트하여 기본 안전 문제 노출
평가 요구사항:
– 평가 기준은 중복 없이 정확하게 정의
– Judge-LLM 프롬프트는 스트레스 테스트와 반복 필요
– 인간 어노테이션은 이진 합격/불합격을 넘어 논리적 일관성, 환각 부재 등 다양한 지표 포함
6.2 모범 사례 권장사항
사이버보안 테스팅:
1. 전체 평가 전 대표 태스크에서 파라미터 스윕 수행
2. 수확체감점을 넘는 토큰 제한 설정 (모델별 행동 고려)
3. 에이전트가 모든 태스크 완료에 충분한 리소스 보유 확인
일반 에이전트 테스팅:
– 명확한 목표로 의도적 테스트 설계
– 태스크 결과와 함께 에이전트 추론 경로 캡처
– 범주 중복 없이 평가 기준 정의
– 스트레스 테스트를 통한 평가 프롬프트 반복
– 이진 합격/불합격 외 다양한 지표 포함
7. 한계 및 제언
7.1 연구 한계
[!warning] 인정된 한계점
– 소규모 데이터셋 크기
– 사이버보안 영역의 제한된 모델 세트
– 좁은 통계적 검정력
– 제한된 파라미터 변형 테스트
– 시간 제약으로 인한 범위 제한
– 환경 버그가 태스크의 13-40%에 영향
– 연습 간 모델 세트와 데이터 볼륨 차이로 직접 비교 제한
7.2 향후 방향
- 평가 프레임워크 확장: 더 많은 위험 도메인과 언어 포함
- Judge-LLM 개선: 인간 수준의 판단 정확도 달성을 위한 연구
- 자동화된 테스트 인프라: 환경 버그 최소화
- 국제 협력 강화: 더 많은 국가 참여 및 데이터셋 확대
3단계: 비판적 평가
방법론적 타당성
| 평가 항목 | 점수 | 평가 |
|---|---|---|
| 연구 설계 | ★★★★☆ | 국제 협력을 통한 다국어, 다문화 평가 설계는 우수하나 데이터셋 규모 제한 |
| 데이터 수집 | ★★★★☆ | 9개 언어, 1,500 태스크, 1,200 도구로 체계적 수집 |
| 분석 방법 | ★★★★★ | HiBayES 계층적 베이지안 모델링 등 고급 통계 기법 활용 |
| 재현가능성 | ★★★☆☆ | 모델 익명화로 구체적 재현 어려움 |
논리적 일관성
[!tip] 강점
– 방법론 개선에 초점을 맞춘 명확한 연구 목적
– 성능 비교보다 프로세스 이해 우선시
– 한계점을 투명하게 인정[!warning] 약점
– 모델 익명화로 인한 실용적 적용 제한
– Judge-LLM 불일치의 근본 원인 분석 부족
기여도 평가
학술적 기여:
1. 최초의 대규모 국제 에이전트 안전성 평가 방법론 연구
2. 다국어 에이전트 안전성 평가의 복잡성 체계적 문서화
3. Judge-LLM의 한계에 대한 실증적 증거 제시
실무적 기여:
1. 에이전트 평가 모범 사례 가이드라인 제공
2. 파라미터 설정에 대한 구체적 권장사항
3. 국제 협력 프레임워크 모델 제시
실무 적용 포인트
[!example] 실무자를 위한 핵심 시사점
AI 안전성 연구자:
– Judge-LLM 단독 사용 지양, 인간 평가 병행 필수
– 다국어 평가 시 도구 번역 복잡성 고려AI 개발자:
– 에이전트 배포 전 다양한 언어/문화 컨텍스트에서 안전성 테스트
– temperature, 토큰 제한 등 파라미터가 안전성에 미치는 영향 인지정책 입안자:
– 국제 협력을 통한 AI 안전성 표준 개발 중요성
– 에이전트 테스팅이 아직 초기 단계임을 인식한 규제 설계
주요 통계 요약
┌─────────────────────────────────────────────────────────┐
│ 핵심 수치 요약 │
├─────────────────────────────────────────────────────────┤
│ 참여국: 9개국 │
│ 참여 연구자: 70명 │
│ 평가 언어: 9개 │
│ 태스크 수: ~1,500개 │
│ 도구 수: ~1,200개 │
│ Judge-LLM 불일치율: 23-28% │
│ 에이전트 안전성 통과율: 35-57% (대화형 99% 대비) │
│ VM 버그 발생률: 13-40% │
└─────────────────────────────────────────────────────────┘