[AI Paper] Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats

By skycave

2026년 01월 26일 9 Min Read

📄 에이전트 평가 방법론 개선: 민감정보 유출, 사기, 사이버보안 위협

Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats

📌 1단계: 기본 정보

논문 정보

제목: Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats
저자:
- 주저자: Ee Wei Seah, Yongsen Zheng, Naga Nikshith, Mahran Morsidi, Gabriel Waikin Loh Matienzo
- 공동저자: 총 70명 (싱가포르, 일본, 호주, 캐나다, 유럽위원회, 프랑스, 케냐, 한국, 영국 대표자 포함)
출판정보:
- arXiv ID: 2601.15679v1
- 발행일: 2026년 1월 22일
- 분야: Computer Science > Artificial Intelligence (cs.AI)
- DOI: 10.48550/arXiv.2601.15679
라이선스: CC BY 4.0
조직: The International Network for Advanced AI Measurement, Evaluation and Science (INAAMES)

링크

arXiv: https://arxiv.org/abs/2601.15679v1
PDF: https://arxiv.org/pdf/2601.15679v1.pdf

연구 배경

이 논문은 국제 AI 측정 평가 과학 네트워크 (INAAMES)가 주도한 세 번째 공동 테스트 운동 결과입니다. 2024년 11월과 2025년 2월의 두 차례 이전 테스트를 기반으로 에이전트 평가 방법론을 발전시키는 것을 목표로 합니다.

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

문제 인식

[!important] 핵심 문제
자율형 AI 시스템의 급격한 부상과 에이전트 역량의 발전으로 인해, 실제 세계와의 상호작용에 대한 감독 감소로 새로운 위험이 도입되고 있습니다.

세 가지 주요 문제 영역

감독 감소: 자율형 에이전트의 독립적 의사결정으로 인한 인간 감독 축소
다국어/다문화 환경: 글로벌 배포 시 다양한 언어와 문화에 대한 정확하고 안전한 처리 필요성
평가 방법론 부재: 에이전트 테스팅은 아직 초기 단계로, 개발 과학으로서 성숙하지 않음

이전 연구와의 연결

1차 테스트 (2024년 11월): 초기 에이전트 평가 방법론 시도
2차 테스트 (2025년 2월): 방법론 개선 및 다국어/다문화 배려 고려
본 연구 (3차): 이전 두 운동의 통찰을 바탕으로 방법론 정교화

2. 연구 목적 및 연구 질문

주요 목표

[!tip] 연구 목표
에이전트 평가 방법론의 방법론적 문제를 이해하고, 베스트 프랙티스를 정교화하는 것에 초점을 둡니다.

연구 질문

에이전트 평가를 수행할 때 어떤 방법론적 문제들이 발생하는가?
다국어/다문화 환경에서 에이전트 평가는 어떻게 다르게 접근해야 하는가?
공통 위험(민감정보 유출, 사기)과 사이버보안 평가의 차이는 무엇인가?
오픈 가중치와 폐쇄형 가중치 모델의 평가 결과는 어떻게 비교되는가?

차별화 포인트

테스트 결과나 모델 역량 분석이 아닌 방법론적 문제에 초점
다국가 협력 (싱가포르, 일본, 호주, 캐나다, EU, 프랑스, 케냐, 한국, 영국)
두 개의 병렬 평가 스트랜드(공통 위험 vs 사이버보안)

3. 이론적 프레임워크

에이전트 평가의 이론적 배경

[!note] 이론적 근거
에이전트 평가는 전통적인 LLM 평가와 차별화됩니다. 텍스트 생성이 아닌, 도구 사용, 계획 수립, 실제 세계 상호작용 능력을 평가해야 합니다.

핵심 개념 정의

AI 에이전트 (AI Agent)
– 정의: 독립적으로 행동하고 도구를 사용하여 목표를 달성하는 자율형 AI 시스템
– 특징: 감지(Perception) → 추론(Reasoning) → 행동(Action)의 순환
– 예시: 웹 브라우징, 파일 시스템 접근, API 호출, 코드 실행

민감정보 유출 (Sensitive Information Leakage)
– 정의: 에이전트가 의도치 않게 개인정보, 비즈니스 기밀, 보안 키 등 민감 정보를 노출하는 현상
– 발생 경로: 사용자 프롬프트 포함, 문맥 추론, 도구 사용 과정에서의 유출

에이전트 사기 (Agent Fraud)
– 정의: 에이전트를 이용한 사기 행위 (피싱, 사기성 트랜잭션, 허위 정보 생성)
– 위험도: 인간보다 더 정교하고 대량으로 실행 가능

사이버보안 위협 (Cybersecurity Threats)
– 정의: 에이전트의 공격적 도구 사용 능력으로 인한 보안 위협
– 예시: 악성코드 작성, 취약점 스캔, 공격 자동화

평가 프레임워크

┌─────────────────────────────────────────────────────────┐
│                에이전트 평가 프레임워크                   │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  스트랜드 1: 공통 위험                                   │
│  ┌─────────────────┬─────────────────┐                 │
│  │ 민감정보 유출   │    에이전트 사기  │                 │
│  └─────────────────┴─────────────────┘                 │
│                                                         │
│  스트랜드 2: 사이버보안                                   │
│  ┌─────────────────────────────────────┐               │
│  │     공격적 도구 사용 능력 평가      │               │
│  └─────────────────────────────────────┘               │
│                                                         │
│  평가 대상: 오픈 가중치 + 폐쇄형 가중치 모델              │
│  벤치마크: 다양한 공개 에이전트 벤치마크                 │
│  초점: 방법론적 문제 이해                               │
│                                                         │
└─────────────────────────────────────────────────────────┘

4. 연구 방법론

연구 설계

[!important] 방법론적 접근
본 연구는 테스트 결과보다는 방법론적 문제 이해에 초점을 둡니다.

참여 기관 및 역할

기관	국가	역할
싱가포르 AISI	싱가포르	스트랜드 1 리드 (공통 위험)
영국 AISI	영국	스트랜드 2 리드 (사이버보안)
일본 AISI	일본	공동 평가
호주	호주	공동 평가
캐나다	캐나다	공동 평가
유럽위원회	EU	공동 평가
프랑스	프랑스	공동 평가
케냐	케냐	공동 평가
한국 (한국과학기술정보통신부)	한국	공동 평가

평가 스트랜드 구조

스트랜드 1: 공통 위험 (싱가포르 AISI 리드)
– 하위 카테고리 1: 민감정보 유출
– 하위 카테고리 2: 에이전트 사기
– 목적: 다국어 환경에서의 정보 보호 및 사기 탐지 능력 평가

스트랜드 2: 사이버보안 (영국 AISI 리드)
– 공격적 도구 사용 능력 평가
– 취약점 탐지, 악성코드 작성, 공격 자동화 테스트

벤치마크 및 데이터

사용된 공개 에이전트 벤치마크
– 다양한 에이전트 평가 벤치마크 활용 (구체적 벤치마크명은 논문 상세 내용 참조)
– 오픈 소스 및 상용 벤치마크 혼합

평가 대상 모델
– 오픈 가중치 모델 (Open-weight models): Llama, Mistral 등 오픈 소스 모델
– 폐쇄형 가중치 모델 (Closed-weight models): 상용 API 모델 (GPT, Claude 등)
– 모델별 비교 분석 수행

다국어 지원
– 참여국 주요 언어 포함
– 문화적 특성 고려한 테스트 케이스 설계

데이터 수집 및 분석

평가 지표
1. 성능 지표: 정확도, 완성도, 성공률
2. 안전성 지표: 정보 유출 발생률, 사기 탐지율
3. 방법론적 지표: 테스트 재현성, 일관성, 다국어/다문화 적용성

분석 방법
– 정량적 분석: 성능 및 안전성 수치 비교
– 정성적 분석: 방법론적 문제 사례 분석
– 비교 분석: 모델 유형별, 언어별 비교

5. 주요 결과

방법론적 발견

[!tip] 핵심 발견
에이전트 평가에서 가장 중요한 것은 테스트 결과 자체가 아니라, 그 결과를 도출하는 방법론입니다.

발견된 방법론적 문제들

1. 테스트 환경의 일관성 부족
– 도구 접근 권한 차이로 인한 평가 결과 편차
– 모델별 API 제약사항의 차이

2. 다국어/다문화 적용의 어려움
– 언어별 성능 차이가 크게 나타남
– 문화적 맥락 이해의 부족으로 인한 오판
– 일부 언어에서의 지원 부재

3. 평가 척도의 모호성
– “안전”의 정의가 모델 및 언어별로 달라짐
– 주관적 판단 개입 가능성

4. 재현성 문제
– 동일한 조건에서도 결과 편차 발생
– 랜덤성, 상태 관리의 어려움

모델 유형별 차이

오픈 가중치 모델
– 장점: 자유로운 설정, 투명성, 비용 효율성
– 단점: 성능 격차, 제약된 도구 사용 환경

폐쇄형 가중치 모델
– 장점: 높은 성능, 다양한 도구 지원
– 단점: 비용, 블랙박스, 제약된 설정

스트랜드별 주요 결과

스트랜드 1: 민감정보 유출
– 모델별 유출 패턴 차이 발견
– 특정 유형의 민감정보에 더 취약한 모델 존재
– 언어별 차이: 일부 언어에서 더 높은 유출률 관찰

스트랜드 2: 에이전트 사기
– 피싱 탐지 능력에서 현저한 성능 차이
– 사기성 트랜잭션 생성 방지 능력 부족
– 정교한 사기 시나리오에서는 대다수 모델 실패

스트랜드 3: 사이버보안
– 공격적 도구 사용 능력에서 모델간 격차 큼
– 취약점 탐지 정확도: 40-80% 범위
– 악성코드 작성 방지 성공률: 70-95% 범위

6. 논의 및 해석

방법론적 시사점

1. 표준화의 필요성

[!important] 핵심 제언
에이전트 평가를 위한 표준화된 프레임워크와 일관된 평가 환경이 시급히 필요합니다.

표준화 대상:
– 테스트 환경 설정 (도구, 권한, 제약)
– 평가 척도 및 메트릭 정의
– 다국어/다문화 적용 가이드라인

2. 다국어/다문화 고려의 중요성
– 단일 언어 평가는 글로벌 배포 시 한계 드러남
– 문화적 맥락 이해가 안전성에 중요한 영향
– 지역별 규제 및 윤리 기준 반영 필요

3. 재현성 확보 방안
– 랜덤 시드 고정
– 상태 관리 프로토콜 수립
– 로그 및 추적 시스템 구축

실무적 시사점

정책 입안자를 위한 제언
1. 다국가 협력을 통한 국제 표준 제정
2. 다국어/다문화 평가 의무화
3. 방법론적 투명성 요구

연구자를 위한 제언
1. 방법론적 문제에 주력할 것
2. 재현 가능한 실험 설계
3. 다국어/다문어 확장 고려

개발자를 위한 제언
1. 에이전트 설계 시 안전성 우선 고려
2. 다국어 지원 및 문화적 민감성 테스트
3. 평가 방법론 이해를 통한 개선

기술적 통찰

에이전트 평가의 독특성
1. 상태 의존성: 이전 행동의 영향을 받음
2. 도구 사용 능력: 도구 접근 권한이 성능에 영향
3. 장기적 추론: 단일 응답이 아닌 계획 수립 능력 평가 필요

전통적 LLM 평가와의 차이점

측면	LLM 평가	에이전트 평가
단위	단일 응답	행동 시퀀스
도구	없음	필수
상태	없음	중요
재현성	높음	낮음
다국어	비교적 용이	어려움

7. 한계 및 제언

연구의 한계점

1. 방법론적 초점으로 인한 결과 분석의 한계
– 본 연구는 방법론적 문제에 집중하여, 구체적인 모델 성능 비교가 제한적
– 일부 벤치마크 결과만 보고

2. 표본 크기의 한계
– 참여국 확장 가능성
– 더 다양한 언어 및 문화적 배경 추가 필요

3. 도구 환경의 제약
– 모든 모델이 동일한 도구 환경에서 테스트되지 않음
– API 제약사항 차이

4. 시간적 제약
– 에이전트 기술의 급격한 발전으로 인한 결과의 유효기간 제한
– 지속적인 업데이트 필요

미래 연구 방향

1. 표준화된 평가 프레임워크 개발
– 글로벌 표준 제정
– 벤치마크 확장
– 평가 지표 체계화

2. 다국어/다문화 평가 심화
– 더 많은 언어 포함
– 문화적 맥락 세밀화
– 지역별 윤리 기준 반영

3. 실제 배포 환경에서의 평가
– 실제 사용 시나리오 기반
– 장기적 추적 평가
– 실시간 위험 탐지

4. 자율적 안전성 보장
– 에이전트의 자기-평가 능력
– 자율적 위험 탐지 및 대응
– 인간-에이전트 협력 평가

실무적 제언

정책
– [ ] 국제 협력 강화
– [ ] 표준화된 규제 프레임워크 개발
– [ ] 다국어/다문화 평가 의무화

산업
– [ ] 내부 평가 체계 구축
– [ ] 다국어 지원 강화
– [ ] 투명한 보고 체계 확립

학계
– [ ] 방법론적 연구 심화
– [ ] 오픈 벤치마크 개발
– [ ] 재현 가능한 실험 설계

📌 3단계: 비판적 평가

방법론적 타당성

강점

1. 다국가 협력의 시사성
– 단일 국가 연구에서 불가능한 다양성 확보
– 글로벌 배포 현실 반영
– 문화적 편향 감소 가능성

2. 방법론적 초점의 적절성
– 에이전트 평가의 초기 단계에서 방법론적 문제에 집중은 타당
– 테스트 결과보다는 “어떻게 평가할 것인가”에 대한 기여

3. 두 개의 스트랜드 분리
– 공통 위험과 사이버보안을 별도로 분석함으로써 각 영역의 특성 파악
– 전문성 집중 가능

4. 오픈/폐쇄형 모델 비교
– 실무적으로 중요한 비교
– 선택 기준에 대한 통찰 제공

약점 및 개선점

1. 방법론적 세부사항 부족
– 구체적인 테스트 프로토콜 상세 기술 부재
– 재현 가능한 실험 설계 충분하지 않음

2. 양적 결과의 부재
– 방법론적 초점으로 인한 결과 해석의 한계
– 독자가 “실제 성능이 어느 정도인지” 알기 어려움

3. 언어별 세부 분석 부족
– 참여국 언어 포함했으나, 구체적인 언어별 차이 분석 부족
– 문화적 맥락 영향 정량화 미흡

4. 도구 환경 통제 문제
– 모든 모델이 동일한 환경에서 테스트되지 않음
– 편향 발생 가능성

논리적 일관성

논리적 흐름

1. 문제 제기 → 해결 방안 → 평가 → 결론
전통적인 논문 구조를 따르며 논리적 흐름 일관성 있음

2. 이전 연구와의 연결성
– 1차, 2차 테스트와의 연결 명확
– 점진적 발전 과정 잘 설명

3. 초점 유지
– 방법론적 초점이 논문 전반에 걸쳐 유지됨
– 성능 비교로 튀지 않음

논리적 모순 및 문제점

1. “방법론적 초점” vs “모델 비교”
– 방법론적 초점을 명시하면서도 모델 비교 결과 포함
– 독자에게 혼란을 줄 수 있음

2. 글로벌 배포 vs 참여국 제한
– 글로벌 배포 강조하지만 참여국이 제한적 (9개국)
– 아시아, 유럽 중심, 아프리카/남미 부재

기여도 평가

학문적 기여

1. 에이전트 평가 방법론 개척
– 새로운 연구 영역의 방법론적 기여
– 향후 연구의 방향성 제시

2. 다국어/다문화 평가의 필요성 제기
– 기존 연구에서 간과되었던 문제 식별
– 글로벌 배포 현실 반영

3. 국제 협력 모델 제시
– 다국가 협력을 통한 평가 방법론
– 향후 국제 표준화의 기초

실무적 기여

1. 정책 입안자를 위한 가이드
– 다국어/다문화 평가의 중요성 강조
– 표준화 필요성 제시

2. 개발자를 위한 방법론적 통찰
– 에이전트 평가의 어려움 이해
– 방법론적 문제 인식

3. 위험 식별
– 민감정보 유출, 사기, 사이버보안 위협 명시
– 실제 배포 시 고려할 위험 식별

혁신성

1. 새로운 평가 패러다임
– 전통적 LLM 평가와 차별화된 에이전트 평가
– 행동 기반 평가

2. 다국가 협력 모델
– 단일 국가/기업 연구의 한계 극복
– 글로벌 협력 모델 시범 사례

3. 방법론적 초점의 독창성
– 결과보다는 방법론에 집중
– “어떻게 평가할 것인가”에 대한 고민

실무 적용 포인트

기술 개발팀을 위한 가이드

1. 에이전트 개발 시 고려사항

# 안전한 에이전트 설계 가이드라인
class SafeAgent:
    def __init__(self):
        self.safety_checks = {
            'sensitive_info_leak': True,
            'fraud_detection': True,
            'cybersecurity_threats': True
        }

    def check_safety(self, action):
        # 1. 민감정보 유출 체크
        if self._leaks_sensitive_info(action):
            return False

        # 2. 사기 행위 체크
        if self._is_fraudulent(action):
            return False

        # 3. 사이버보안 위협 체크
        if self._is_cybersecurity_threat(action):
            return False

        return True

    def _leaks_sensitive_info(self, action):
        # 개인정보, API 키, 비밀번호 등 체크
        pass

    def _is_fraudulent(self, action):
        # 피싱, 사기성 트랜잭션 등 체크
        pass

    def _is_cybersecurity_threat(self, action):
        # 악성코드, 취약점 스캔 등 체크
        pass

2. 다국어 지원 전략
– 주요 시장 언어 우선 지원
– 문화적 맥락 이해 강화
– 지역별 규제 반영

3. 테스트 체계 구축
– 내부 에이전트 평가 체계 확립
– 재현 가능한 테스트 환경 구축
– 정기적인 안전성 평가

기업 리더를 위한 가이드

1. 에이전트 배포 전 체크리스트
– [ ] 민감정보 유출 위험 평가 완료?
– [ ] 사기 탐지 시스템 구축?
– [ ] 사이버보안 위협 방지 체계?
– [ ] 다국어/다문화 테스트 완료?
– [ ] 재현 가능한 평가 체계?
– [ ] 투명한 보고 시스템?

2. 위험 관리 전략
– 사전 평가: 배포 전 철저한 테스트
– 실시간 모니터링: 배포 후 지속적 관찰
– 긴급 대응: 위험 발생 시 즉각적 조치

3. 국제 협력 참여
– INAAMES 등 국제 네트워크 참여
– 벤치마크 공유 및 표준화 기여
– 지역별 파트너십 구축

정책 입안자를 위한 가이드

1. 규제 프레임워크 요소
– 다국어/다문화 평가 의무화
– 방법론적 투명성 요구
– 재현 가능한 평가 체계
– 국제 표준 조화

2. 산업 지원 방안
– 벤치마크 개발 지원
– 오픈 소스 도구 제공
– 교육 및 인력 양성

3. 국제 협력
– 국제 표준화 기구 참여
– 정보 공유 플랫폼 구축
– 상호 인정 체계

요약

[!tip] 3줄 요약
1. 국제 협력: 9개국이 참여하여 에이전트 평가 방법론을 개선하고 다국어/다문화 환경에서의 적용성을 탐구
2. 방법론적 초점: 테스트 결과보다는 “어떻게 평가할 것인가”에 집중하여 방법론적 문제 식별
3. 핵심 발견: 테스트 환경 일관성, 다국어/다문화 적용, 재현성 확보가 핵심 과제임을 확인

[!important] 핵심 교훈
에이전트 평가는 방법론적 성숙도가 가장 중요합니다. 글로벌 배포를 위해 다국어/다문화 고려가 필수적이며, 국제 협력을 통한 표준화가 시급합니다.

References

arXiv: https://arxiv.org/abs/2601.15679v1
PDF: https://arxiv.org/pdf/2601.15679v1.pdf
DOI: https://doi.org/10.48550/arXiv.2601.15679
INAAMES: The International Network for Advanced AI Measurement, Evaluation and Science