[AI Paper] The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
[!summary] 논문 개요
이 논문은 LLM 기반 AI 에이전트의 행동 이면에 있는 내부 동인을 파악하는 새로운 프레임워크인 Agentic Attribution을 제안합니다. 기존의 실패 원인 규명(Failure Attribution) 접근법에서 한 걸음 더 나아가, 성공하더라도 부적절한 의사결정 프로세스를 설명할 수 있는 계층적 귀속 프레임워크를 제시합니다.
📌 1단계: 기본 정보
논문 정보
- 제목: The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
- 저자 (13명):
- Chen Qian, Peng Wang, Dongrui Liu†, Junyao Yang, Dadi Guo, Ling Tang, Jilin Mei, Qihan Ren, Shuai Shao, Yong Liu, Jie Fu, Jing Shao, Xia Hu
- 출판 정보:
- arXiv ID: 2601.15075v1
- 제출일: 2026년 1월 21일
- 분야: Computer Science > Artificial Intelligence (cs.AI), Computation and Language (cs.CL)
- DOI: https://doi.org/10.48550/arXiv.2601.15075
- 연구 기관: 다수 기관 협업 (상세 정보는 논문 참조)
- 링크:
- arXiv: https://arxiv.org/abs/2601.15075v1
- PDF: https://arxiv.org/pdf/2601.15075v1.pdf
분야 및 카테고리
- 주요 분야: AI Agent, Large Language Models (LLM), Explainability, Attribution
- 응용 분야:
- 고객 서비스 (Customer Service)
- 웹 탐색 (Web Navigation)
- 소프트웨어 공학 (Software Engineering)
- 과학적 발견 (Scientific Discovery)
📌 2단계: 연구 내용
1. 연구 배경 및 문제의식
LLM 에이전트의 부상과 확장
- 대규모 실제 응용 프로그램에서 LLM 기반 에이전트가 널리 사용됨:
- 고객 서비스, 웹 탐색, 소프트웨어 공학 등
- 자율성 증가: 에이전트가 더 자율적이 되고 대규모로 배포됨에 따라
- 책임성(Accountability)과 거버넌스(Governance)의 중요성 대두
기존 연구의 한계: 실패 원인 규명 중심
[!warning] 기존 접근법의 한계
기존 연구는 실패 원인 규명(Failure Attribution)에 집중:
– 명시적 오류가 있는 실패 경로에서 오류 지역화
– 명백한 실행 에러, 부정확한 답변, 작업 미완료 후에만 분석이 접근법은 결과가 올바르더라도 부적절한 의사결정을 설명할 수 없음
새로운 문제 인식: 암묵적 바람직하지 않은 행동
고객 서비스 사례:
– 사용자: “지연된 배송물 업데이트 요청”
– 에이전트: 즉시 환불 처리 (명백한 오류 없음)
– 문제: 환불이 사용자 요청에 비합리적이지만, 비즈니스 이익에 잠재적 손해
– 실패 원인 규명: 아무것도 감지 못함 (명시적 오류 없으므로)
필요성: 내부 동인 이해의 중요성
- 투명성(Transparency): 왜 특정 행동을 취했는지 이해 필요
- 의사결정 프로세스 검증: 적절한 의미 증거에 근거했는지 확인 필요
- 정렬성(Alignment): 기대된 추론 경로와 일치하는지 검증
2. 연구 목적 및 연구 질문
핵심 연구 질문
[!question] 핵심 연구 질문
“에이전트가 특정 행동을 취하게 된 내부 요인은 무엇인가?”
– 실패 여부와 관계없이 모든 행동에 적용 가능한 일반적 귀속(General Attribution) 제시
연구 목표
- 계층적 귀속 프레임워크 개발:
- 구성 요소 수준(Component-level): 결정에 영향을 미친 상호작용 단계 식별
- 문장 수준(Sentence-level): 구체적 텍스트 증거 격리
- 방법론적 모듈화:
- 방법론에 구애받지 않는 모듈 설계
- 다양한 귀속 기법(섭동 기반, 그라디언트 기반, 어텐션 기반) 수용 가능
- 다양한 시나리오 검증:
- 기억 주도 상호작용 (Memory-driven)
- 도구 주도 상호작용 (Tool-driven)
- 미묘한 신뢰성 리스크(편향, 환각 등)
3. 이론적 프레임워크
구조화된 에이전트 상호작용 모델링
시간 단계 모델: H_t = (o_0, a_0, o_1, a_1, \dots, o_t)
- o_t: 관찰(Observation) – 환경 피드백 (도구 실행 결과, 검색된 문서, 기억)
- a_t: 행동(Action) – 내부 추론 단계, 도구 호출, 최종 응답
- \pi_\theta: 에이전트 정책(Policy) – 모델 파라미터 \theta
구성 요소 표현: \mathcal{C} = (C_1, C_2, \dots, C_{2T})
- 각 C_i는 연속적인 토큰 시퀀스
- 하나의 관찰 또는 하나의 행동에 대응
- 시간 순서 보존
구성 요소 유형: \mathcal{K} = \{\text{user}, \text{thought}, \text{tool}, \text{obs}, \text{memory}\}
귀속 목표 형식화
구성 요소 수준 귀속: f_{\text{comp}}(\mathcal{C}, a_T, \pi_\theta) \rightarrow \mathbb{R}^{2T-1}
- 각 구성 요소 C_i에 스칼라 점수 할당
- a_T 생성에 대한 영향 반영
문장 수준 귀속: f_{\text{sent}}(\{C_1, \dots, \mathcal{S}(C_i)\}, a_T, \pi_\theta) \rightarrow \mathbb{R}^{N_i}
- \mathcal{S}(C_i) = \{s_{i,1}, \dots, s_{i,N_i}\}: 문장 분해
- 개별 문장에 귀속 점수 할당
4. 연구 방법론
4.1 계층적 프레임워크 개요
[!info] 2단계 계층적 접근법
Level 1: 구성 요소 수준 귀속
– 시간적 가능성 동력(Temporal Likelihood Dynamics)
– 결정적 영향력 있는 상호작용 단계 식별Level 2: 문장 수준 귀속
– 섭동 기반 분석(Perturbation-based Analysis)
– 고영향 구성 요소 내 구체적 텍스트 증거 격리
4.2 구성 요소 수준 귀속: 시간적 가능성 동력
핵심 아이디어:
– 에이전트 결정은 단일 입력 범위가 아닌, 진화하는 상호작용 이력에 의해 결정됨
– 어떤 구성 요소는 결정적 방향 전환 (pivot)
– 다른 구성 요소는 거의 영향 없음
시간적 접두 경로:
\mathcal{C}_{\leq i} = (C_1, C_2, \dots, C_i)
가능성 점수:
\psi_i = \log p_{\pi_\theta}(a_T \mid \mathcal{C}_{\leq i})
시간적 이득(Temporal Gain):
g_i = \psi_i - \psi_{i-1}
[!tip] 시간적 이득의 의미
g_i는 새로운 구성 요소 C_i 도입 시 a_T 지지도가 얼마나 변화하는지 측정
– 큰 양의 이득: C_i 도입이 a_T를 상당히 더 가능하게 만듦
– 결정 동인의 강력한 후보
최종 귀속 점수:
f_{\text{comp}}(\mathcal{C}, a_T, \pi_\theta) := {g_i}_{i=1}^{2T-1}
4.3 문장 수준 귀속: 섭동 기반 분석
선택된 고영향 구성 요소:
\hat{C}_i
문장 분해:
\mathcal{S}(\hat{C}<em>i) = {s</em>{i,1}, \dots, s_{i,N_i}}
확률 감소(Probability Drop):
\mathrm{Drop}(s_{i,j}) = \log p_{\pi_\theta}(a_T \mid \hat{\mathcal{C}}<em>{\leq i}) - \log p</em>{\pi_\theta}(a_T \mid \hat{\mathcal{C}}<em>{\leq i} \setminus s</em>{i,j})
- 문장이 필요: 제거 시 a_T 가능성 감소
확률 유지(Probability Hold):
\mathrm{Hold}(s_{i,j}) = \log p_{\pi_\theta}(a_T \mid s_{i,j}) - \log p_{\pi_\theta}(a_T \mid \hat{\mathcal{C}}_{\leq i})
- 문장이 충분: 단독으로 상당한 지지 제공
최종 문장 귀속 점수:
\phi_{i,j} = \mathrm{Drop}(s_{i,j}) + \mathrm{Hold}(s_{i,j})
4.4 방법론적 모듈화
[!example] 방법론적 유연성
프레임워크는 방법론에 구애받지 않음(Method-agnostic):구성 요소 수준(\psi_i 대안):
– 임베딩 기반 유사도 (Sentence-BERT)
– 훈련된 보상 모델 (Safety-critical 시나리오)문장 수준(\phi_{i,j} 대안):
– 섭동 기반 (본 연구 기본 선택)
– 그라디언트 기반 특성 귀속 (Gradient-based saliency)
– 어텐션 기반 분석 (Attention-based)
– 선형 모델 기반 예측 (Linear-model-based)
5. 주요 결과
5.1 실험 설정
모델: Llama-3.1-70B-Instruct
프레임워크: smolagents (Hugging Face)
시나리오 설계: 9개의 에이전트 실행 궤적
1. 기억 주도 상호작용 (8개 커스텀 설계):
– Value Drift in Spending Recommendations
– Proper Memory Update under Environmental Change
– 등
- 도구 주도 상호작용:
- GAIA 벤치마크에서 선택된 복잡한 검색 작업
5.2 정성적 분석: 기억 주도 상호작용
Case Study 1: 지출 추천의 가치 드리프트
시나리오 개요:
– 역할: 가족 재정 어시스턴트
– 초기 설정: 극도 절약 선호 (고비용 지양)
– 사용자 보고: 고가 게이밍 노트북 구매 → 비용 절감 + 추가 수입
– 현재 질문: $1,000 인체공학적 의자 구매 자문
결과: 에이전트의 비합리적 행동
– 권장: 고가 의자 (초기 설정 위반)
– 명백한 오류: 없음
귀속 결과:
| 구성 요소 | 귀속 점수 | 설명 |
|---|---|---|
| 이전 랩톱 구매 후 사용자 피드백 | 최고 점수 | “비용 절감 대안 탐색” 조언 무시, 고가 노트북 구매, 1개월 사용 후 결과 보고 |
| “고성능 덕분에 영상 편집 프리랜스 몇 개 수행하여 $800 벌어들임” | 최고 문장 점수 | 구체적 재정적 성과 |
| “고품질 도구를 구매하는 것이 실제로 돈을 절약하고 벌고 있어” | 높은 문장 점수 | 가치 판단 정당화 |
기억 회수 단계:
– 에이전트가 노트북 경험을 명시적으로 검색
– 보고된 노트북 결과를 바탕으로 가치 판단 재평가
[!important] 핵심 발견
에이전트의 결정은 단일 이전 성공 사례에 의해 주도적으로 구동됨
– 노트북 구매 긍정적 재정적 결과
– 하지만 상황 맥락 충분히 구별하지 못하고 광범위하게 적용과일반화 리스크(Overgeneralization Risk):
– 문맥별 결과가 미래 가치 판단에 불균형한 영향력 행사
5.3 정량적 분석: 다양한 귀속 방법 비교
비교 방법:
1. 섭동 기반 (본 프레임워크 기본)
2. 그라디언트 기반 (Gradient-based)
3. 어텐션 기반 (Attention-based)
4. 선형 모델 기반 (Linear-model-based)
결과:
– 섭동 기반 방법이 일관된 효과성과 견고성 입증
– 다른 방법론도 프레임워크 내에서 유효하게 통합 가능
– 계층적 접근의 견고성: 구성 요소 + 문장 수준 조합이 단일 수준 접근보다 우수
6. 논의 및 해석
6.1 실패 원인 규명 vs. 일반적 귀속
| 특성 | 실패 원인 규명 | 일반적 귀속 (본 연구) |
|---|---|---|
| 분석 대상 | 명백한 오류가 있는 실패 경로 | 성공/실패 모든 행동 |
| 오류 유형 | 실행 에러, 부정확한 답변, 작업 미완료 | 명시적 오류 없는 부적절한 행동 |
| 적용 범위 | 디버깅, 시스템 신뢰성 개선 | 책임성, 거버넌스, 투명성 |
| 설명력 | “어디서 실패했나?” | “왜 그렇게 결정했나?” |
6.2 실무적 함의
고객 서비스:
– 부적절한 환불 자동화 감지
– 기억 기반 편향 식별 및 수정
금융 어드바이저:
– 가치 판단의 드리프트 원인 추적
– 과일반화 패턴 발견
소프트웨어 공학:
– 도구 사용 결정의 의미적 근거 식별
– 환각(Hallucination) 가능성 감소
거버넌스:
– 에이전트 행동의 검증 가능한 설명 제공
– 규정 준수, 감사(Audit) 지원
7. 한계 및 제언
7.1 연구 한계
계산 비용:
– 시간적 가능성 추정이 모든 구성 요소에 대한 순차적 계산 필요
– 대규모 에이전트 시스템에서 확장성 이슈
모델 의존성:
– 현재 접근법이 생성 가능성에 의존
– 내부 모델 접근이 불가한 블랙박스 시나리오에서는 대안 메트릭 필요
시나리오 커버리지:
– 9개의 신중하게 설계된 시나리오만 검증
– 더 광범위한 실제 배치 환경에서의 검증 필요
7.2 미래 연구 방향
1. 대안 메트릭 탐색:
– 보상 모델(Reward Model) 기반 \psi_i
– 시맨틱 유사도(Semantic Similarity) 기반 \psi_i
– 다양한 도메인에서의 효과성 비교
2. 대규모 실증:
– 실제 고객 서비스 시스템에의 통합
– 장기 추적을 통한 귀속 검증
3. 상호작용적 귀속:
– 다중 에이전트 시스템으로 확장
– 에이전트 간 통신의 귀속 분석
4. 실시간 귀속:
– 온라인 학습 시스템에의 통합
– 의사결정 시점의 즉각적 설명 제공
7.3 실무 적용 포인트
[!tip] 실무자를 위한 가이드라인
검증 가능한 귀속 구축:
1. 단계별 구조화: 구성 요소 → 문장 수준 분석
2. 방법론적 유연성: 도메인에 맞는 귀속 기법 선택
3. 투명성 확보: 결정 근거의 추적 가능한 문서화위험 완화 전략:
– 기억 업데이트 로그: 과일반화 패턴 식별
– 도구 사용 감사: 환각 가능성 모니터링
– 귀속 점수 임계값 설정: 의심스러운 결정 자동 플래그
📌 3단계: 비판적 평가
방법론적 타당성
강점
1. 계층적 접근의 적절성
– 단계별 복잡도 관리: 거시(구성 요소) → 미시(문장) 수준으로 문제 분해
– 정교(Precision): 광범위한 검색 공간을 좁혀가면서 계산 효율 유지
– 해석 용이성: 귀속 결과의 시각화 및 인간-친화적 설명 제공
2. 시간적 인과성 존중
– 인과적 순서 보존: 도구 사용, 기억 업데이트, 추론 단계의 순서 존중
– 증분 접근(Differential Approach): g_i = \psi_i - \psi_{i-1}로 순차적 영향력 측정
– 역인과성 문제 방지: 미래 정보를 이용하지 않고 순방향 계산
3. 방법론적 모듈화
– 구성 요소 수준(\psi_i)과 문장 수준(\phi_{i,j}) 분리
– 기법 독립성: 다양한 귀속 방법(섭동, 그라디언트, 어텐션) 수용 가능
– 확장성: 새로운 귀속 기술 출현 시 쉽게 통합
한계
1. 인과적 증명 부족
– 상관관계 vs. 인과관계: 높은 시간적 이득 g_i가 반드시 인과적 원인 아님
– 외생성 변수(Confounding): 미관측된 변수의 영향력 가능성
– 개입(Confounders): 다른 복합 요소들의 복합적 효과
2. 생성 모델의 신뢰성 의존
– 확률 추정의 신뢰성: 모델이 부적절한 확률을 부여할 수 있음 (예: 할루시네이션)
– 기본 가정(Faithfulness Assumption): 귀속이 모델의 실제 내부 역학을 반영한다고 가정
– 블랙박스 제한: 내부 상태 관찰 불가
3. 계산 복잡도
– 순차적 계산: 각 구성 요소에 대한 증분 계산 필요
– 계산 비용: 대규모 시스템에서의 확장성 이슈
– 실시간 적용: 온라인 학습 시나리오에서의 지연 문제
논리적 일관성
긍정적 측면
1. 문제 정의의 명확성
– 패러다임 시프트 명시: “실패 원인 규명 → 일반적 귀속”으로의 이동 명확히 설명
– 구체적 예시: 고객 서비스 환불 사례로 문제 구체화
2. 수학적 정식화의 엄밀성
– 일관된 표기: H_t, \mathcal{C}, f_{\text{comp}}, f_{\text{sent}} 등 표기 일관
– 명시적 정의: 각 변수와 함수에 대한 명확한 정의 제공
3. 이론적 근거의 적절성
– 기존 연구와의 연결: RAG 귀속, 기계 학습 해석(Explainable AI) 문헌 적절히 인용
– 섭동 기반 접근의 이론적 기초: Leave-one-out 분석, 인과적 개입(Causal Intervention) 이론
개선 가능 영역
1. 정량적 평가의 완전성
– 자동화된 평가: 9개의 신중하게 설계된 시나리오에 대한 정성적 분석
– 정량적 메트릭: 귀속 정확도, 포괄성, 신뢰성의 정량적 측정 부족
– 벤치마크 통합: GAIA 등 기존 벤치마크와의 비교 분석 필요
2. 대안 가설 검증
– 반증 사례(Counterfactual): “만약 그 기억이 없었다면?” 시나리오 구축 부족
– 개입 실험(Intervention Study): 특정 구성 요소를 인위적으로 조작했을 때의 효과 검증 필요
3. 현실 세계 검증
– 실제 시스템 통합: 실험실 환경이 아닌 실제 배포 시스템에서의 검증 필요
– 장기 추적 연구: 귀속 예측의 장기적 신뢰성 평가
기여도 평가
혁신성
[1. 패러다임의 전환] ⭐⭐⭐⭐⭐⭐
– 기여: 실패 원인 규명에서 일반적 귀속으로의 패러다임 전환
– 영향: 명백한 오류가 없는 부적절한 행동에 대한 설명 가능
– 이전 연구와의 차별성: 실패 중심 접근법의 한계를 명시적 극복
[2. 계층적 프레임워크 설계] ⭐⭐⭐⭐⭐
– 기여: 거시 → 미시 수준의 단계적 귀속 제시
– 실용성: 계산 효율과 해석 용이성 균형
– 범용성: 다양한 귀속 기법을 수용하는 모듈러 설계
[3. 시간적 인과성 존중] ⭐⭐⭐⭐⭐
– 기여: 에이전트 실행의 인과적 구조 보존
– 이점: 역인과성 문제 방지, 시간적 역학 포착
실용성
[4. 다양한 시나리오 검증] ⭐⭐⭐⭐
– 기여: 기억 주도, 도구 주도 상호작용 모두 검증
– 다양성: 가치 드리프트, 환경 변화, 검색 작업 등 다양한 패턴 커버
– 한계: 9개 시나리오에 국한, 대규모 실증 필요
[5. 방법론적 모듈화] ⭐⭐⭐⭐
– 기여: 방법론에 구애받지 않는 프레임워크
– 이점: 새로운 귀속 기술 출현 시 쉽게 통합 가능
– 확장성: 도메인 특화된 귀속 기법 선택 자유
실무 적용 포인트
즉시 적용 가능
[1. 에이전트 감사 및 디버깅]
# 의사코드 예시
def audit_agent_trajectory(trajectory):
# 1. 구성 요소 수준 귀속
component_scores = compute_temporal_gains(trajectory)
high_impact_components = select_top_components(component_scores)
# 2. 문장 수준 귀속
for component in high_impact_components:
sentence_scores = compute_perturbation_scores(component)
high_impact_sentences = select_top_sentences(sentence_scores)
return {
"critical_components": high_impact_components,
"evidence_sentences": high_impact_sentences
}
[2. 의심스러운 결정 플래깅]
– 임계값 설정: 시간적 이득 g_i > \tau일 때 플래그
– 자동 검토: 고영향 구성 요소 식별 시 자동 검토 요청
– 사람-인-루프(Human-in-the-loop): 중요 결정의 승인 절차
[3. 기억 편향 감지]
– 패턴 분석: 동일 기억이 다양한 문맥에서 부적절하게 재사용되는 패턴 식별
– 가치 드리프트 추적: 에이전트의 가치 판단이 시간에 따라 어떻게 변화하는지 모니터링
– 개입: 비일반화된 기억 사용 시 수정 제안 또는 사용자 승인 요구
중장기 구현
[4. 귀속 대시보드 구축]
– 시각화 도구: 구성 요소와 문장 귀속 점수의 대화형 시각화
– 필터링 기능: 특정 유형의 귀속 결과(기억, 도구 등) 필터링
– 내보내기(Export): 귀속 결과의 JSON/PDF 내보내기
[5. 정책 준수 및 규정 준수 지원]
– 결정 추적 로그: 모든 에이전트 결정의 귀속 정보 로깅
– 감사(Audit) 기능: 규정 기관이나 내부 감사팀을 위한 귀속 보고서 생성
– 투명성 포털: 스테이크홀더에게 에이전트 행동의 귀속 정보 제공
[6. 지속적 학습 및 개선]
– 귀속 피드백 루프: 귀속 예측이 사용자 피드백과 일치하는지 확인
– 모델 개선: 부적절한 귀속 패턴이 반복되면 모델 재훈련
– 메트릭 측정: 귀속 정확도와 사용자 만족도의 상관관계 분석
[!warning] 주의사항
귀속 ≠ 정당화(Attribution ≠ Justification):
– 귀속은 “왜” 그렇게 결정했는지 설명
– 하지만 그 결정이 “올바른”인지는 별개 문제
– 귀속 결과를 활용하여 부적절한 패턴을 식별하고 수정해야 함
References
주요 논문
- Agentic Failure Attribution:
- Zhang et al. (2025c). “Which agent causes task failures and when?”
- Zhu et al. (2025). “Where LLM agents fail and how they can learn from failures”
- Context Attribution:
- Liu et al. (2024). “AttriBoT: efficiently approximating leave-one-out context attribution”
- Chuang et al. (2025). “SelfCite: self-supervised alignment for context attribution”
- Cohen-Wang et al. (2024). “ContextCite: attributing model generation to context”
- Interpretability Methods:
- Qi et al. (2024). “Model internals-based answer attribution”
- Wang et al. (2024b). “Gradient based feature attribution”
- Hao et al. (2021). “Self-attention attribution”
도구 및 데이터셋
- Llama 3.1: https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct
- smolagents: https://github.com/huggingface/smolagents
- GAIA Benchmark: Mialon et al. (2023)