[AI Paper] The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

2026년 01월 25일 10 Min Read

The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution

[!summary] 논문 개요
이 논문은 LLM 기반 AI 에이전트의 행동 이면에 있는 내부 동인을 파악하는 새로운 프레임워크인 Agentic Attribution을 제안합니다. 기존의 실패 원인 규명(Failure Attribution) 접근법에서 한 걸음 더 나아가, 성공하더라도 부적절한 의사결정 프로세스를 설명할 수 있는 계층적 귀속 프레임워크를 제시합니다.

📌 1단계: 기본 정보

논문 정보

제목: The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
저자 (13명):
- Chen Qian, Peng Wang, Dongrui Liu†, Junyao Yang, Dadi Guo, Ling Tang, Jilin Mei, Qihan Ren, Shuai Shao, Yong Liu, Jie Fu, Jing Shao, Xia Hu
출판 정보:
- arXiv ID: 2601.15075v1
- 제출일: 2026년 1월 21일
- 분야: Computer Science > Artificial Intelligence (cs.AI), Computation and Language (cs.CL)
- DOI: https://doi.org/10.48550/arXiv.2601.15075
연구 기관: 다수 기관 협업 (상세 정보는 논문 참조)
링크:
- arXiv: https://arxiv.org/abs/2601.15075v1
- PDF: https://arxiv.org/pdf/2601.15075v1.pdf

분야 및 카테고리

주요 분야: AI Agent, Large Language Models (LLM), Explainability, Attribution
응용 분야:
- 고객 서비스 (Customer Service)
- 웹 탐색 (Web Navigation)
- 소프트웨어 공학 (Software Engineering)
- 과학적 발견 (Scientific Discovery)

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

LLM 에이전트의 부상과 확장

대규모 실제 응용 프로그램에서 LLM 기반 에이전트가 널리 사용됨:
- 고객 서비스, 웹 탐색, 소프트웨어 공학 등
자율성 증가: 에이전트가 더 자율적이 되고 대규모로 배포됨에 따라
- 책임성(Accountability)과 거버넌스(Governance)의 중요성 대두

기존 연구의 한계: 실패 원인 규명 중심

[!warning] 기존 접근법의 한계
기존 연구는 실패 원인 규명(Failure Attribution)에 집중:
– 명시적 오류가 있는 실패 경로에서 오류 지역화
– 명백한 실행 에러, 부정확한 답변, 작업 미완료 후에만 분석

이 접근법은 결과가 올바르더라도 부적절한 의사결정을 설명할 수 없음

새로운 문제 인식: 암묵적 바람직하지 않은 행동

고객 서비스 사례:
– 사용자: “지연된 배송물 업데이트 요청”
– 에이전트: 즉시 환불 처리 (명백한 오류 없음)
– 문제: 환불이 사용자 요청에 비합리적이지만, 비즈니스 이익에 잠재적 손해
– 실패 원인 규명: 아무것도 감지 못함 (명시적 오류 없으므로)

필요성: 내부 동인 이해의 중요성

투명성(Transparency): 왜 특정 행동을 취했는지 이해 필요
의사결정 프로세스 검증: 적절한 의미 증거에 근거했는지 확인 필요
정렬성(Alignment): 기대된 추론 경로와 일치하는지 검증

2. 연구 목적 및 연구 질문

핵심 연구 질문

[!question] 핵심 연구 질문
“에이전트가 특정 행동을 취하게 된 내부 요인은 무엇인가?”
– 실패 여부와 관계없이 모든 행동에 적용 가능한 일반적 귀속(General Attribution) 제시

연구 목표

계층적 귀속 프레임워크 개발:
- 구성 요소 수준(Component-level): 결정에 영향을 미친 상호작용 단계 식별
- 문장 수준(Sentence-level): 구체적 텍스트 증거 격리
방법론적 모듈화:
- 방법론에 구애받지 않는 모듈 설계
- 다양한 귀속 기법(섭동 기반, 그라디언트 기반, 어텐션 기반) 수용 가능
다양한 시나리오 검증:
- 기억 주도 상호작용 (Memory-driven)
- 도구 주도 상호작용 (Tool-driven)
- 미묘한 신뢰성 리스크(편향, 환각 등)

3. 이론적 프레임워크

구조화된 에이전트 상호작용 모델링

시간 단계 모델: $H_t = (o_0, a_0, o_1, a_1, \dots, o_t)$

$o_t$ : 관찰(Observation) – 환경 피드백 (도구 실행 결과, 검색된 문서, 기억)
$a_t$ : 행동(Action) – 내부 추론 단계, 도구 호출, 최종 응답
$\pi_\theta$ : 에이전트 정책(Policy) – 모델 파라미터 $\theta$

구성 요소 표현: $\mathcal{C} = (C_1, C_2, \dots, C_{2T})$

각 $C_i$ 는 연속적인 토큰 시퀀스
하나의 관찰 또는 하나의 행동에 대응
시간 순서 보존

구성 요소 유형: $\mathcal{K} = \{\text{user}, \text{thought}, \text{tool}, \text{obs}, \text{memory}\}$

귀속 목표 형식화

구성 요소 수준 귀속: $f_{\text{comp}}(\mathcal{C}, a_T, \pi_\theta) \rightarrow \mathbb{R}^{2T-1}$

각 구성 요소 $C_i$ 에 스칼라 점수 할당
$a_T$ 생성에 대한 영향 반영

문장 수준 귀속: $f_{\text{sent}}(\{C_1, \dots, \mathcal{S}(C_i)\}, a_T, \pi_\theta) \rightarrow \mathbb{R}^{N_i}$

$\mathcal{S}(C_i) = \{s_{i,1}, \dots, s_{i,N_i}\}$ : 문장 분해
개별 문장에 귀속 점수 할당

4. 연구 방법론

4.1 계층적 프레임워크 개요

[!info] 2단계 계층적 접근법
Level 1: 구성 요소 수준 귀속
– 시간적 가능성 동력(Temporal Likelihood Dynamics)
– 결정적 영향력 있는 상호작용 단계 식별

Level 2: 문장 수준 귀속
– 섭동 기반 분석(Perturbation-based Analysis)
– 고영향 구성 요소 내 구체적 텍스트 증거 격리

4.2 구성 요소 수준 귀속: 시간적 가능성 동력

핵심 아이디어:
– 에이전트 결정은 단일 입력 범위가 아닌, 진화하는 상호작용 이력에 의해 결정됨
– 어떤 구성 요소는 결정적 방향 전환 (pivot)
– 다른 구성 요소는 거의 영향 없음

시간적 접두 경로:
$\mathcal{C}_{\leq i} = (C_1, C_2, \dots, C_i)$

가능성 점수:
$\psi_i = \log p_{\pi_\theta}(a_T \mid \mathcal{C}_{\leq i})$

시간적 이득(Temporal Gain):
$g_i = \psi_i - \psi_{i-1}$

[!tip] 시간적 이득의 의미
$g_i$ 는 새로운 구성 요소 $C_i$ 도입 시 $a_T$ 지지도가 얼마나 변화하는지 측정
– 큰 양의 이득: $C_i$ 도입이 $a_T$ 를 상당히 더 가능하게 만듦
– 결정 동인의 강력한 후보

최종 귀속 점수:
$f_{\text{comp}}(\mathcal{C}, a_T, \pi_\theta) := {g_i}_{i=1}^{2T-1}$

4.3 문장 수준 귀속: 섭동 기반 분석

선택된 고영향 구성 요소:
$\hat{C}_i$

문장 분해:
$\mathcal{S}(\hat{C}i) = {s{i,1}, \dots, s_{i,N_i}}$

확률 감소(Probability Drop):
$\mathrm{Drop}(s_{i,j}) = \log p_{\pi_\theta}(a_T \mid \hat{\mathcal{C}}{\leq i}) - \log p{\pi_\theta}(a_T \mid \hat{\mathcal{C}}{\leq i} \setminus s{i,j})$

문장이 필요: 제거 시 $a_T$ 가능성 감소

확률 유지(Probability Hold):
$\mathrm{Hold}(s_{i,j}) = \log p_{\pi_\theta}(a_T \mid s_{i,j}) - \log p_{\pi_\theta}(a_T \mid \hat{\mathcal{C}}_{\leq i})$

문장이 충분: 단독으로 상당한 지지 제공

최종 문장 귀속 점수:
$\phi_{i,j} = \mathrm{Drop}(s_{i,j}) + \mathrm{Hold}(s_{i,j})$

f_{\text{sent}}(\dots) = {\phi_{i,j}}_{j=1}^{N_i}

4.4 방법론적 모듈화

[!example] 방법론적 유연성
프레임워크는 방법론에 구애받지 않음(Method-agnostic):

구성 요소 수준( $\psi_i$ 대안):
– 임베딩 기반 유사도 (Sentence-BERT)
– 훈련된 보상 모델 (Safety-critical 시나리오)

문장 수준( $\phi_{i,j}$ 대안):
– 섭동 기반 (본 연구 기본 선택)
– 그라디언트 기반 특성 귀속 (Gradient-based saliency)
– 어텐션 기반 분석 (Attention-based)
– 선형 모델 기반 예측 (Linear-model-based)

5. 주요 결과

5.1 실험 설정

모델: Llama-3.1-70B-Instruct
프레임워크: smolagents (Hugging Face)

시나리오 설계: 9개의 에이전트 실행 궤적
1. 기억 주도 상호작용 (8개 커스텀 설계):
– Value Drift in Spending Recommendations
– Proper Memory Update under Environmental Change
– 등

도구 주도 상호작용:
- GAIA 벤치마크에서 선택된 복잡한 검색 작업

5.2 정성적 분석: 기억 주도 상호작용

Case Study 1: 지출 추천의 가치 드리프트

시나리오 개요:
– 역할: 가족 재정 어시스턴트
– 초기 설정: 극도 절약 선호 (고비용 지양)
– 사용자 보고: 고가 게이밍 노트북 구매 → 비용 절감 + 추가 수입
– 현재 질문: $1,000 인체공학적 의자 구매 자문

결과: 에이전트의 비합리적 행동
– 권장: 고가 의자 (초기 설정 위반)
– 명백한 오류: 없음

귀속 결과:

구성 요소	귀속 점수	설명
이전 랩톱 구매 후 사용자 피드백	최고 점수	“비용 절감 대안 탐색” 조언 무시, 고가 노트북 구매, 1개월 사용 후 결과 보고
“고성능 덕분에 영상 편집 프리랜스 몇 개 수행하여 $800 벌어들임”	최고 문장 점수	구체적 재정적 성과
“고품질 도구를 구매하는 것이 실제로 돈을 절약하고 벌고 있어”	높은 문장 점수	가치 판단 정당화

기억 회수 단계:
– 에이전트가 노트북 경험을 명시적으로 검색
– 보고된 노트북 결과를 바탕으로 가치 판단 재평가

[!important] 핵심 발견
에이전트의 결정은 단일 이전 성공 사례에 의해 주도적으로 구동됨
– 노트북 구매 긍정적 재정적 결과
– 하지만 상황 맥락 충분히 구별하지 못하고 광범위하게 적용

과일반화 리스크(Overgeneralization Risk):
– 문맥별 결과가 미래 가치 판단에 불균형한 영향력 행사

5.3 정량적 분석: 다양한 귀속 방법 비교

비교 방법:
1. 섭동 기반 (본 프레임워크 기본)
2. 그라디언트 기반 (Gradient-based)
3. 어텐션 기반 (Attention-based)
4. 선형 모델 기반 (Linear-model-based)

결과:
– 섭동 기반 방법이 일관된 효과성과 견고성 입증
– 다른 방법론도 프레임워크 내에서 유효하게 통합 가능
– 계층적 접근의 견고성: 구성 요소 + 문장 수준 조합이 단일 수준 접근보다 우수

6. 논의 및 해석

6.1 실패 원인 규명 vs. 일반적 귀속

특성	실패 원인 규명	일반적 귀속 (본 연구)
분석 대상	명백한 오류가 있는 실패 경로	성공/실패 모든 행동
오류 유형	실행 에러, 부정확한 답변, 작업 미완료	명시적 오류 없는 부적절한 행동
적용 범위	디버깅, 시스템 신뢰성 개선	책임성, 거버넌스, 투명성
설명력	“어디서 실패했나?”	“왜 그렇게 결정했나?”

6.2 실무적 함의

고객 서비스:
– 부적절한 환불 자동화 감지
– 기억 기반 편향 식별 및 수정

금융 어드바이저:
– 가치 판단의 드리프트 원인 추적
– 과일반화 패턴 발견

소프트웨어 공학:
– 도구 사용 결정의 의미적 근거 식별
– 환각(Hallucination) 가능성 감소

거버넌스:
– 에이전트 행동의 검증 가능한 설명 제공
– 규정 준수, 감사(Audit) 지원

7. 한계 및 제언

7.1 연구 한계

계산 비용:
– 시간적 가능성 추정이 모든 구성 요소에 대한 순차적 계산 필요
– 대규모 에이전트 시스템에서 확장성 이슈

모델 의존성:
– 현재 접근법이 생성 가능성에 의존
– 내부 모델 접근이 불가한 블랙박스 시나리오에서는 대안 메트릭 필요

시나리오 커버리지:
– 9개의 신중하게 설계된 시나리오만 검증
– 더 광범위한 실제 배치 환경에서의 검증 필요

7.2 미래 연구 방향

1. 대안 메트릭 탐색:
– 보상 모델(Reward Model) 기반 $\psi_i$
– 시맨틱 유사도(Semantic Similarity) 기반 $\psi_i$
– 다양한 도메인에서의 효과성 비교

2. 대규모 실증:
– 실제 고객 서비스 시스템에의 통합
– 장기 추적을 통한 귀속 검증

3. 상호작용적 귀속:
– 다중 에이전트 시스템으로 확장
– 에이전트 간 통신의 귀속 분석

4. 실시간 귀속:
– 온라인 학습 시스템에의 통합
– 의사결정 시점의 즉각적 설명 제공

7.3 실무 적용 포인트

[!tip] 실무자를 위한 가이드라인
검증 가능한 귀속 구축:
1. 단계별 구조화: 구성 요소 → 문장 수준 분석
2. 방법론적 유연성: 도메인에 맞는 귀속 기법 선택
3. 투명성 확보: 결정 근거의 추적 가능한 문서화

위험 완화 전략:
– 기억 업데이트 로그: 과일반화 패턴 식별
– 도구 사용 감사: 환각 가능성 모니터링
– 귀속 점수 임계값 설정: 의심스러운 결정 자동 플래그

📌 3단계: 비판적 평가

방법론적 타당성

강점

1. 계층적 접근의 적절성
– 단계별 복잡도 관리: 거시(구성 요소) → 미시(문장) 수준으로 문제 분해
– 정교(Precision): 광범위한 검색 공간을 좁혀가면서 계산 효율 유지
– 해석 용이성: 귀속 결과의 시각화 및 인간-친화적 설명 제공

2. 시간적 인과성 존중
– 인과적 순서 보존: 도구 사용, 기억 업데이트, 추론 단계의 순서 존중
– 증분 접근(Differential Approach): $g_i = \psi_i - \psi_{i-1}$ 로 순차적 영향력 측정
– 역인과성 문제 방지: 미래 정보를 이용하지 않고 순방향 계산

3. 방법론적 모듈화
– 구성 요소 수준( $\psi_i$ )과 문장 수준( $\phi_{i,j}$ ) 분리
– 기법 독립성: 다양한 귀속 방법(섭동, 그라디언트, 어텐션) 수용 가능
– 확장성: 새로운 귀속 기술 출현 시 쉽게 통합

한계

1. 인과적 증명 부족
– 상관관계 vs. 인과관계: 높은 시간적 이득 $g_i$ 가 반드시 인과적 원인 아님
– 외생성 변수(Confounding): 미관측된 변수의 영향력 가능성
– 개입(Confounders): 다른 복합 요소들의 복합적 효과

2. 생성 모델의 신뢰성 의존
– 확률 추정의 신뢰성: 모델이 부적절한 확률을 부여할 수 있음 (예: 할루시네이션)
– 기본 가정(Faithfulness Assumption): 귀속이 모델의 실제 내부 역학을 반영한다고 가정
– 블랙박스 제한: 내부 상태 관찰 불가

3. 계산 복잡도
– 순차적 계산: 각 구성 요소에 대한 증분 계산 필요
– 계산 비용: 대규모 시스템에서의 확장성 이슈
– 실시간 적용: 온라인 학습 시나리오에서의 지연 문제

논리적 일관성

긍정적 측면

1. 문제 정의의 명확성
– 패러다임 시프트 명시: “실패 원인 규명 → 일반적 귀속”으로의 이동 명확히 설명
– 구체적 예시: 고객 서비스 환불 사례로 문제 구체화

2. 수학적 정식화의 엄밀성
– 일관된 표기: $H_t$ , $\mathcal{C}$ , $f_{\text{comp}}$ , $f_{\text{sent}}$ 등 표기 일관
– 명시적 정의: 각 변수와 함수에 대한 명확한 정의 제공

3. 이론적 근거의 적절성
– 기존 연구와의 연결: RAG 귀속, 기계 학습 해석(Explainable AI) 문헌 적절히 인용
– 섭동 기반 접근의 이론적 기초: Leave-one-out 분석, 인과적 개입(Causal Intervention) 이론

개선 가능 영역

1. 정량적 평가의 완전성
– 자동화된 평가: 9개의 신중하게 설계된 시나리오에 대한 정성적 분석
– 정량적 메트릭: 귀속 정확도, 포괄성, 신뢰성의 정량적 측정 부족
– 벤치마크 통합: GAIA 등 기존 벤치마크와의 비교 분석 필요

2. 대안 가설 검증
– 반증 사례(Counterfactual): “만약 그 기억이 없었다면?” 시나리오 구축 부족
– 개입 실험(Intervention Study): 특정 구성 요소를 인위적으로 조작했을 때의 효과 검증 필요

3. 현실 세계 검증
– 실제 시스템 통합: 실험실 환경이 아닌 실제 배포 시스템에서의 검증 필요
– 장기 추적 연구: 귀속 예측의 장기적 신뢰성 평가

기여도 평가

혁신성

[1. 패러다임의 전환] ⭐⭐⭐⭐⭐⭐
– 기여: 실패 원인 규명에서 일반적 귀속으로의 패러다임 전환
– 영향: 명백한 오류가 없는 부적절한 행동에 대한 설명 가능
– 이전 연구와의 차별성: 실패 중심 접근법의 한계를 명시적 극복

[2. 계층적 프레임워크 설계] ⭐⭐⭐⭐⭐
– 기여: 거시 → 미시 수준의 단계적 귀속 제시
– 실용성: 계산 효율과 해석 용이성 균형
– 범용성: 다양한 귀속 기법을 수용하는 모듈러 설계

[3. 시간적 인과성 존중] ⭐⭐⭐⭐⭐
– 기여: 에이전트 실행의 인과적 구조 보존
– 이점: 역인과성 문제 방지, 시간적 역학 포착

실용성

[4. 다양한 시나리오 검증] ⭐⭐⭐⭐
– 기여: 기억 주도, 도구 주도 상호작용 모두 검증
– 다양성: 가치 드리프트, 환경 변화, 검색 작업 등 다양한 패턴 커버
– 한계: 9개 시나리오에 국한, 대규모 실증 필요

[5. 방법론적 모듈화] ⭐⭐⭐⭐
– 기여: 방법론에 구애받지 않는 프레임워크
– 이점: 새로운 귀속 기술 출현 시 쉽게 통합 가능
– 확장성: 도메인 특화된 귀속 기법 선택 자유

실무 적용 포인트

즉시 적용 가능

[1. 에이전트 감사 및 디버깅]

# 의사코드 예시
def audit_agent_trajectory(trajectory):
    # 1. 구성 요소 수준 귀속
    component_scores = compute_temporal_gains(trajectory)
    high_impact_components = select_top_components(component_scores)

    # 2. 문장 수준 귀속
    for component in high_impact_components:
        sentence_scores = compute_perturbation_scores(component)
        high_impact_sentences = select_top_sentences(sentence_scores)

    return {
        "critical_components": high_impact_components,
        "evidence_sentences": high_impact_sentences
    }

[2. 의심스러운 결정 플래깅]
– 임계값 설정: 시간적 이득 $g_i > \tau$ 일 때 플래그
– 자동 검토: 고영향 구성 요소 식별 시 자동 검토 요청
– 사람-인-루프(Human-in-the-loop): 중요 결정의 승인 절차

[3. 기억 편향 감지]
– 패턴 분석: 동일 기억이 다양한 문맥에서 부적절하게 재사용되는 패턴 식별
– 가치 드리프트 추적: 에이전트의 가치 판단이 시간에 따라 어떻게 변화하는지 모니터링
– 개입: 비일반화된 기억 사용 시 수정 제안 또는 사용자 승인 요구

중장기 구현

[4. 귀속 대시보드 구축]
– 시각화 도구: 구성 요소와 문장 귀속 점수의 대화형 시각화
– 필터링 기능: 특정 유형의 귀속 결과(기억, 도구 등) 필터링
– 내보내기(Export): 귀속 결과의 JSON/PDF 내보내기

[5. 정책 준수 및 규정 준수 지원]
– 결정 추적 로그: 모든 에이전트 결정의 귀속 정보 로깅
– 감사(Audit) 기능: 규정 기관이나 내부 감사팀을 위한 귀속 보고서 생성
– 투명성 포털: 스테이크홀더에게 에이전트 행동의 귀속 정보 제공

[6. 지속적 학습 및 개선]
– 귀속 피드백 루프: 귀속 예측이 사용자 피드백과 일치하는지 확인
– 모델 개선: 부적절한 귀속 패턴이 반복되면 모델 재훈련
– 메트릭 측정: 귀속 정확도와 사용자 만족도의 상관관계 분석

[!warning] 주의사항
귀속 ≠ 정당화(Attribution ≠ Justification):
– 귀속은 “왜” 그렇게 결정했는지 설명
– 하지만 그 결정이 “올바른”인지는 별개 문제
– 귀속 결과를 활용하여 부적절한 패턴을 식별하고 수정해야 함

References

주요 논문

Agentic Failure Attribution:
- Zhang et al. (2025c). “Which agent causes task failures and when?”
- Zhu et al. (2025). “Where LLM agents fail and how they can learn from failures”
Context Attribution:
- Liu et al. (2024). “AttriBoT: efficiently approximating leave-one-out context attribution”
- Chuang et al. (2025). “SelfCite: self-supervised alignment for context attribution”
- Cohen-Wang et al. (2024). “ContextCite: attributing model generation to context”
Interpretability Methods:
- Qi et al. (2024). “Model internals-based answer attribution”
- Wang et al. (2024b). “Gradient based feature attribution”
- Hao et al. (2021). “Self-attention attribution”

도구 및 데이터셋

Llama 3.1: https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct
smolagents: https://github.com/huggingface/smolagents
GAIA Benchmark: Mialon et al. (2023)