[AI Paper] INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems

2026년 01월 25일 5 Min Read

INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems

📌 1단계: 기본 정보

항목	내용
제목	INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems
저자	Yijin Zhou, Xiaoya Lu, Dongrui Liu, Junchi Yan, Jing Shao
arXiv ID	2601.14667v1
발행일	2026년 1월 21일
분야	Multiagent Systems (cs.MA), Artificial Intelligence (cs.AI)
라이선스	CC BY 4.0
arXiv 링크	https://arxiv.org/abs/2601.14667v1
PDF 링크	https://arxiv.org/pdf/2601.14667v1.pdf
DOI	https://doi.org/10.48550/arXiv.2601.14667

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

[!important] 핵심 문제
LLM 기반 멀티에이전트 시스템(MAS)의 급속한 발전으로 인해 악의적 영향이 에이전트 간 통신을 통해 바이러스처럼 전파되는 심각한 보안 취약점이 발생하고 있다.

기존 연구의 한계

이진 패러다임의 한계: 기존 방어 메커니즘은 에이전트를 단순히 양성(benign) vs 공격(attack)으로만 구분
감염된 에이전트 무시: 공격 에이전트에 의해 변환된 감염된 에이전트(infected agents)를 고려하지 않음
단일 에이전트 중심 보안: 개별 에이전트의 강건성에만 집중하여 네트워크 수준의 전파 동학을 놓침
정적 방어: 감염 확산 패턴과 네트워크 토폴로지를 고려하지 않는 정적인 입력 필터링 방식

graph LR
    A[공격 에이전트] -->|악성 메시지| B[양성 에이전트]
    B -->|감염| C[감염된 에이전트]
    C -->|전파| D[다른 양성 에이전트]
    C -->|전파| E[다른 양성 에이전트]

    style A fill:#ff6b6b
    style C fill:#ffd93d
    style B fill:#6bcf7f
    style D fill:#6bcf7f
    style E fill:#6bcf7f

2. 연구 목적 및 연구 질문

[!note] 핵심 연구 질문
“어떻게 LLM 기반 멀티에이전트 시스템에서 감염된 에이전트를 식별하고, 악성 전파를 차단하며, 시스템 무결성을 유지할 수 있는가?”

연구 목표

공격 에이전트와 감염된 에이전트를 구분하는 감염 인식(Infection-Aware) 탐지 메커니즘 개발
네트워크 토폴로지를 고려한 전파 분석 기법 제안
공격자 대체 및 감염된 에이전트 복구를 통한 적응적 교정 프레임워크 구축

3. 이론적 프레임워크

핵심 개념 정의

개념	정의	역할
양성 에이전트 (Benign Agent)	정상적으로 작동하는 원래의 에이전트	시스템의 정상 기능 수행
공격 에이전트 (Attack Agent)	의도적으로 악성 입력을 생성하는 에이전트	초기 감염원
감염된 에이전트 (Infected Agent)	악성 통신을 수신하여 손상된 양성 에이전트	2차 전파자 (핵심 위협)
감염 상태 추적 (Infection Status Tracking)	입력 소스의 신뢰성을 분류하는 메커니즘	방어 결정의 기반

감염 전파 모델

이 연구는 멀티에이전트 시스템의 보안 문제를 전염병 확산 동학(Epidemic Spreading Dynamics)에 비유하여 모델링:

P_{infection}(v) = 1 - \prod_{u \in N(v)} (1 - \beta \cdot I_u)

$P_{infection}(v)$ : 에이전트 $v$ 의 감염 확률
$N(v)$ : 에이전트 $v$ 의 이웃 집합
$\beta$ : 감염 전파율
$I_u$ : 이웃 $u$ 의 감염 상태 (0 또는 1)

4. 연구 방법론

INFA-Guard 프레임워크 구조

[!tip] INFA-Guard의 3단계 방어 메커니즘
1. 탐지 계층 (Detection Layer): 손상된 입력을 나타내는 의심스러운 패턴 식별
2. 전파 분석 (Propagation Analysis): 네트워크 구조를 고려한 악성 콘텐츠 확산 모델링
3. 교정 대응 (Mitigation Response): 감염 확률에 비례하는 단계적 봉쇄 전략

┌─────────────────────────────────────────────────────────────┐
│                    INFA-Guard Framework                      │
├─────────────────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────┐ │
│  │  Detection  │→│ Propagation │→│    Mitigation       │ │
│  │    Layer    │  │  Analysis   │  │     Response        │ │
│  └─────────────┘  └─────────────┘  └─────────────────────┘ │
│        ↓               ↓                    ↓              │
│  • 패턴 인식      • 토폴로지 분석    • 공격자 대체         │
│  • 소스 신뢰도    • 영향 범위 추정   • 감염 에이전트 복구   │
│  • 이상 탐지      • 전파 경로 추적   • 네트워크 구조 유지   │
└─────────────────────────────────────────────────────────────┘

기존 방어 메커니즘과의 차별점

측면	기존 방식	INFA-Guard
위협 분류	이진 (양성/공격)	삼진 (양성/감염/공격)
입력 처리	균일 처리	소스 신뢰도 기반 차등 처리
방어 범위	개별 에이전트	네트워크 전체
대응 방식	정적 필터링	적응적 봉쇄

실험 설계

데이터셋
– 추론(reasoning), 지식(knowledge), 명령 수행(instruction-following) 능력을 테스트하는 다양한 벤치마크

베이스라인
– 기존 입력 필터링 방식
– 격리된 에이전트 안전 접근법
– 비-감염 인식 방어 메커니즘

평가 지표
– 공격 성공률 (Attack Success Rate, ASR)
– 위양성/위음성 비율 (False Positive/Negative Rates)
– 시스템 성능 저하도 (Performance Degradation)

5. 주요 결과

[!success] 핵심 성과
INFA-Guard는 평균 33%의 공격 성공률 감소를 달성하며, 다양한 모델과 네트워크 토폴로지에서 강건한 성능을 보임

정량적 결과

지표	성능
공격 성공률 감소	평균 33%
악성 출력 전파 억제	유의미한 감소
정상 입력 성능 유지	양호
네트워크 복잡도 확장성	효과적

정성적 발견

감염 인식 패러다임의 우수성: 균일한 안전 메커니즘이 놓치는 동학을 포착
네트워크 토폴로지의 중요성: 에이전트 취약성은 개별 강건성뿐 아니라 네트워크 구조와 정보 흐름에서 발생
다양한 공격 시나리오 대응: 여러 공격 패턴에 대해 일관된 방어 성능

6. 논의 및 해석

핵심 통찰

[!quote] 연구의 핵심 통찰
“에이전트 취약성은 단순히 개별 강건성의 문제가 아니라, 네트워크 토폴로지와 정보 흐름 패턴에서 발생한다.”

기존 연구와의 비교

프레임워크	특징	INFA-Guard와의 차이
XG-Guard	설명 가능한 세밀한 보호, 이중 수준 그래프 이상 탐지	감염 상태 추적 없음
G-Safeguard	GNN 기반 이상 탐지, 토폴로지 개입	감염 전파 모델 미적용
GuardAgent	가드 에이전트를 통한 범용 보호	네트워크 수준 분석 부재
BlindGuard	비지도 GAD 기반 탐지	다중 수준 문맥 인식 제한

이론적 기여

멀티에이전트 안전 문제를 감염 봉쇄 문제로 재정의
개별 에이전트 강화에서 시스템적 네트워크 회복력으로 초점 전환
전염병 확산 이론을 AI 보안에 적용하는 새로운 관점 제시

7. 한계 및 제언

저자가 밝힌 한계점

적응적 공격자 분석 부족: 감염 모델을 이해하는 적응적 공격자에 대한 분석 제한
대규모 이종 네트워크 확장성: 매우 큰 이종 에이전트 네트워크에서의 확장성 검증 필요
이론적 감염 경계 부재: 감염 확산의 수학적 상한/하한 미도출

향후 연구 방향

이론적 감염 경계 도출
학습 기반 전파 예측 모델 개발
적응적 공격에 대한 방어 메커니즘 강화
실제 대규모 MAS 환경에서의 검증

📌 3단계: 비판적 평가

방법론적 타당성

[!note] 평가
적절함 – 감염 전파 동학을 활용한 모델링은 멀티에이전트 시스템의 특성을 잘 반영

강점
– 전염병 확산 이론의 AI 보안 적용은 이론적으로 타당
– 다양한 네트워크 토폴로지와 공격 시나리오에서 테스트
– 기존 베이스라인과의 비교 실험 수행

개선 필요
– 실제 운영 환경에서의 검증 부족
– 계산 오버헤드에 대한 상세 분석 필요
– 적응적 공격자 시나리오 미포함

논리적 일관성

강점
– 문제 정의 → 해결책 → 실험 → 결과의 논리적 흐름
– 감염된 에이전트라는 새로운 위협 범주의 명확한 정의
– 3단계 방어 메커니즘의 체계적 구성

약점
– 감염 확률 계산의 실시간 적용 가능성에 대한 논의 부족
– 오탐지(false positive) 시 시스템 영향 분석 미흡

기여도 평가

학술적 가치

기여 영역	평가
새로운 문제 정의	⭐⭐⭐⭐⭐ – 감염된 에이전트 개념 도입
이론적 프레임워크	⭐⭐⭐⭐ – 전염병 모델 적용
실험적 검증	⭐⭐⭐⭐ – 다양한 시나리오 테스트
재현 가능성	⭐⭐⭐ – 상세 구현 정보 필요

실무적 가치

LLM 기반 MAS 보안 설계의 새로운 관점 제공
기존 방어 시스템에 감염 인식 모듈 추가 가능성
네트워크 토폴로지 설계의 보안 고려사항 제시

실무 적용 포인트

[!tip] 프로젝트 적용 아이디어

에이전트 신뢰도 시스템 설계
- 각 에이전트의 입력 소스별 신뢰도 점수 관리
- 신뢰도 기반 메시지 처리 우선순위 결정
네트워크 토폴로지 보안 설계
- 중요 에이전트의 연결 수 제한
- 격리 가능한 서브네트워크 구조 설계
단계적 대응 메커니즘
- 감염 의심 시 점진적 권한 축소
- 자동 복구 및 재초기화 프로세스
모니터링 대시보드
- 실시간 감염 상태 시각화
- 전파 경로 추적 및 알림 시스템

# 감염 인식 메시지 처리 예시 (개념적 코드)
class InfectionAwareAgent:
    def __init__(self):
        self.trust_scores = {}  # 소스별 신뢰도
        self.infection_status = "clean"

    def process_message(self, message, source_id):
        trust = self.trust_scores.get(source_id, 0.5)

        if trust < 0.3:
            return self.quarantine_process(message)
        elif trust < 0.7:
            return self.careful_process(message)
        else:
            return self.normal_process(message)

    def update_trust(self, source_id, interaction_result):
        # 상호작용 결과에 따라 신뢰도 업데이트
        pass