[AI Paper] VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
📌 1단계: 기본 정보
- 제목: VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
- 저자:
- Chenglin Li (Zhejiang University, Shanghai Innovation Institute)
- Qianglong Chen (Zhejiang University)
- Feng Han (Fudan University, Shanghai Innovation Institute)
- Yikun Wang (Fudan University, Shanghai Innovation Institute)
- Xingxi Yin (Zhejiang University)
- Yan Gong (Zhejiang University)
- Ruilin Li (Wuhan University, Shanghai Innovation Institute)
- Yin Zhang (Zhejiang University, Shanghai Innovation Institute)
- Jiaqi Wang (Shanghai AI Lab, Shanghai Innovation Institute)
- 출판정보:
- arXiv ID: 2601.15724v1
- 발행일: 2026년 1월 22일
- 버전: v1
- 분야/카테고리:
- Computer Vision and Pattern Recognition (cs.CV)
- Artificial Intelligence (cs.AI)
- 링크:
- arXiv: https://arxiv.org/abs/2601.15724v1
- PDF: https://arxiv.org/pdf/2601.15724v1.pdf
- HTML: https://arxiv.org/html/2601.15724v1
📌 2단계: 연구 내용
1. 연구 배경 및 문제의식
[!note] 핵심 문제: 긴 영상(Long-form Video) 이해의 어려움
기존 VideoLLMs의 한계:
– 정적 추론(Static Reasoning): 대부분의 기존 VideoLLMs는 균등 샘플링된 프레임에 대해 정적 추론만 수행
– 시간적 위치 약화: 긴 영상에서 중요한 시점을 정밀하게 식별하지 못함
– 정보 손실: 수백 개의 프레임이 있는 긴 영상에서 중요한 정보가 누락됨
– 계산 비용: 긴 영상 전체 처리 시 막대한 연산 자원 소모
Agentic Tools의 잠재력:
– 시간적 검색(Temporal Retrieval)
– 공간적 줌(Spatial Zoom)
– 시간적 줌(Temporal Zoom)
– → 핵심 순간의 적응형 탐색 가능
순환 종속성 문제(Circular Dependency):
– Agentic Video Understanding 데이터 구성 → 이미 강력한 긴 영상 이해 능력이 필요
– → 새로운 접근 방식 요구
2. 연구 목적 및 연구 질문
연구 목표:
1. 긴 영상 이해를 위한 Agentic VideoLLM 구축
2. 합성 도구 상호작용 궤적(Synthetic Tool-Interaction Trajectories)로만 학습
3. VideoLLM을 능동적 추론 엔진으로 전환 (수동 캡션 모듈에서 벗어나기)
핵심 연구 질문:
– Q1: 긴 영상 이해 능력이 없는 VideoLLM으로 어떻게 Agentic Tool Reasoning을 학습시킬 수 있는가?
– Q2: 시간적 검색과 줌 도구를 어떻게 결합하여 효율적인 영상 탐색을 구현할 수 있는가?
– Q3: 합성 데이터만으로 실제 긴 영상 벤치마크에서 기존 방법론을 능가할 수 있는가?
3. 이론적 프레임워크
Interleaved Multimodal Reasoning
[!important] 핵심 개념: “Thinking with Videos”
개념 정의:
– 시각 지각(Visual Perception)과 언어 추론(Language Reasoning)의 동적·적응적 결합
– 이미지 도메인에서 OpenAI o3 모델이 보여준 성공 사례 확장
VideoThinker의 이론적 기여:
1. Caption-to-Frame Grounding: 캡션 공간에서의 도구 사용 시퀀스를 실제 비디오 프레임으로 정규화
2. Two-Level Tool Design:
– Retrieval Level: 광역 후보 구간 식별
– Zoom Level: 미세 입도 검사
3. Confidence-Gated Control: 도구 사용 결정 시 신뢰도 기반 게이트 메커니즘
기존 접근과의 차별점:
| 구분 | 기존 LLM Agent | 기존 VideoLLM | VideoThinker |
|---|---|---|---|
| 추론 핵심 | LLM | VideoLLM (수동) | VideoLLM (능동) |
| 도구 출력 | 캡션 | 직접 시각 처리 | 프레임+추론 |
| 데이터 필요성 | 주석 필요 | 직접 학습 | 합성 데이터만 |
4. 연구 방법론
4.1 Tools Design
Temporal Retrieval Tools:
1. Clip Retrieval: 비디오 클립 수준의 광역 검색
2. Subtitle Retrieval: 자막 기반 시간적 검색
3. Subtitle Summary: 자막 요약 기반 관련 구간 식별
Temporal Zoom Tools:
1. Frame Zoom: 구간 내 프레임 수준 미세 분석
2. Subtitle Zoom: 자막 세부 내용 검증
4.2 Data Synthesis with Agentic LLMs
3단계 합성 파이프라인:
Step 1: Video → Rich Captions
├─ 오디오 트랜스크립트
├─ 장면 설명
└─ 자막 기반 요약
Step 2: Caption Space → Tool-Use Sequences
└─ Agentic LLM (Qwen3/DeepSeek) 활용
├─ Temporal Retrieval 호출
└─ Temporal Zoom 호출
Step 3: Caption → Frame Grounding
├─ caption_zoom → frame_zoom 치환
├─ 실제 비디오 프레임 삽입
└─ Interleaved Video-Reasoning CoT 생성
데이터 크기: 대규모 인터리브 비디오-도구 추론 데이터셋
4.3 Multimodal Tool-Reasoning Training
학습 과정:
1. VideoLLM이 caption 생성 도구로 역할 수행
2. LLM이 도구 사용 시퀀스 생성
3. 생성된 Trajectory로 VideoLLM Fine-tuning
학습 목표:
– 동적 추론 능력(Dynamic Reasoning)
– 적응형 시간적 탐색(Adaptive Temporal Exploration)
– 다단계 도구 사용(Multi-step Tool Use)
4.4 Adaptive Video Reasoning
추론 프로세스:
Question → Temporal Retrieval → Candidate Intervals
↓
Temporal Zoom (Iteration)
↓
Frame-Level Perception + Reasoning
↓
Answer Generation
5. 주요 결과
[!example] 주요 성능 향상 수치
Benchmarks:
– MLVU (Multi-level Long Video Understanding)
– LVBench (Long Video Benchmark)
– LongVideoBench
주요 결과:
| 모델 유형 | Baseline | VideoThinker | 향상 폭 |
|---|---|---|---|
| vs Vanilla VideoLLM (MLVU) | – | – | +6.8% |
| vs Vanilla VideoLLM (LVBench) | – | – | +10.6% |
| vs Caption-only LLM Agent (MLVU) | – | – | +3.9% |
| vs Caption-only LLM Agent (LVBench) | – | – | +3.5% |
Ablation Studies:
1. Video Duration 효과: 긴 영상일수록 VideoThinker의 우위가 두드러짐
2. Retrieval Parameter 영향: n(후보 수)과 τ(검색 정밀도) 파라미터 최적화 필요
3. Retrieval Tools의 기여: Temporal Retrieval 없이 성능 급격 하락
6. 논의 및 해석
핵심 기여점
- 순환 종속성 해결:
- 기존 접근: 긴 영상 이해 모델 필요 → 데이터 필요 → 모델 필요 (순환)
- VideoThinker: 합성 데이터만으로 학습 가능
- VideoLLM의 역할 전환:
- 기존: 수동 캡션 생성 모듈
- VideoThinker: 능동 추론 핵심
→ 에이전트 아키텍처 단순화
- 오픈소스 모델 활용:
- 기존: Gemini-Pro 같은 상용 모델 의존
- VideoThinker: Qwen3, DeepSeek 같은 오픈소스 LLM 활용
→ 광범위한 접근성 제공
방법론적 우수성
[!tip] 장점 요약
- 효율적 데이터 합성: 캡션 공간에서 도구 추론 후 프레임으로 정규화
- Adaptive Reasoning: 필요한 구간만 탐색하여 계산 비용 절감
- 실용적 확장성: 새로운 비디오에 도구를 추가하기 쉬움
7. 한계 및 제언
연구 한계
[!warning] 현재 제약 사항
- Caption Quality 의존성:
- 초기 비디오 캡션 품질이 합성 데이터 질에 직접적 영향
- 정밀한 자막/장면 설명이 필수
- Tool Design의 제약:
- 현재는 Temporal Retrieval/Zoom 도구만 사용
- Spatial Zoom 같은 공간적 도구는 제한적으로 활용
- 범위 제한:
- Long-form VideoQA에 집중
- 짧은 영상/실시간 처리에는 최적화되지 않을 수 있음
향후 연구 방향
- Spatial Tools 확장:
- 프레임 내 객체/영역 탐지 도구
- 멀티모달 쿼리 지원
- 자율 데이터 생성:
- 강화학습 기반 Trajectory 최적화
- 피드백 루프를 통한 자기 개선
- 다양한 도메인 적용:
- 의료 영상
- 감시/보안 영상
- 교육용 영상 콘텐츠
📌 3단계: 비판적 평가
방법론적 타당성
[!success] 강점
- 순환 종속성 해결의 우아함:
- Caption Space에서 도구 추론 후 Frame Grounding
- 실제 VideoLLM의 능력이 없어도 합성 데이터 생성 가능
- Two-Level Tool Design의 논리성:
- Retrieval: 광역 탐색으로 빠른 필터링
- Zoom: 미세 분석으로 정밀 이해
→ 효율성과 정확성의 균형
- 오픈소스 활용의 실용성:
- Qwen3/DeepSeek 같은 오픈소스 LLM 활용
- 연구 재현성 접근성 확보
[!warning] 잠재적 약점
- 합성 데이터와 실제 데이터의 격차:
- Caption-based 합성이 실제 비디오 복잡성을 완전히 반영하는지 의문
- 오디오/시각적 세부정보의 손실 가능성
- 벤치마크 표본의 한계:
- MLVU, LVBench의 특성에 최적화되었을 가능성
- 다른 도메인에서 일반화 검증 필요
논리적 일관성
긍정적 요소:
– Introduction → Related Work → Method → Experiments의 순차적 구조
– 각 섹션에서 앞선 연구 참조 및 한계 언급
– 결과에서 Claim에 대한 정량적 근거 제시
개선 여지:
– Ablation Study에서 파라미터 영향 분석이 더 상세할 수 있음
– Error Analysis가 없어 실패 사례를 이해하기 어려움
– Tool 사용 실패 시 대체 전략에 대한 논의 부족
기여도 평가
[!important] 주요 기여
- 방법론적 혁신: VideoLLM을 Agentic 추론 엔진으로 전환
- 실용적 해결책: 합성 데이터로 순환 종속성 해결
- 성능 입증: 다수 벤치마크에서 SOTA 달성
기존 연구와의 비교:
| 구분 | VideoAgent | VideoTree | VideoThinker |
|---|---|---|---|
| 추론 핵심 | LLM | LLM | VideoLLM |
| 도구 활용 | 캡션 | 트리 구조 | Retrieval+Zoom |
| 데이터 | 사람 주석 | 구조화 요약 | 합성 Trajectory |
| 아키텍처 | 이중 모델 | 이중 모델 | 단일 모델 |
실무 적용 포인트
[!example] 실제 서비스 시 고려사항
즉시 적용 가능:
1. 동영상 검색 시스템:
– 긴 영상에서 관련 구간 빠른 찾기
– 쿼리 기반 시간적 탐색
- 비디오 Q&A 시스템:
- 긴 동영상 콘텐츠의 질의응답
- 온라인 강의/미팅 녹화 분석
- 콘텐츠 요약 서비스:
- 긴 영상의 핵심 순간 자동 추출
- 맞춤형 다이제스트 생성
추가 개발 필요:
– 실시간 추론 최적화 (현재는 오프라인 학습 중심)
– Edge Device에서의 경량화
– 다국어 자막 지원 확장
References
- arXiv:2601.15724 – “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning”
- https://arxiv.org/abs/2601.15724v1
- https://arxiv.org/pdf/2601.15724v1.pdf