[AI Paper] VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

By skycave

2026년 01월 25일 5 Min Read

VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

📌 1단계: 기본 정보

제목: VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
저자:
- Chenglin Li (Zhejiang University, Shanghai Innovation Institute)
- Qianglong Chen (Zhejiang University)
- Feng Han (Fudan University, Shanghai Innovation Institute)
- Yikun Wang (Fudan University, Shanghai Innovation Institute)
- Xingxi Yin (Zhejiang University)
- Yan Gong (Zhejiang University)
- Ruilin Li (Wuhan University, Shanghai Innovation Institute)
- Yin Zhang (Zhejiang University, Shanghai Innovation Institute)
- Jiaqi Wang (Shanghai AI Lab, Shanghai Innovation Institute)
출판정보:
- arXiv ID: 2601.15724v1
- 발행일: 2026년 1월 22일
- 버전: v1
분야/카테고리:
- Computer Vision and Pattern Recognition (cs.CV)
- Artificial Intelligence (cs.AI)
링크:
- arXiv: https://arxiv.org/abs/2601.15724v1
- PDF: https://arxiv.org/pdf/2601.15724v1.pdf
- HTML: https://arxiv.org/html/2601.15724v1

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

[!note] 핵심 문제: 긴 영상(Long-form Video) 이해의 어려움

기존 VideoLLMs의 한계:
– 정적 추론(Static Reasoning): 대부분의 기존 VideoLLMs는 균등 샘플링된 프레임에 대해 정적 추론만 수행
– 시간적 위치 약화: 긴 영상에서 중요한 시점을 정밀하게 식별하지 못함
– 정보 손실: 수백 개의 프레임이 있는 긴 영상에서 중요한 정보가 누락됨
– 계산 비용: 긴 영상 전체 처리 시 막대한 연산 자원 소모

Agentic Tools의 잠재력:
– 시간적 검색(Temporal Retrieval)
– 공간적 줌(Spatial Zoom)
– 시간적 줌(Temporal Zoom)
– → 핵심 순간의 적응형 탐색 가능

순환 종속성 문제(Circular Dependency):
– Agentic Video Understanding 데이터 구성 → 이미 강력한 긴 영상 이해 능력이 필요
– → 새로운 접근 방식 요구

2. 연구 목적 및 연구 질문

연구 목표:
1. 긴 영상 이해를 위한 Agentic VideoLLM 구축
2. 합성 도구 상호작용 궤적(Synthetic Tool-Interaction Trajectories)로만 학습
3. VideoLLM을 능동적 추론 엔진으로 전환 (수동 캡션 모듈에서 벗어나기)

핵심 연구 질문:
– Q1: 긴 영상 이해 능력이 없는 VideoLLM으로 어떻게 Agentic Tool Reasoning을 학습시킬 수 있는가?
– Q2: 시간적 검색과 줌 도구를 어떻게 결합하여 효율적인 영상 탐색을 구현할 수 있는가?
– Q3: 합성 데이터만으로 실제 긴 영상 벤치마크에서 기존 방법론을 능가할 수 있는가?

3. 이론적 프레임워크

Interleaved Multimodal Reasoning

[!important] 핵심 개념: “Thinking with Videos”

개념 정의:
– 시각 지각(Visual Perception)과 언어 추론(Language Reasoning)의 동적·적응적 결합
– 이미지 도메인에서 OpenAI o3 모델이 보여준 성공 사례 확장

VideoThinker의 이론적 기여:
1. Caption-to-Frame Grounding: 캡션 공간에서의 도구 사용 시퀀스를 실제 비디오 프레임으로 정규화
2. Two-Level Tool Design:
– Retrieval Level: 광역 후보 구간 식별
– Zoom Level: 미세 입도 검사
3. Confidence-Gated Control: 도구 사용 결정 시 신뢰도 기반 게이트 메커니즘

기존 접근과의 차별점:

구분	기존 LLM Agent	기존 VideoLLM	VideoThinker
추론 핵심	LLM	VideoLLM (수동)	VideoLLM (능동)
도구 출력	캡션	직접 시각 처리	프레임+추론
데이터 필요성	주석 필요	직접 학습	합성 데이터만

4. 연구 방법론

4.1 Tools Design

Temporal Retrieval Tools:
1. Clip Retrieval: 비디오 클립 수준의 광역 검색
2. Subtitle Retrieval: 자막 기반 시간적 검색
3. Subtitle Summary: 자막 요약 기반 관련 구간 식별

Temporal Zoom Tools:
1. Frame Zoom: 구간 내 프레임 수준 미세 분석
2. Subtitle Zoom: 자막 세부 내용 검증

4.2 Data Synthesis with Agentic LLMs

3단계 합성 파이프라인:

Step 1: Video → Rich Captions
├─ 오디오 트랜스크립트
├─ 장면 설명
└─ 자막 기반 요약

Step 2: Caption Space → Tool-Use Sequences
└─ Agentic LLM (Qwen3/DeepSeek) 활용
    ├─ Temporal Retrieval 호출
    └─ Temporal Zoom 호출

Step 3: Caption → Frame Grounding
├─ caption_zoom → frame_zoom 치환
├─ 실제 비디오 프레임 삽입
└─ Interleaved Video-Reasoning CoT 생성

데이터 크기: 대규모 인터리브 비디오-도구 추론 데이터셋

4.3 Multimodal Tool-Reasoning Training

학습 과정:
1. VideoLLM이 caption 생성 도구로 역할 수행
2. LLM이 도구 사용 시퀀스 생성
3. 생성된 Trajectory로 VideoLLM Fine-tuning

학습 목표:
– 동적 추론 능력(Dynamic Reasoning)
– 적응형 시간적 탐색(Adaptive Temporal Exploration)
– 다단계 도구 사용(Multi-step Tool Use)

4.4 Adaptive Video Reasoning

추론 프로세스:

Question → Temporal Retrieval → Candidate Intervals
        ↓
        Temporal Zoom (Iteration)
        ↓
    Frame-Level Perception + Reasoning
        ↓
        Answer Generation

5. 주요 결과

[!example] 주요 성능 향상 수치

Benchmarks:
– MLVU (Multi-level Long Video Understanding)
– LVBench (Long Video Benchmark)
– LongVideoBench

주요 결과:

모델 유형	Baseline	VideoThinker	향상 폭
vs Vanilla VideoLLM (MLVU)	–	–	+6.8%
vs Vanilla VideoLLM (LVBench)	–	–	+10.6%
vs Caption-only LLM Agent (MLVU)	–	–	+3.9%
vs Caption-only LLM Agent (LVBench)	–	–	+3.5%

Ablation Studies:
1. Video Duration 효과: 긴 영상일수록 VideoThinker의 우위가 두드러짐
2. Retrieval Parameter 영향: n(후보 수)과 τ(검색 정밀도) 파라미터 최적화 필요
3. Retrieval Tools의 기여: Temporal Retrieval 없이 성능 급격 하락

6. 논의 및 해석

핵심 기여점

순환 종속성 해결:
- 기존 접근: 긴 영상 이해 모델 필요 → 데이터 필요 → 모델 필요 (순환)
- VideoThinker: 합성 데이터만으로 학습 가능
VideoLLM의 역할 전환:
- 기존: 수동 캡션 생성 모듈
- VideoThinker: 능동 추론 핵심
  → 에이전트 아키텍처 단순화
오픈소스 모델 활용:
- 기존: Gemini-Pro 같은 상용 모델 의존
- VideoThinker: Qwen3, DeepSeek 같은 오픈소스 LLM 활용
  → 광범위한 접근성 제공

방법론적 우수성

[!tip] 장점 요약

효율적 데이터 합성: 캡션 공간에서 도구 추론 후 프레임으로 정규화
Adaptive Reasoning: 필요한 구간만 탐색하여 계산 비용 절감
실용적 확장성: 새로운 비디오에 도구를 추가하기 쉬움

7. 한계 및 제언

연구 한계

[!warning] 현재 제약 사항

Caption Quality 의존성:
- 초기 비디오 캡션 품질이 합성 데이터 질에 직접적 영향
- 정밀한 자막/장면 설명이 필수
Tool Design의 제약:
- 현재는 Temporal Retrieval/Zoom 도구만 사용
- Spatial Zoom 같은 공간적 도구는 제한적으로 활용
범위 제한:
- Long-form VideoQA에 집중
- 짧은 영상/실시간 처리에는 최적화되지 않을 수 있음

향후 연구 방향

Spatial Tools 확장:
- 프레임 내 객체/영역 탐지 도구
- 멀티모달 쿼리 지원
자율 데이터 생성:
- 강화학습 기반 Trajectory 최적화
- 피드백 루프를 통한 자기 개선
다양한 도메인 적용:
- 의료 영상
- 감시/보안 영상
- 교육용 영상 콘텐츠

📌 3단계: 비판적 평가

방법론적 타당성

[!success] 강점

순환 종속성 해결의 우아함:
- Caption Space에서 도구 추론 후 Frame Grounding
- 실제 VideoLLM의 능력이 없어도 합성 데이터 생성 가능
Two-Level Tool Design의 논리성:
- Retrieval: 광역 탐색으로 빠른 필터링
- Zoom: 미세 분석으로 정밀 이해
  → 효율성과 정확성의 균형
오픈소스 활용의 실용성:
- Qwen3/DeepSeek 같은 오픈소스 LLM 활용
- 연구 재현성 접근성 확보

[!warning] 잠재적 약점

합성 데이터와 실제 데이터의 격차:
- Caption-based 합성이 실제 비디오 복잡성을 완전히 반영하는지 의문
- 오디오/시각적 세부정보의 손실 가능성
벤치마크 표본의 한계:
- MLVU, LVBench의 특성에 최적화되었을 가능성
- 다른 도메인에서 일반화 검증 필요

논리적 일관성

긍정적 요소:
– Introduction → Related Work → Method → Experiments의 순차적 구조
– 각 섹션에서 앞선 연구 참조 및 한계 언급
– 결과에서 Claim에 대한 정량적 근거 제시

개선 여지:
– Ablation Study에서 파라미터 영향 분석이 더 상세할 수 있음
– Error Analysis가 없어 실패 사례를 이해하기 어려움
– Tool 사용 실패 시 대체 전략에 대한 논의 부족

기여도 평가

[!important] 주요 기여

방법론적 혁신: VideoLLM을 Agentic 추론 엔진으로 전환
실용적 해결책: 합성 데이터로 순환 종속성 해결
성능 입증: 다수 벤치마크에서 SOTA 달성

기존 연구와의 비교:

구분	VideoAgent	VideoTree	VideoThinker
추론 핵심	LLM	LLM	VideoLLM
도구 활용	캡션	트리 구조	Retrieval+Zoom
데이터	사람 주석	구조화 요약	합성 Trajectory
아키텍처	이중 모델	이중 모델	단일 모델

실무 적용 포인트

[!example] 실제 서비스 시 고려사항

즉시 적용 가능:
1. 동영상 검색 시스템:
– 긴 영상에서 관련 구간 빠른 찾기
– 쿼리 기반 시간적 탐색

비디오 Q&A 시스템:
- 긴 동영상 콘텐츠의 질의응답
- 온라인 강의/미팅 녹화 분석
콘텐츠 요약 서비스:
- 긴 영상의 핵심 순간 자동 추출
- 맞춤형 다이제스트 생성

추가 개발 필요:
– 실시간 추론 최적화 (현재는 오프라인 학습 중심)
– Edge Device에서의 경량화
– 다국어 자막 지원 확장

References

arXiv:2601.15724 – “VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning”
https://arxiv.org/abs/2601.15724v1
https://arxiv.org/pdf/2601.15724v1.pdf