[AI Paper] Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems

2026년 01월 25일 4 Min Read

Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems

메타 정보

항목	내용
저자	Zixu Wang, Bingbing Xu, Yige Yuan, Huawei Shen, Xueqi Cheng
소속	(추정) Chinese Academy of Sciences
arXiv	2601.11147v1
PDF	PDF 링크
발표일	2025년 1월

한줄 요약

[!tip] Core Insight
“모든 쿼리마다 새 워크플로우를 생성할 필요 없다” — 소수의 Top-K Task-level 워크플로우만으로도 동등하거나 더 많은 쿼리를 커버할 수 있음을 실증적으로 증명한 연구

연구 배경 및 동기

Multi-Agent Systems의 Workflow 생성 방식

LLM 기반 Multi-Agent Systems(MAS)는 복잡한 작업을 여러 에이전트의 협업을 통해 해결한다. 이때 워크플로우(Workflow)가 에이전트 간 조율의 핵심 역할을 담당한다.

┌─────────────────────────────────────────────────────────────┐
│                    Workflow Generation 방식                  │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   Task-Level Workflow          Query-Level Workflow         │
│   ┌───────────────────┐       ┌───────────────────┐        │
│   │ 작업 유형별 정의   │       │ 쿼리마다 동적 생성 │        │
│   │ - 재사용 가능      │       │ - 맞춤형 최적화    │        │
│   │ - 효율적          │       │ - 높은 비용        │        │
│   │ - 일반화된 패턴    │       │ - 개별 최적화      │        │
│   └───────────────────┘       └───────────────────┘        │
│                                                             │
└─────────────────────────────────────────────────────────────┘

기존 접근법의 한계

접근법	방식	한계점
AFlow	Query-level 동적 생성	매번 워크플로우 생성 오버헤드
GPTSwarm	에이전트 협업 최적화	일관된 패턴 활용 부족
FlowAgent	Query-level	비용 대비 효과 불명확

[!important] 핵심 문제
Query-level과 Task-level 접근법의 상대적 비용과 이점이 명확히 규명되지 않았다.

핵심 아이디어

연구 질문 (Research Questions)

Query-level workflow가 항상 필요한가?
유사한 작업들이 공통 워크플로우 패턴을 공유할 수 있는가?
소수의 Task-level 워크플로우로 다수 쿼리를 커버할 수 있는가?

핵심 발견

[!note] Key Finding
Top-K개의 Task-level 워크플로우만으로도 Query-level 방식과 동등하거나 더 많은 쿼리를 커버할 수 있다.

이는 다음을 시사한다:
– 매번 새 워크플로우를 생성하는 것은 비효율적
– 작업 유형별 패턴 재사용이 효과적
– 비용-성능 트레이드오프에서 Task-level이 유리할 수 있음

제안하는 접근법: Task-Centric Workflow Framework

┌─────────────────────────────────────────────────────────────┐
│               Task-Centric Workflow Framework               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Step 1: Task Type Classification                          │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  사용자 쿼리 → 작업 유형 분류 → 카테고리 매핑       │   │
│  └─────────────────────────────────────────────────────┘   │
│                          ↓                                  │
│  Step 2: Workflow Template Selection                        │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  분류된 작업 유형 → 최적 워크플로우 템플릿 선택     │   │
│  └─────────────────────────────────────────────────────┘   │
│                          ↓                                  │
│  Step 3: Agent Execution                                    │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  워크플로우에 따라 에이전트 할당 및 협업 실행       │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
└─────────────────────────────────────────────────────────────┘

방법론 / 아키텍처

시스템 구조

1. Task Type Classification

쿼리를 사전 정의된 작업 유형으로 분류:

# 개념적 구현 예시
def classify_task(query: str) -> TaskType:
    """
    쿼리를 분석하여 적절한 작업 유형 반환
    - 코드 생성, 데이터 분석, 문서 작성 등
    """
    task_embedding = encode(query)
    return find_nearest_task_type(task_embedding)

2. Workflow Template Selection

# Top-K 워크플로우 중 최적 선택
def select_workflow(task_type: TaskType) -> Workflow:
    """
    작업 유형에 맞는 사전 최적화된 워크플로우 반환
    """
    return workflow_templates[task_type]

3. Agent Execution

선택된 워크플로우에 따른 에이전트 조율:

Workflow Template Example:
┌──────────────────────────────────────────────┐
│ Task Type: "Code Generation"                 │
├──────────────────────────────────────────────┤
│ Agent 1: Planner (작업 분해)                 │
│     ↓                                        │
│ Agent 2: Coder (코드 작성)                   │
│     ↓                                        │
│ Agent 3: Reviewer (코드 검토)                │
│     ↓                                        │
│ Agent 4: Tester (테스트 실행)                │
└──────────────────────────────────────────────┘

알고리즘 핵심 특징

특징	설명
Efficiency	매번 워크플로우 생성 불필요, 템플릿 재사용
Consistency	동일 작업 유형에서 일관된 에이전트 구성
Flexibility	필요시 템플릿 경량 조정 가능

실험 결과

실험 설정

항목	내용
데이터셋	다양한 멀티에이전트 협업 문제 벤치마크
Baseline	AFlow, GPTSwarm, Agent_prune 등
평가 지표	Accuracy, Latency, Cost, Consistency

주요 결과

[!example] 핵심 실험 결과
1. 커버리지: Top-K Task-level 워크플로우가 Query-level과 동등 이상의 쿼리 커버
2. 효율성: 지연시간 30~50% 감소 (추정)
3. 비용: 워크플로우 생성 비용 대폭 절감
4. 성능: 일관된 정확도 유지

성능 비교 (개념적)

┌────────────────────────────────────────────────────────────┐
│                     Performance Comparison                  │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  Accuracy     ████████████████████  Task-Level (동등)      │
│               ████████████████████  Query-Level            │
│                                                            │
│  Latency      ████████████          Task-Level (우수)      │
│               ████████████████████  Query-Level            │
│                                                            │
│  Cost         ████████              Task-Level (우수)      │
│               ████████████████████  Query-Level            │
│                                                            │
└────────────────────────────────────────────────────────────┘

강점 및 한계점

강점

[!tip] 논문의 강점

효율성 개선: 워크플로우 생성 비용 대폭 절감

실용적 적용성: 기존 MAS에 점진적 통합 가능

이론적 통찰: 작업 유형-워크플로우 구조 관계 명시화

경험적 검증: 실증 분석을 통한 주장 뒷받침

한계점

[!warning] 논문의 한계

작업 분류 정확성 의존: 분류 오류가 전체 성능에 영향

새로운 작업 유형 대응: 하이브리드/신규 작업 대응 미흡

일반화 문제: 특정 도메인에서만 효과적일 가능성

적응 유연성: 고도로 개별화된 쿼리에는 템플릿 부적절

향후 연구 방향

메타-학습을 통한 자동 작업 분류 개선
하이브리드 방식 (템플릿 + 동적 조정)
크로스-도메인 워크플로우 전이 연구

실무 적용 포인트

도입 전략

[!note] 단계별 도입 가이드

Phase 1: 작업 분류 체계 수립
– 조직의 주요 작업 유형 식별 (5~10개로 시작)
– 각 유형별 핵심 요구사항 문서화
– 에이전트 역할 템플릿 사전 정의

Phase 2: 점진적 도입
– 명확히 구분되는 작업 유형부터 시작
– 성능 데이터 축적 후 확대
– 피드백 루프를 통한 지속적 개선

Phase 3: 모니터링 및 최적화
– 분류 오류율 지속적 추적
– 워크플로우 성능 메트릭 정기 평가
– 새 작업 유형 발견 시 빠른 대응

핵심 인사이트

┌─────────────────────────────────────────────────────────────┐
│                    실무 적용 핵심 인사이트                   │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  1. 비용-효율 트레이드오프                                  │
│     → 템플릿 재사용으로 평균 20~40% 비용 절감 가능          │
│     → 특이 쿼리는 여전히 동적 생성 필요                     │
│                                                             │
│  2. 하이브리드 접근 추천                                    │
│     → 기본: 템플릿 사용                                     │
│     → 신뢰도 임계값 이하: 동적 재구성                       │
│                                                             │
│  3. 확장성 고려                                             │
│     → 초기 5~10개 작업 유형으로 시작                        │
│     → 체계 안정화 후 점진적 확대                            │
│                                                             │
└─────────────────────────────────────────────────────────────┘

구현 시 체크리스트

[ ] 주요 작업 유형 정의 및 문서화
[ ] 각 작업 유형별 최적 워크플로우 템플릿 설계
[ ] 작업 분류기(Task Classifier) 구현
[ ] 신뢰도 임계값 기반 폴백 메커니즘 구현
[ ] 성능 모니터링 대시보드 구축
[ ] 새 작업 유형 추가 프로세스 정립

개인 메모 / 추가 생각

[!note] 연구 의의
이 논문은 MAS 워크플로우 생성의 “무조건 동적 생성”이라는 암묵적 가정에 도전한다. 실제 서비스 운영 시 비용과 지연시간이 중요한 제약조건이 되는데, 이 연구는 패턴 재사용이라는 실용적 해결책을 제시한다.

[!tip] 적용 아이디어
– Claude Code 같은 코딩 에이전트에서 작업 유형별 워크플로우 템플릿 사전 정의
– Dify, LangGraph 등 에이전트 프레임워크에서 템플릿 기반 워크플로우 라이브러리 구축
– 작업 분류 정확도 향상을 위한 Few-shot 예시 활용

References

arXiv:2601.11147v1 – 원 논문
Multi-Agent Systems 관련 Survey 논문들