[AI Paper] Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems
Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems
Meta Information
| 항목 | 내용 |
|---|---|
| 저자 | Xi Shi, Mengxin Zheng, Qian Lou |
| arXiv | 2601.10560v1 |
| Download | |
| 제출일 | 2026-01-15 |
| 코드 | GitHub – xishi404/LAMaS |
한줄 요약
[!tip] TL;DR
병렬 멀티에이전트 시스템에서 Critical Path Length를 38-46% 감소시키는 지연시간 인식 오케스트레이션 프레임워크 LAMaS 제안
연구 배경 및 동기
문제 정의
멀티에이전트 시스템(MAS)은 복잡한 추론을 가능하게 하지만, 다음과 같은 문제점이 존재:
- 높은 추론 지연시간: 다단계 실행과 반복적인 모델 호출
- 확장성 한계: 시간에 민감한 시나리오에서 사용성 제한
- 순차 실행 가정: 기존 연구들이 병렬 실행 환경을 고려하지 않음
[!important] 핵심 문제
기존 접근법들은 작업 성능과 추론 비용 최적화에 집중하며, 순차 실행을 암묵적으로 가정하여 병렬 실행 환경에서의 지연시간 제어에 비최적화
기존 연구의 한계
| 프레임워크 | 한계점 |
|---|---|
| ChatDev, AutoGen | 지연시간 체계적 관리 부재 |
| MetaGPT, CAMEL | 순차 실행 중심 설계 |
| Voyager | 병목 현상 해결 미흡 |
핵심 아이디어
LAMaS (Latency-Aware Multi-agent System)
[!note] 핵심 개념
병렬 실행 환경에서 명시적 지연시간 감독 하에 학습 기반 오케스트레이션을 수행하고, 실행 토폴로지 그래프를 구성하여 Critical Execution Path를 최적화
3가지 핵심 특징:
- 지연 인식 의사결정: 에이전트의 예상 완료 시간을 예측하여 실시간 스케줄링
- 조기 종료 메커니즘: 상위 K개 응답만 수집하고 나머지는 중단
- 학습 기반 최적화: 히스토리 데이터로부터 지연 패턴 학습
방법론/아키텍처
시스템 아키텍처
┌─────────────────────────────┐
│ Multi-Agent Pool │
│ (다양한 LLM 에이전트들) │
└──────────────┬──────────────┘
▼
┌─────────────────────────────┐
│ Latency Prediction Module │
│ (응답 시간 분포 모델링) │
└──────────────┬──────────────┘
▼
┌─────────────────────────────┐
│ Dynamic Orchestrator │
│ (실시간 스케줄링 & 라우팅) │
└──────────────┬──────────────┘
▼
┌─────────────────────────────┐
│ Response Aggregation │
│ (응답 수집 & 조기 종료) │
└─────────────────────────────┘
알고리즘 상세
1. 지연 모델링
- 이전 작업들의 응답 시간 히스토그램 유지
- 백분위수 추정: P50, P95, P99로 성능 특성화
- 각 에이전트별 응답 시간 분포 학습
2. 최적화 목표
\text{Total Latency} = \max_{i \in \text{Agents}}(t_{\text{complete}}^i)병렬 실행 환경에서 가장 느린 에이전트가 전체 시스템 성능을 결정하므로, 이 Critical Path를 최소화
3. 조기 종료 정책
# 의사 코드
def early_termination(responses, threshold_k):
if len(completed_responses) >= threshold_k:
# 충분한 응답 수집 완료
cancel_pending_agents()
return aggregate(responses)
if elapsed_time > timeout_threshold:
return partial_aggregate(responses)
4. 보상 함수
R = \alpha \cdot \text{Accuracy} - \beta \cdot \text{Latency} - \gamma \cdot \text{Cost}정확성, 속도, 비용 간의 트레이드오프를 학습 기반으로 최적화
실험 결과
평가 태스크
| 태스크 | 메트릭 | 특성 |
|---|---|---|
| 코드 생성 | Pass@1 | 정확성 기준 |
| 수학 문제 풀이 | Accuracy | 정답률 |
| 논리 추론 | F1 Score | 추론 정확도 |
핵심 결과
[!success] 성능 향상
– Critical Path Length 38-46% 감소
– 작업 성능 유지 또는 향상
– 지연 편차가 큰 환경에서 특히 우수
베이스라인 비교
| 방법 | 지연 감소 | 정확도 유지 | 특징 |
|---|---|---|---|
| 순차 처리 | 기준선 | O | 모든 응답 대기 |
| 타임아웃 기반 | 20-30% | △ | 성능 변동성 높음 |
| 라운드로빈 | 15-25% | O | 지연 예측 없음 |
| LAMaS | 40-60% | O | 학습 기반 최적화 |
강점 및 한계점
강점
[!tip] Strengths
1. Framework-Agnostic: 기존 MAS 프레임워크에 플러그인 가능
2. 최소 오버헤드: 추가적인 계산 비용 최소화
3. 실시간 적응: 동적 환경에서 적응적 스케줄링
4. 체계적 접근: 지연시간을 정량화하고 동적 관리하는 첫 체계적 방법론
한계점
[!warning] Limitations
1. Cold Start 문제: 초기 학습 기간에 충분한 히스토리 데이터 필요
2. 확장성 검증 부족: 대규모 에이전트 풀에서의 성능 미검증
3. 도메인 제한: 금융, 의료 등 특수 도메인 평가 미포함
4. 네트워크 지연 미고려: 분산 환경에서의 통신 오버헤드 미반영
실무 적용 포인트
적용 시나리오
[!example] Use Cases
1. 실시간 고객 지원 챗봇: 다중 전문 에이전트 응답 최적화
2. 코드 리뷰 자동화: 여러 분석 에이전트 병렬 실행
3. 문서 요약 파이프라인: 다단계 처리의 지연 최소화
구현 고려사항
# LAMaS 적용 시 고려할 설정
config = {
"latency_percentile": "P95", # 지연 측정 기준
"early_termination_k": 3, # 최소 응답 수
"timeout_threshold_ms": 5000, # 최대 대기 시간
"history_window": 100, # 학습에 사용할 히스토리 크기
}
통합 체크리스트
- [ ] 에이전트별 응답 시간 로깅 설정
- [ ] 히스토리 데이터 저장소 구성
- [ ] 조기 종료 정책 파라미터 튜닝
- [ ] 모니터링 대시보드 구축
References
- arXiv: https://arxiv.org/abs/2601.10560v1
- GitHub: https://github.com/xishi404/LAMaS.git
- 관련 프레임워크: ChatDev, AutoGen, MetaGPT, CAMEL, Voyager