[AI Paper] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

2026년 01월 25일 9 Min Read

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

📌 1단계: 기본 정보

항목	내용
제목	EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
저자	Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu (16명, *동등 기여)
소속	Meituan (메이퇀, 美团)
출판 정보	arXiv:2601.15876v1, 2026년 1월 22일 (Preprint)
분야/카테고리	Computer Science – Artificial Intelligence (cs.AI)
ACM 분류	I.2; I.2.11; I.2.10; H.5.2
라이선스	Creative Commons Attribution 4.0 International (CC BY 4.0)
분량	26 페이지, 8 그림
arXiv 링크	https://arxiv.org/abs/2601.15876v1
PDF 링크	https://arxiv.org/pdf/2601.15876v1.pdf
DOI	https://doi.org/10.48550/arXiv.2601.15876
GitHub	https://github.com/meituan/EvoCUA
모델 릴리즈	2026-01-05 (EvoCUA-8B-20260105, EvoCUA-32B-20260105)

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

[!note] 핵심 문제
기존 Computer Use Agent (CUA) 개발 패러다임의 근본적 한계: 정적 데이터 스케일링 → 경험 스케일링으로의 패러다임 전환 필요

현재 CUA 개발의 3대 도전 과제:

검증 가능한 데이터 합성 (Verifiable Data Synthesis)
- 에이전트가 실행 불가능한 태스크에 대해 계획을 환각(hallucinate)
- 생성된 쿼리는 반드시 해결 가능한 상태에 기반해야 함
확장 가능한 인프라 (Scalable Infrastructure)
- 고처리량 경험 생산을 위해 환경 시뮬레이션과 RL 통합 필요
- 수천~만 개 동시 샌드박스 실행 요구
효율적 학습 (Efficient Training)
- 대규모 상호작용에서 능력 경계(capability boundary)에 집중하는 on-policy 접근 필요

┌─────────────────────────────────────────────────────────┐
│    패러다임 전환: Data Scaling → Experience Scaling     │
├─────────────────────────────────────────────────────────┤
│  기존: 정적 데이터셋 → 수동적 모방 → 인과관계 미포착    │
│       ↓                                                 │
│  EvoCUA: 합성 경험 생성 → 정책 최적화 → 자기 진화 사이클│
└─────────────────────────────────────────────────────────┘

관련 연구 맥락:
– Foundation VLMs: Claude 4.5 Sonnet, Seed 1.8 (proprietary), Qwen3-VL (open-weight)
– GUI Agents: OpenCUA (AgentNet), UI-TARS-2 (multi-turn RL), Step-GUI (step-wise reasoning)
– 학습 패러다임: Behavior Cloning → RL, DeepSeek-R1의 RLVR (Reinforcement Learning with Verifiable Rewards) 영향

2. 연구 목적 및 연구 질문

[!important] 연구 목표
정적 모방 학습을 넘어서 데이터 생성과 정책 최적화를 통합한 자기 지속적 진화 사이클 구축

핵심 연구 질문:

RQ	질문	해결 방안
RQ1	합성 데이터의 검증 가능성 확보 방법?	Dual-Stream Synthesis + 실행 가능 Validator
RQ2	대규모 경험 생산 인프라 구축 방법?	10,000+ 동시 샌드박스 오케스트레이션
RQ3	성공/실패 궤적 모두 학습 활용 방법?	RFT + Step-level DPO
RQ4	다양한 모델에서 일관된 향상 달성?	Cold Start → RFT → DPO → Iteration

3. 이론적 프레임워크

[!tip] EvoCUA 핵심 혁신
3개의 핵심 축(Pillar)이 자기 강화 사이클로 작동

┌─────────────────────────────────────────────────────────────────┐
│              EvoCUA Self-Sustaining Evolutionary Cycle           │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│   ┌──────────────────┐                                          │
│   │  Verifiable      │───→ 다양한 검증 가능 태스크 생성          │
│   │  Synthesis       │     (수만 개 인스턴스)                    │
│   │  Engine          │                                          │
│   └────────┬─────────┘                                          │
│            │                                                     │
│            ▼                                                     │
│   ┌──────────────────┐                                          │
│   │  Scalable        │───→ 10,000+ 동시 샌드박스 실행           │
│   │  Infrastructure  │     (1분 내 부트스트랩)                   │
│   └────────┬─────────┘                                          │
│            │                                                     │
│            ▼                                                     │
│   ┌──────────────────┐                                          │
│   │  Iterative       │───→ 성공 궤적 강화 + 실패→지도 신호 변환 │
│   │  Learning        │                                          │
│   └────────┬─────────┘                                          │
│            │                                                     │
│            └──────────────────→ 반복 (Evolution) ◀──────────────┘
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

3.1 POMDP 형식화 (Section 2.1)

EvoCUA는 컴퓨터 사용을 부분 관측 마르코프 결정 과정(POMDP)으로 정의:

요소	정의
상태 공간 $\mathcal{S}$	컴퓨터 시스템 상태 (비관측)
행동 공간 $\mathcal{A}$	$\mathcal{A}_{mouse} \cup \mathcal{A}_{keyboard} \cup \mathcal{A}_{control}$
사고 공간 $\mathcal{Z}$	자연어 추론 트레이스
보상	실행 가능 Validator를 통한 이진 검증

4. 연구 방법론

4.1 검증 가능한 합성 엔진 (Verifiable Synthesis Engine)

[!example] 3단계 파이프라인
구조화된 태스크 구성 → 이중 스트림 합성 → 품질 보증

A. 구조화된 태스크 공간 구성 (Structured Task Space Construction)

┌─────────────────────────────────────────────────────────────────┐
│              Hierarchical Domain Taxonomy                        │
├─────────────────────────────────────────────────────────────────┤
│  User Behaviors → Atomic Capabilities → Cross-Scenario Transfer │
│  (예: 수식 조작, 데이터 정렬 등)                                 │
└─────────────────────────────────────────────────────────────────┘

하이브리드 리소스 주입:
– Parametric Synthesis: 코드 기반 문서 생성
– Non-Parametric Injection: 실제 인터넷 데이터 활용
– 목적: 시뮬레이션-현실 갭(Sim-to-Real Gap) 해소

B. 이중 스트림 합성 (Agentic Dual-Stream Synthesis)

Foundation VLM이 “태스크 아키텍트” 역할 수행:

# ReAct 기반 워크플로우
def dual_stream_synthesis(resource_context):
    # 동시 생성
    instruction_g = generate_nl_instruction(resource_context)  # 자연어 명령
    validator_V_g = generate_executable_evaluator(instruction_g)  # 실행 가능 검증기

    # 폐쇄 루프 피드백
    while not sandbox_execution_succeeds(validator_V_g):
        refine(validator_V_g)

    return instruction_g, validator_V_g

C. 품질 보증 (Quality Assurance)

단계	방법	목적
일관성 기반 필터링	Reference agent 롤아웃 + 보상 모델/Evaluator 교차 검증	환각 제거
3중 오염 제거	의미적 필터링 + 설정 가지치기 + Evaluator 검증	벤치마크 누출 방지

4.2 확장 가능한 인프라 (Scalable Interaction Infrastructure)

[!note] 핵심 설계 원칙
Control Plane (라이프사이클 관리) ↔ Data Plane (환경 상호작용) 분리

아키텍처 추상화:

┌─────────────────────────────────────────────────────────────────┐
│                    Infrastructure Architecture                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌─────────────┐    ┌──────────────────────────────────┐        │
│  │   Tools     │    │         Asynchronous Gateway      │        │
│  │ (Immutable) │    │  (Reactor Pattern)               │        │
│  │             │    │  → 100,000+ requests/minute      │        │
│  └─────────────┘    └──────────────────────────────────┘        │
│         ↓                          ↓                             │
│  ┌─────────────┐    ┌──────────────────────────────────┐        │
│  │  Clusters   │    │     Distributed Scheduler        │        │
│  │ (Runtime)   │    │  → 10,000+ sandboxes in 1 min   │        │
│  │             │    │  → Extreme elasticity           │        │
│  └─────────────┘    └──────────────────────────────────┘        │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

고충실도 환경 인스턴스화:

기술	목적
하이브리드 가상화	QEMU-KVM VM in Docker → 커널 수준 격리 + 네이티브 성능
결정론적 캘리브레이션	Ubuntu 22.04 커스텀 이미지 (HID 패칭, 폰트 주입, 런타임 안정성)

4.3 진화적 학습 패러다임 (Evolving Learning Paradigm)

Cold-Start 초기화

통합 행동 공간 ( $\mathcal{A}$ ):
– $\mathcal{A}_{mouse}$ : 좌표 기반 마우스 동작
– $\mathcal{A}_{keyboard}$ : 키보드 입력 (key_down/key_up 분리)
– $\mathcal{A}_{control}$ : 제어 프리미티브

구조화된 사고 공간 ( $\mathcal{Z}$ ):

요소	역할
$z_0$	목표 명확화 (Goal Clarification)
$z_{obs}$	관찰 일관성 (Observation Consistency)
$z_{check}$	자기 검증 (Self-Verification)
$z_{reflect}$	반성 및 교정 (Reflection & Correction)
$z_T$	추론 강화 종료 (Reasoning-Augmented Termination)

Hindsight Reasoning Generation: 관찰된 행동을 설명하는 추론 트레이스를 사후적으로 생성

Rejection Sampling Fine-Tuning (RFT)

[!important] 동적 컴퓨트 예산 할당 (Equation 1)
$K^* = k_{i^*} \text{ where } i^* = \min\{i \mid SR(k_i) \geq \tau_i\}$

효율적으로 해결된 태스크는 가지치기
정책 분산이 높은 경계 쿼리에 컴퓨팅 집중

Step-level Denoising: Judge 모델이 불필요한 스텝 필터링

Step-Level Direct Preference Optimization (DPO)

[!tip] 핵심 혁신
장기 호라이즌 태스크를 위한 단계 수준 DPO

인과적 이탈 발견 (Causal Deviation Discovery):
– 임계 이탈 스텝 $t^*$ 식별: 기능적으로 동등한 환경 상태에서 에이전트 행동이 참조와 처음 분기하는 시점

이중 패러다임 선호 구성:

┌─────────────────────────────────────────────────────────────────┐
│                    Dual-Paradigm DPO                             │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  Paradigm I: Action Correction at t*                            │
│  ─────────────────────────────────────                          │
│  → 거부된 오류 행동을 최적 응답으로 대체                         │
│  → Window-based alignment 또는 Synthesis 사용                   │
│                                                                  │
│  Paradigm II: Reflection & Recovery at t*+1                     │
│  ─────────────────────────────────────────────                  │
│  → 예상치 못한 상태를 해결하는 반성 트레이스 합성                │
│  → 자기 교정 능력 강화                                          │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

DPO 손실 함수 (Equation 2):

\mathcal{J}(\theta) = -\mathbb{E}\left[\log\sigma\left(\beta \log\frac{\pi_\theta(z_w, a_w|h_t, o_t)}{\pi_{ref}(z_w, a_w|h_t, o_t)} - \beta \log\frac{\pi_\theta(z_l, a_l|h_t, o_t)}{\pi_{ref}(z_l, a_l|h_t, o_t)}\right)\right]

$\beta$ : 선호 강도 제어
$(z_w, a_w)$ : 선택된 (winning) 응답
$(z_l, a_l)$ : 거부된 (losing) 응답

5. 주요 결과

[!success] 핵심 성과
OSWorld 벤치마크 56.7% 성공률 — 오픈소스 SOTA 달성

5.1 메인 결과 (Table 1)

모델	성공률	파라미터	최대 스텝	비고
EvoCUA-32B	56.7%	32B	50	🥇 Open-source SOTA
EvoCUA-8B	46.1%	8B	50	OpenCUA-72B 능가
Claude-4.5-Sonnet	58.1%	–	100	Proprietary
UI-TARS-2	53.1%	–	100	Proprietary
OpenCUA-72B	45.0%	72B	100	Previous SOTA
Step-GUI-8B	40.2%	8B	–

주요 관찰:
– EvoCUA-8B vs Step-GUI-8B: +5.9% (동일 Qwen3-VL-8B 백본, 순수 패러다임 효과)
– 50 스텝 제약으로 100 스텝 모델들 능가 → 효율성 우위

5.2 Ablation Study (Table 3, 4)

구성요소	EvoCUA-32B 기여	OpenCUA-72B 기여
통합 행동 공간	+4.84%	–
Cold Start	+2.62%	+2.14%
RFT	+3.13%	+3.69%
Offline DPO	+3.21%	+3.02%
Iterative Training	+1.90%	+1.82%
총 누적	기준 대비	+8.12% (RFT만으로)

[!note] 일반화 검증
OpenCUA-72B에서도 일관된 성능 향상 → 패러다임의 범용성 입증

5.3 스케일링 분석

Pass@k 성능 (Figure 6a):
– 모든 k 값(2-128)에서 일관된 우위
– k=16에서 최대 +4.93% 개선

추론 스텝 (Figure 6b):
– 15→50 스텝: +16.25% 향상
– 50 스텝 이후: 완만한 개선 (학습 데이터 분포 한계)

경험 스케일링 (Table 5):

라운드	샘플 수	성능 향상
Round 1	20k	+2.61%
Round 2	226k	+6.79%
Round 3	1M	+8.12%

6. 논의 및 해석

6.1 학습 역학의 4가지 핵심 차원

[!important] 핵심 인사이트

1. 경험의 이중 본성 (Dual Nature of Experiences)
– 성공 궤적: 낮은 노이즈, 제한된 정보 이득 → 공격적 step-level 필터링 필요
– 실패 궤적: 높은 노이즈, 높은 정보 → 임계 오류 스텝 분리로 고가치 경계 정렬

2. 기초 제약 및 초기화
– 행동 공간 완전성이 전제조건 (고효율 연산 누락 시 태스크 해결 불가)
– 경량 Cold Start가 과도한 초기화보다 우수 (정제 장벽 방지)

3. 반복 최적화 역학
– On-policy 필수: 반복 학습 시 엄격한 on-policy 데이터; off-policy는 최적화 방향 교란
– 종료 비대칭: 실패 인식은 빠른 수렴; 성공 인식은 보정된 양성 신호 밀도 필요
– 자기 교정 잠재력: 상태 확인/반성 타겟 선호 최적화가 견고성 강화

4. 시각화 기반 진단
– 궤적 분석 도구로 “환각 Validator” 및 실행 로직 오류 식별
– Pass@k 차이 분석으로 실패 모드 특정 (좌표 드리프트, 추론-행동 불일치)

6.2 환경 불확실성

[!warning] 관찰
“GUI 환경은 고유한 환경적 확률성을 도입. 시스템 지연, 네트워크 변동, 미세한 렌더링 변이로 동일 행동 시퀀스가 다른 상태 전이 유발 가능”

Pass@k의 이중 목적: 모델 다양성 + 환경 노이즈 견고성 측정

7. 한계 및 제언

7.1 인정된 한계

한계	상세
일반 능력 트레이드오프	Qwen3-VL 백본에서 ScreenSpot-Pro, MMMU 성능 하락 (non-thinking 일반 데이터셋과 thinking 모델 분포 불일치)
확장성 제약	모델 개선 시 off-policy 허용도 감소; 기존 반복 방법의 노이즈 누적 병목
Online RL 미성숙	시간 제약으로 online RL 조사 미완료; STEPO (Step-Level Policy Optimization) 높은 비용
인간 수준 갭	오픈 모델과 선도 closed-weight 시스템 간 성능 갭 지속

7.2 향후 연구 방향

[!tip] STEPO (Step-Level Policy Optimization)

학습-추론 불일치 해결:
– 궤적 수준 학습 ↔ 압축된 히스토리 표현 불일치
– 제안: 스텝 수준 정책 최적화

STEPO 메커니즘 (Equation 3-6):

\hat{A}_i = \frac{R_i - \text{mean}({R_j})}{\text{std}({R_j})}

궤적 advantage를 모든 스텝에 균일 할당
고advantage 궤적 → 더 적은 스텝으로 유도
저advantage 궤적 → 탐색 촉진

장기 비전:

“환경 스케일링 — 환경 다양성 확장 및 동적 불확실성 모델링”

📌 3단계: 비판적 평가

방법론적 타당성

[!success] 강점
– 체계적 프레임워크: 3개 핵심 축의 명확한 역할 분담과 통합
– 실증적 검증: OSWorld SOTA + 다양한 모델 크기/백본에서 일관된 향상
– 확장성 입증: 1M 샘플까지 경험 스케일링 효과 확인
– 재현성: 오픈소스 공개 + 상세한 기술 사양

[!warning] 개선 필요점
– 합성 엔진의 태스크 다양성 범위 정량화 부족
– 일반 능력 저하 해결책 미제시 (Qwen3-VL 백본)
– Online RL 효과 미검증 (STEPO 예비 단계)

논리적 일관성

일관성 우수: 문제 정의(정적 학습 한계) → 해결책(자기 진화 사이클) → 검증(SOTA 달성)의 명확한 흐름
인과관계 설명: 각 구성요소(합성 엔진, 인프라, 학습)의 기여도를 ablation으로 분리 검증
비교 분석: 동일 백본(Qwen3-VL-8B) 비교로 순수 패러다임 효과 입증

기여도 평가

기여 영역	수준	근거
기술적 혁신	⭐⭐⭐⭐⭐	검증 가능 합성 + 대규모 인프라 + Step-level DPO 통합
실험적 검증	⭐⭐⭐⭐⭐	OSWorld SOTA, 다양한 스케일 검증, 상세 ablation
실용적 가치	⭐⭐⭐⭐	적은 파라미터(8B→72B급), 적은 스텝(50→100급)
재현성	⭐⭐⭐⭐⭐	GitHub 공개, HuggingFace 모델 배포, CC BY 4.0
이론적 기여	⭐⭐⭐⭐	경험 스케일링 패러다임, 학습 역학 4차원 분석

실무 적용 포인트

[!example] 적용 가능 시나리오

1. 엔터프라이즈 RPA 고도화
– 기존 룰 기반 → AI 적응형 자동화
– UI 변경에 자동 적응하는 프로세스 자동화

2. 소프트웨어 QA 자동화
– E2E 테스트 시나리오 자동 생성/실행
– 다양한 에지 케이스 탐색

3. IT 지원 에이전트
– 복잡한 소프트웨어 조작 대행
– 단계별 트러블슈팅 가이드 자동 생성

4. 데이터 처리 파이프라인
– GUI 기반 애플리케이션 자동 조작
– 레거시 시스템 통합

핵심 테이크어웨이

┌─────────────────────────────────────────────────────────────────────┐
│  💡 5가지 핵심 메시지                                                 │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  1. 패러다임 전환: Data Scaling → Experience Scaling                │
│     → 검증 가능 합성 + 확장 인프라 + 진화적 최적화의 선순환         │
│                                                                     │
│  2. 실패로부터의 학습이 핵심                                        │
│     → Step-level DPO로 임계 이탈 지점에서 선호 학습                 │
│                                                                     │
│  3. 파라미터 효율성 입증                                            │
│     → 8B 모델(46.1%)이 72B 모델(45.0%) 능가                        │
│                                                                     │
│  4. 추론 효율성 입증                                                │
│     → 50 스텝으로 100 스텝 모델들 능가                              │
│                                                                     │
│  5. 범용성 검증                                                     │
│     → 다양한 백본(Qwen3-VL, OpenCUA)에서 일관된 향상                │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

주요 수식 정리

수식	설명
$K^* = k_{i^<em>}$ where $i^</em> = \min{i \mid SR(k_i) \geq \tau_i}$	동적 컴퓨트 예산 할당
$\mathcal{J}(\theta) = -\mathbb{E}[\log\sigma(\beta \log\frac{\pi_\theta(z_w,a_w)}{\pi_{ref}} - \beta \log\frac{\pi_\theta(z_l,a_l)}{\pi_{ref}})]$	DPO 손실 함수
$\hat{A}_i = (R_i - \text{mean})/\text{std}$	STEPO advantage 계산

인용문 (Abstract)

“The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle…”

References

arXiv Paper
GitHub Repository
HuggingFace Models
OSWorld Benchmark
DOI: https://doi.org/10.48550/arXiv.2601.15876