[AI Paper] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

2026년 01월 26일 10 Min Read

📄 EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

📌 1단계: 기본 정보

항목	내용
제목	EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
저자	Taofeng Xue,†, Chong Peng,†, Mianqiu Huang*, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu
소속	Meituan, Fudan University, Tongji University, HKUST
arXiv ID	2601.15876v1
발행일	2026년 1월 22일
분야/카테고리	Computer Science > Artificial Intelligence (cs.AI)
페이지 수	26페이지, 8개 그림
라이선스	CC BY 4.0
arXiv 링크	https://arxiv.org/abs/2601.15876v1
PDF 링크	https://arxiv.org/pdf/2601.15876v1.pdf
GitHub	https://github.com/meituan/EvoCUA
HuggingFace	EvoCUA-32B

[!summary] 초록 요약
네이티브 컴퓨터 사용 에이전트(CUA)의 개발은 멀티모달 AI에서 중요한 도약을 의미합니다. 하지만 그 잠재력은 현재 정적 데이터 스케일링의 제약으로 병목 현상이 발생하고 있습니다. 정적 데이터셋의 수동적 모방에 의존하는 기존 패러다임은 긴 수평선(long-horizon) 컴퓨터 작업에 내재된 복잡한 인과적 역학을 포착하는 데 어려움을 겪습니다.

본 연구에서는 EvoCUA라는 네이티브 컴퓨터 사용 에이전트 모델을 소개합니다. 정적 모방과 달리, EvoCUA는 데이터 생성과 정책 최적화를 자기 유지 진화 주기에 통합합니다.

데이터 희소성을 완화하기 위해 실행 가능한 검증기를 동반하는 다양한 작업을 자율적으로 생성하는 검증 가능한 합성 엔진(Verifiable Synthesis Engine)을 개발했습니다.

대규모 경험 획득을 가능하게 하기 위해 수만 개의 비동기 샌드박스 롤아웃을 오케스트레이션하는 확장 가능한 인프라를 설계했습니다.

이 방대한 궤적(trajectories)을 기반으로, 효율적으로 경험을 내면화하는 반복적 진화 학습 전략을 제안합니다. 이 메커니즘은 능력 경계를 식별하여 성공 루틴을 강화하고, 실패 궤적을 오류 분석과 자기 수정을 통해 풍부한 감독으로 변환함으로써 정책 업데이트를 동적으로 조절합니다.

OSWorld 벤치마크에서의 경험적 평가 결과, EvoCUA는 56.7%의 성공률을 달성하여 새로운 오픈 소스 SOTA를 수립했습니다. 특히 이전 최고 오픈 소스 모델인 OpenCUA-72B(45.0%)와 최고의 폐쇄형 가중치 모델인 UI-TARS-2(53.1%)를 크게 능가했습니다.

중요하게도, 이 접근 방식의 일반화 가능성을 강조합니다: 경험 학습에 의해 구동되는 진화 패러다임은 다양한 규모의 기초 모델에서 일관된 성능 향상을 제공하며, 네이티브 에이전트 능력을 향상시키는 견고하고 확장 가능한 경로를 확립합니다.

📌 2단계: 연구 내용

1. 연구 배경 및 문제의식

배경

네이티브 컴퓨터 사용 에이전트(CUA)의 개발은 인공 일반 지능(AGI)으로 가는 중요한 이정표
에이전트는 GUI(Graphical User Interfaces)를 마스터링하고, 이기종 응용 프로그램 간에 긴 수평선 워크플로우를 실행해야 함
최근 네이티브 VLM(Vision-Language Models)이 인지와 행동을 엔드투엔드 아키텍처로 통합했으나, 인간 수준의 신뢰성 달성은 여전히 큰 도전

핵심 문제

[!important] 정적 데이터 스케일링의 한계
기존 스케일링 법칙은 대부분 고정된 비대화형 데이터셋의 수동적 모방에 국한되며, 실제 컴퓨터 사용에 내재된 인과적 피드백을 포착하지 못함

이 제한을 극복하려면 정적 궤적을 통한 데이터 스케일링에서 대규모 대화형 롤아웃을 통한 경험 스케일링으로 패러다임 전환이 필요합니다.

3가지 주요 과제

검증 가능한 데이터 합성 (Verifiable Data Synthesis)
- 텍스트 쿼리만 합성하면 불가능한 작업에 대해 그럴듯한 계획을 생성하는 헬루시네이션(Hallucination) 문제 발생
- 생성된 쿼리가 해결 가능한 상태에 엄격히 기반(grounding)되도록 하는 강력한 프레임워크 필요
확장 가능한 상호작용 인프라 (Scalable Interaction Infrastructure)
- 높은 처리량(throughput)의 경험 생산에 대규모 환경 시뮬레이션과 고성능 강화 학습을 통합하는 통합 시스템 필요
- 연속적이고 비동기적인 상호작용 지원 필수
효율적인 훈련 레시피 (Efficient Training Recipe)
- 대규모 상호작용 공간에서 무제한 탐색은 계산적으로 비용이 큼
- 인간 학습 역학을 모방하는 온-정책(on-policy) 접근법 필요: 마스터한 루틴을 통합하면서 성공과 실패 사이를 오가는 경계 작업에 집중

2. 연구 목적 및 연구 질문

주요 목표

검증 가능한 합성, 높은 처리량 인프라, 진화적 최적화를 통합하여 자기 유지 진화 주기(EvoCUA)를 수립하고, 합성 컴퓨팅을 고품질 에이전트 능력으로 지속적으로 변환하는 것

연구 질문

정적 모방에서 경험 학습에 의해 구동되는 진화 패러다임으로 전환할 수 있는가?
검증 가능한 합성 엔진을 통해 자동으로 검증 가능한 대규모 작업을 생성할 수 있는가?
확장 가능한 인프라를 구축하여 수만 개의 동시 샌드박스 세션을 오케스트레이션할 수 있는가?
반복적 진화 학습 전략을 통해 효율적으로 경험을 내면화할 수 있는가?

3. 이론적 프레임워크

POMDP (부분 관찰 가능한 마르코프 의사결정 과정) 정의

CUA는 명시적 추론(Explicit Reasoning)을 갖는 POMDP로 모델링되며, 검증 가능한 작업 합성과 정책 개선의 공진화 주기를 통해 최적화됩니다.

\mathcal{T} = (\mathcal{S}, \mathcal{A}, \mathcal{Z}, \mathcal{O}, \mathcal{P}, \mathcal{R}_{syn})

구성요소	설명
상태 공간 (𝒮)	애플리케이션 상태, 시스템 구성, 암묵적 시스템 수준 컨텍스트 포함하는 컴퓨터 시스템 상태
관찰 (𝒪)	렌더링된 스크린샷 $I_t \in \mathbb{R}^{H \times W \times 3}$ (에이전트가 환경을 관찰하는 유일한 인터페이스)
행동 공간 (𝒜)	좌표 기반 마우스 이벤트 $𝒜_{mouse}$ , 키보드 입력 $𝒜_{keyboard}$ , 특수 제어 $𝒜_{control}$ 의 통합
사고 공간 (𝒵)	각 단계 $t$ 에서 행동 전에 생성되는 자연어 추론 궤적 $z_t$ (중간 인지 상태)
정책 (πθ)	추론과 행동 선택을 모두 거버닝하는 매개변수화된 정책
전이 (𝒫)	실행된 물리적 행동 $a_t$ 에 대한 컴퓨터 시스템의 동적 역학 포착
검증 가능한 보상 (ℛsyn)	검증 가능한 합성 메커니즘을 통해 실행 정확성에 기반한 감독

최적화 목표

정책 스냅샷 $\pi_{old}$ 에 조건화된 합성 엔진 𝒯syn에 의해 오케스트레이션된 결합 커리큘럼에 대한 검증율을 최대화:

J(\theta) = \mathbb{E}_{(g,V_g) \sim \mathcal{T}_{syn}(\cdot|\pi_{old})} \left[ \mathbb{E}_{\tau \sim \pi_\theta(\cdot|g)} [\mathcal{R}_{syn}(s_T;g)] \right]

4. 연구 방법론

EvoCUA는 3가지 핵심 모듈로 구성됩니다:

4.1 검증 가능한 합성 엔진 (Verifiable Synthesis Engine)

[!info] Generation-as-Validation 패러다임
자연어 보상의 모호성을 제거하고, 에이전트에게 정밀하고 결정론적인 감독 신호를 제공

3단계 캐스케이딩 모듈:

구조화된 작업 공간 구성
- 계층적 도메인 분류법(Hierarchical Domain Taxonomy)
  - 원자적 능력(atomic capabilities)이 전이 가능하며 복합적으로 복잡한 작업을 형성한다는 원칙
  - 핵심 데스크톱 애플리케이션(Web Browsers, Excel, Word 등)을 체계적으로 분류
  - 사용자 행동을 원자적 능력으로 분해
  - 다양한 사용자 페르소나(교육자, 알고리즘 엔지니어 등)를 통해 작업 시나리오 합성

하이브리드 자원 주입(Hybrid Resource Injection)
- 파라미터 합성: 코드 기반 생성기를 사용하여 문서(Word, Excel, PDF)를 대량으로 생성
- 비파라미터 주입: 공용 인터넷 데이터(이미지, 오디오, 복잡한 슬라이드)를 주입하여 실제 파일의 시각적 노이즈와 구조적 다양성 처리

에이전트 이중 스트림 합성(Agentic Dual-Stream Synthesis)
- ReAct 기반 에이전트 워크플로우로 모델링
- 기초 VLM이 작업 건축가(Task Architect)로 작동하여 이중 스트림 생성:
  - 명령 스트림 (g): 특정 자원 컨텍스트에 기반한 자연어 쿼리
  - 검증기 스트림 (Vg): 기준 진실(GT)과 해당 실행 가능한 평가자 코드
- 생성된 코드를 즉시 실제 샌드박스 환경에서 실행하여 피드백 루프 형성
엄격한 품질 보장(Rigorous Quality Assurance)
- 일관성 기반 필터링
  - 참조 컴퓨터 사용 에이전트로 합성 작업에 대한 샌드박스 롤아웃 수행
  - 보상 모델과 평가자를 사용한 통과율 계산
  - 수동 스팟 체크와 교차 검증
- 3중 오염 제거(Tri-fold Decontamination)
  - 의미론적 오염 제거: 벤치마크 쿼리와 의미론적으로 동일한 명령 제거
  - 구성 오염 제거: 동일한 애플리케이션 초기화 설정을 갖는 작업 제거
  - 평가자 오염 제거: 기존 평가 스크립트와 중복되는 성공 조건과 GT 파일 확인

4.2 확장 가능한 상호작용 인프라 (Scalable Interaction Infrastructure)

[!example] 고처리량 체육관(High-throughput Gymnasium)
연속적, 다양하고 대화형 피드백을 대규모로 생성하는 인프라

2가지 핵심 추상화:

도구(Tools)
- 시스템 이미지와 노출된 상호작용 API를 포함하는 시뮬레이션 환경의 불변 정의
- 수백 개의 서로 다른 환경 유형 지원 (일반 벤치마크부터 전문 에이전트 환경까지)
클러스터(Clusters – 동적 스케일링 유닛)
- 도구의 런타임 인스턴스화를 나타내는 환경 스케일링의 기본 단위
- 디버깅 세션 수십 개부터 동시 훈련 노드 수만 개까지 동적 스케일링 가능

고처리량 오케스트레이션:
– 마이크로서비스 아키텍처로 설계되어 I/O 병목 현상 제거 및 빠른 환경 스케일링 가능
– 비동기 게이트웨이와 분산 스케줄러를 통해 수만 개의 동시 샌드박스 세션 오케스트레이션

고충실도 환경 인스턴스화:
– 하이브리드 가상화: QEMU-KVM 가상화 활용
– 결정론적 환경 보정: 입력 결정론, 렌더링 일관성, 런타임 안정성 보장

4.3 경험 학습을 통한 진화 패러다임 (Evolving Paradigm via Learning from Experience)

반복적 훈련 패러다임:

Cold Start (냉각 시작)
- 다양성 인지 시작을 통해 강력한 사전 설정 확립
- Hindsight Reasoning Generation (후휴지 추론 생성):
  - 목표 명확화 ( $z_{goal}$ )
  - 관찰 일관성 ( $z_{obs}$ )
  - 반사 및 수정 ( $z_{reflect}$ )
  - 추론 증강 종료 ( $z_{T}$ )
Rejection Sampling Fine-Tuning (거부 샘플링 미세 조정)
- 성공 대 실패 궤적 대조를 통해 효과적인 패턴 통합 및 오류 수정
Reinforcement Learning (강화 학습)
- 직접 선호 최적화(Direct Preference Optimization, DPO) 알고리즘 사용
- 경험 풀(Experience Pool) ℬ에서 배치 샘플링하여 θ 지속적 업데이트

정책 업데이트 동적 조절:
– 능력 경계 식별
– 성공 루틴 강화
– 실패 궤적을 오류 분석과 자기 수정을 통해 풍부한 감독으로 변환

5. 주요 결과

주요 성과

[!success] OSWorld 벤치마크 성과
– EvoCUA-32B: 56.7% 성공률 (새로운 오픈 소스 SOTA)
– OpenCUA-72B (이전 최고 오픈 소스): 45.0%
– UI-TARS-2 (최고 폐쇄형 모델): 53.1%

EvoCUA는 이전 최고 오픈 소스 모델보다 +11.7%p, 최고 폐쇄형 모델보다 +3.6%p 향상

스케일링 분석 결과

일반화 가능성: 경험 학습에 의해 구동되는 진화 패러다임은 다양한 규모의 기초 모델에서 일관된 성능 향상 제공
진화 학습의 효과:
- Cold Start → RFT → DPO 순차적 최적화로 점진적 성능 향상
- 경험 풀 크기와 성공률 간의 양의 상관관계

소거 연구 (Ablation Study) 주요 발견

EvoCUA-32B 컴포넌트 분석:
1. 행동 공간 & Cold Start 영향:
– 통합된 네이티브 행동 공간의 중요성 확인
– 다양성 인지 Cold Start가 성능 향상에 기여

진화 학습(RFT & DPO) 효과:
- RFT(Rejection Sampling Fine-Tuning) 단독 사용 시 일부 성능 향상
- DPO(Direct Preference Optimization) 추가 시 큰 폭의 성능 향상
- RFT + DPO 결합 시 최적 성능 달성

OpenCUA-72B 일반화 가능성:
– EvoCUA 접근 방식을 다른 규모의 기초 모델에 적용 시 일관된 성능 향상 확인
– 접근 방식의 확장성과 일반화 가능성 입증

6. 논의 및 해석

4가지 주요 논의

경험의 이중적 특성 (The Dual Nature of Experiences)
- 성공 궤적: 강화되어야 할 패턴 포함
- 실패 궤적: 경계 능력을 식별하고 오류를 수정할 수 있는 풍부한 감독 제공
- 두 유형 모두 학습에 필수적
기초적 제약 및 초기화 (Foundational Constraints and Initialization)
- 모델의 초기 능력이 진화의 상한을 설정
- Cold Start 단계에서 다양성 인지 초기화가 중요
- 기초 모델의 규모가 최종 성능에 영향
반복적 최적화의 역학 (Dynamics of Iterative Optimization)
- 단일 최적화 단계가 아닌, 반복적 진화 과정 필수
- 각 반복에서 정책이 환경과 상호작용하며 새로운 경험 생성
- 경험 풀의 품질과 다양성이 최적화 효율성 결정
시각화 기반 진단 및 반복 (Visualization-Driven Diagnosis and Iteration)
- 궤적 분석과 시각화를 통한 진단 도구 중요
- 실패 패턴, 성공 루틴, 경계 작업 시각화
- 이를 통해 합성 엔진과 정책 최적화 방향성 개선

메인 벤치마크와 오프라인 테스트

온라인 에이전트 평가 (OSWorld-Verified):
– 실제 컴퓨터 환경에서의 직접 테스트
– GUI 작업 수행 능력 평가

오프라인 그라운딩 및 일반 능력:
– 정적 텍스트 작업에 대한 그라운딩 능력
– 다른 벤치마크로의 일반화 가능성 평가

7. 한계 및 제언

현재 한계점

[!warning] 주요 한계
1. 훈련-추론 불일치 (Training-Inference Discrepancy):
– 궤적 수준 훈련 시 발생할 수 있는 불일치 문제
– 훈련 과정과 추론 과정의 행동 선택 차이

단계 수준 정책 최적화 (Step-Level Policy Optimization):

현재는 궤적 수준 최적화에 중점

단계 수준 세분화된 최적화가 추가 성능 향상 가능

시뮬레이션-현실 간격 (Simulation-to-Reality Gap):

샌드박스 환경과 실제 환경 간의 차이

하이브리드 자원 주입으로 완화되지만 완전 해결 불가

계산 자원 요구사항:

수만 개의 동시 샌드박스 세션 운영에 상당한 계산 자원 필요

연구실 환경에서의 재현 난이도

향후 연구 방향 (Future Work)

온라인 에이전트 강화 학습의 미래:
- 훈련-추론 불일치 해결 방안 연구
- 단계 수준 정책 최적화 방법론 개발
- 실시간 학습과 추론의 통합
더 광범위한 환경 지원:
- 모바일 OS, 웹 브라우저 등 다양한 환경 확장
- 크로스 플랫폼 에이전트 능력 개발
메타러닝 및 커리큘럼 학습:
- 자동 커리큘럼 생성 및 최적화
- 메타러닝을 통한 빠른 적응 능력 향상
다중 에이전트 협업:
- 여러 에이전트 간의 협업 메커니즘 개발
- 전문화된 에이전트의 협업 시스템
안전성 및 신뢰성:
- 악의적 입력에 대한 방어 메커니즘
- 안전한 행동 공간 제약 및 검증

📌 3단계: 비판적 평가

방법론적 타당성

[!good] 강점
– 검증 가능한 합성 엔진: “Generation-as-Validation” 패러다임으로 헬루시네이션 문제를 효과적으로 해결. 실행 가능한 검증기를 동반하는 작업 생성으로 감독 신호의 품질 보장
– 확장 가능한 인프라: 수만 개의 동시 샌드박스 세션을 오케스트레이션하는 실용적인 인프라 구현. 산업급 안정성으로 일일 수백만 개의 상호작용 요청 처리
– 반복적 진화 학습: Cold Start → RFT → DPO의 점진적 최적화 과정으로 효율적인 경험 내면화
– 엄격한 품질 보장: 3중 오염 제거, 교차 검증, 수동 스팟 체크 등 다층적 필터링으로 데이터 품질 보장

[!caution] 한계
– 데이터 의존성: 합성 데이터에 의존하므로 실제 환경의 다양성을 완전히 반영하지 못할 수 있음
– 환경 단순화: 샌드박스 환경은 실제 환경보다 단순화될 수 있으며, 시뮬레이션-현실 간격 존재
– 평가 제한: OSWorld 벤치마크에 집중하므로 다른 환경에서의 일반화는 추가 검증 필요

논리적 일관성

[!check] 일관성 평가
– 이론적 정의와 구현의 일치: POMDP 정의와 실제 구현 간의 논리적 일관성 유지. 상태 공간, 관찰, 행동 공간 등의 정의가 구현에 잘 반영됨
– 진화적 접근의 논리적 흐름: 데이터 합성 → 상호작용 인프라 → 정책 최적화로 이어지는 흐름이 논리적으로 타당
– 경험 학습 패러다임의 이론적 뒷받침: 정적 모방에서 경험 학습으로의 전환 필요성을 명확히 설명하고, 실제 구현으로 입증

기여도 평가

[!success] 핵심 기여
1. 새로운 패러다임 제시: 정적 데이터 스케일링에서 경험 스케일링으로의 전환을 제시하고 입증
2. SOTA 성능 달성: OSWorld 벤치마크에서 56.7% 성공률로 오픈 소스 최고 성능 달성
3. 일반화 가능성 입증: 다양한 규모의 기초 모델에서 일관된 성능 향상을 통해 접근 방식의 일반화 가능성 입증
4. 실용적 인프라 구현: 수만 개의 동시 샌드박스 세션을 오케스트레이션하는 확장 가능한 인프라 구현 및 공개
5. 오픈 소스 기여: GitHub, HuggingFace를 통해 모델과 코드 공개, 연구 커뮤니티에 기여

[!info] 상대적 기여
– 기존 방법(OpenCUA, UI-TARS) 대비 상당한 성능 향상 달성
– 하지만 폐쇄형 상용 모델들과의 직접 비교는 어려움
– 컴퓨터 사용 에이전트 분야에서 중요한 발전이지만, AGI까지의 거리는 여전히 멂

실무 적용 포인트

[!tip] 실무 적용 가능성
1. GUI 자동화:
– 복잡한 GUI 작업 자동화 가능
– 반복적인 업무 프로세스 자동화에 활용

소프트웨어 테스팅:

자동화된 테스트 케이스 생성 및 실행

회귀 테스트 자동화

고객 지원:

GUI 기반 문제 해결 자동화

단계별 가이드 생성 및 실행

교육 및 튜토리얼:

사용자 가이드 자동 생성

인터랙티브 튜토리얼 제공

[!warning] 실무 적용 시 고려사항
– 비용: 수만 개의 샌드박스 세션 운영 비용이 높음
– 안전성: 실제 환경에서의 실행 시 안전성 검증 필수
– 신뢰성: 상용 환경에서의 신뢰성 확보 필요
– 맞춤화: 특정 도메인/애플리케이션에 대한 맞춤화 필요

📊 핵심 요약 (One-Page Summary)

문제

네이티브 컴퓨터 사용 에이전트(CUA)의 잠재력이 정적 데이터 스케일링의 제약으로 병목
긴 수평선 컴퓨터 작업의 복잡한 인과적 역학을 포착하는 데 어려움

해결책

EvoCUA: 자기 유지 진화 주기로 데이터 생성과 정책 최적화를 통합하는 네이티브 컴퓨터 사용 에이전트

3가지 핵심 구성요소

검증 가능한 합성 엔진: 실행 가능한 검증기를 동반하는 다양한 작업 자율 생성
확장 가능한 인프라: 수만 개의 비동기 샌드박스 롤아웃 오케스트레이션
반복적 진화 학습: 경험 기반의 효율적인 정책 최적화

결과

OSWorld: 56.7% 성공률 (새로운 오픈 소스 SOTA)
OpenCUA-72B: 45.0% → +11.7%p
UI-TARS-2: 53.1% → +3.6%p

의의

경험 학습에 의해 구동되는 진화 패러다임이 다양한 규모의 기초 모델에서 일관된 성능 향상 제공
네이티브 에이전트 능력을 향상시키는 견고하고 확장 가능한 경로 확립

🏷️ 메타 정보

논문 분류

분야: 인공지능 (Artificial Intelligence)
하위 분야: 멀티모달 AI, 강화 학습, 에이전트 시스템
문서 유형: 연구 논문 (Research Paper)

검증 상태

[x] 기본 정보 수집 완료
[x] 연구 내용 분석 완료
[x] 비판적 평가 완료
[x] 요약 작성 완료

[!quote] 핵심 인용구
“Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle.”

“The evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.”

💡 추가 생각 및 질문

더 깊은 이해를 위한 질문

검증 가능한 합성 엔진이 실제 환경의 다양성을 어느 정도까지 반영할 수 있는가?
샌드박스 환경과 실제 환경 간의 간격을 어떻게 더 좁힐 수 있는가?
진화 학습 과정에서의 수렴 안정성을 어떻게 보장할 수 있는가?
다른 도메인(모바일, 웹 브라우저)으로의 확장 가능성은?

미래 연구와의 연결

이 논문의 접근 방식을 다른 에이전트 유형(예: 코드 생성 에이전트, 데이터베이스 쿼리 에이전트)에 적용할 수 있는가?
다중 모달(비전, 언어, 오디오) 통합 에이전트로의 확장 가능성은?
메타러닝과 커리큘럼 학습을 통합한 자가 개선 에이전트 구축 가능성은?

End of Note 📝