[AI Paper] ๐ Beyond Pipelines: Model-Native Agentic AI Survey (2025)
๐ Beyond Pipelines: Model-Native Agentic AI Survey (2025)
๐ ๋ฉํ ์ ๋ณด
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ์ ๋ชฉ | Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI |
| ์ ์ | Jitao Sang ์ธ 7์ธ (Beijing Jiaotong University) |
| ์ถํ์ผ | 2025๋ 10์ (arXiv:2510.16720) |
| ๋ฒ์ | v2 (2025.10.26) |
| ๋ถ์ผ | Agentic AI, LLM, Reinforcement Learning |
| arXiv | https://arxiv.org/abs/2510.16720 |
| GitHub | https://github.com/ADaM-BJTU/model-native-agentic-ai |
๐ฏ ํ์ค ์์ฝ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ ๊ตฌ์ถ ํจ๋ฌ๋ค์์ด ์ธ๋ถ ๋ก์ง์ผ๋ก ์กฐ์จ๋๋ Pipeline ๋ฐฉ์์์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๋ด๋ถ์ ์์ด์ ํธ ๋ฅ๋ ฅ์ ๋ด์ฌํํ๋ Model-native ๋ฐฉ์์ผ๋ก ์ ํ๋๊ณ ์์ผ๋ฉฐ, ์ด ๋ณํ์ ํต์ฌ ๋๋ ฅ์ ๊ฐํํ์ต(RL)์ด๋ค.
๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
Agentic AI์ ์๋ก์ด ๊ตญ๋ฉด
- LLM์ด ๋จ์ํ ์๋ตํ๋ ๊ฒ์ ๋์ด ํ๋ํ๊ณ (act), ์ถ๋ก ํ๊ณ (reason), ์ ์ํ๋(adapt) ์๋ก์ด AI ๋ฐ์ ๋จ๊ณ ์ง์
- AI ์์ด์ ํธ๊ฐ ์ค์ธ๊ณ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณต์กํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ์์คํ ์ผ๋ก ์งํ
Pipeline ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ํ๊ณ
| ํ๊ณ์ | ์ค๋ช |
|---|---|
| ๊ฒฝ์ง์ฑ(Rigidity) | ์ฌ์ ์ ์๋ ์ํฌํ๋ก์ฐ์ ๋ฐ๋ผ ์คํ๋์ด ์์์น ๋ชปํ ์ํฉ์ ๋์ ๋ถ๊ฐ |
| ์ทจ์ฝ์ฑ(Brittleness) | ์ธ์ฌํ๊ฒ ์์ง๋์ด๋ง๋ ํ์ดํ๋ผ์ธ์ ๊ณผ๋ํ๊ฒ ์์กด |
| ๋์ ๋น์ฉ | ์ง์ ํ์ํ์ ํ๋กฌํํธ ์ค๊ณ์ ๋ง์ ๋น์ฉ ์์ |
| ์๋์ ์ญํ | LLM์ ๋ฅ๋์ ์์ฌ๊ฒฐ์ ์๊ฐ ์๋ ์๋์ ๋๊ตฌ๋ก ์ทจ๊ธ |
| ์ ์์ฑ ๋ถ์กฑ | ๋์ ์ผ๋ก ๋ณํํ๋ ํ๊ฒฝ์ ์ ์ํ๊ธฐ ์ด๋ ค์ |
๐ก ํต์ฌ ์์ด๋์ด
Pipeline โ Model-native ํจ๋ฌ๋ค์ ์ ํ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ํจ๋ฌ๋ค์ ์ ํ์ ๋ณธ์ง โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ Pipeline-based: LLM + ์ธ๋ถ ๋ชจ๋ ์กฐํฉ (ํ๋กฌํํธ/์ํฌํ๋ก์ฐ ์ฐ๊ฒฐ) โ
โ โ โ
โ Model-native: ๋จ์ผ ํตํฉ ๋ชจ๋ธ (end-to-end ํ์ต์ผ๋ก ๋ฅ๋ ฅ ๋ด์ฌํ) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๊ฐํํ์ต(RL)์ ์ญํ
- ํจ๋ฌ๋ค์ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ์ ์์ง ์ญํ
- ์ ์ ๋ฐ์ดํฐ ๋ชจ๋ฐฉ ํ์ต์์ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ํ์(outcome-driven exploration)์ผ๋ก ์ ํ
- LLM + RL + Task๋ผ๋ ํตํฉ ์๋ฃจ์ ์ ๊ธฐ๋ฐ ์ ๊ณต
- ์ธ์ด, ๋น์ , ์ฒดํ๋(embodied) ๋๋ฉ์ธ ์ ๋ฐ์ ์ ์ฉ
ํต์ฌ ๊ฐ์ค
๊ฐ๋ ฅํ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ต์ข ๊ฒฐ๊ณผ์ ๋ํ ํผ๋๋ฐฑ์ ํตํด ํจ๊ณผ์ ์ธ ์ถ๋ก ์ ์ฑ ์ ์์จ์ ์ผ๋ก ํ์ํ๊ณ ๋ด์ฌํํ ์ ์๋ค.
๐๏ธ ๋ถ๋ฅ ์ฒด๊ณ
1. Pipeline-based Agents
์ธ๋ถ ๋ก์ง๊ณผ ๋ชจ๋์ ํตํด ์์ด์ ํธ ๋ฅ๋ ฅ์ ๊ตฌํํ๋ ๋ฐฉ์
Planning (๊ณํ)
- ํ๋กฌํํธ ๊ธฐ๋ฐ: Chain-of-Thought (CoT), Tree-of-Thought (ToT)
- ์ธ๋ถ ํ๋๋ ํตํฉ: ์ฌ๋ณผ๋ฆญ ํ๋๋, ๊ทธ๋ํ ๊ธฐ๋ฐ ํ๋๋
- ๋ถํด ์ ๋ต: ๋ณต์กํ ์์ ์ ํ์ ์์ ์ผ๋ก ๋ถํด
Tool Use (๋๊ตฌ ์ฌ์ฉ)
- ํ๋ ์์ํฌ: LangChain, ReAct
- ๋๊ตฌ ํธ์ถ: API, ๊ฒ์ ์์ง, ์ฝ๋ ์คํ ํ๊ฒฝ ์ฐ๊ฒฐ
- ํ์ฑ ๊ธฐ๋ฐ: LLM ์ถ๋ ฅ์ ํ์ฑํ์ฌ ๋๊ตฌ ํธ์ถ๋ก ๋ณํ
Memory (๋ฉ๋ชจ๋ฆฌ)
- ์ฌ๋ผ์ด๋ฉ ์๋์ฐ: ์ต๊ทผ ์ปจํ ์คํธ๋ง ์ ์ง
- ์์ฝ ๊ธฐ๋ฐ: ๊ธด ์ปจํ ์คํธ๋ฅผ ์์ฝํ์ฌ ๊ด๋ฆฌ
- RAG (Retrieval-Augmented Generation): ์ธ๋ถ ์ง์ ๋ฒ ์ด์ค ๊ฒ์
2. Model-native Agents
์์ด์ ํธ ๋ฅ๋ ฅ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๋ด๋ถ์ ๋ด์ฌํํ๋ ๋ฐฉ์
Planning (๊ณํ)
- OpenAI o1: ๋๊ท๋ชจ RL์ ํตํด ๊ณํ ๋ฅ๋ ฅ ์ต์ด ๋ด์ฌํ
- DeepSeek R1: ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ๋ณด์๋ง์ผ๋ก ์ถ๋ก /๊ณํ ํ๋ ํ์ต
- ๋จ๊ณ๋ณ ๊ฐ๋ ๋น์ฉ ๋ํญ ์ ๊ฐ
- Outcome reward: ์ต์ข ๋ต์ ์ ํ์ฑ๋ง ๊ฒ์ฆ
Tool Use (๋๊ตฌ ์ฌ์ฉ)
- OpenAI o3: ๋๊ตฌ ์ฌ์ฉ์ ์ถ๋ก ๊ณผ์ ์ ํตํฉ
- Moonshot K2: ๋๊ท๋ชจ ๋๊ตฌ ์ฌ์ฉ ๊ถค์ ํฉ์ฑ + ๋ค๋จ๊ณ RL
- ๋ชจ๋ธ์ด ์ธ์ , ์ด๋ป๊ฒ ๋๊ตฌ๋ฅผ ํธ์ถํ ์ง ์ค์ค๋ก ํ์ต
Memory (๋ฉ๋ชจ๋ฆฌ)
- MemAct: ์ปจํ ์คํธ ๊ด๋ฆฌ๋ฅผ ์์ด์ ํธ๊ฐ ํธ์ถํ๋ ๋๊ตฌ๋ก ์ฌ์ ์
- MemoryLLM: ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ง์ ํ๋ผ๋ฏธํฐํ
- ์ ์ฌ ๋ฉ๋ชจ๋ฆฌ ํ ํฐ์ด forward pass์ ์ผ๋ถ๋ก ์ง์ ์ ๋ฐ์ดํธ
๐ ํจ๋ฌ๋ค์ ๋น๊ต
| ์ธก๋ฉด | Pipeline-based | Model-native |
|---|---|---|
| ์ํคํ ์ฒ | LLM + ์ธ๋ถ ๋ชจ๋ ์กฐํฉ | ๋จ์ผ ํตํฉ ๋ชจ๋ธ |
| ๋ฅ๋ ฅ ์์น | ์ธ๋ถ ์คํฌ๋ฆฝํธ/๋ชจ๋์ ๋ถ์ฐ | ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ๋ด์ฌํ |
| ํ์ต ๋ฐฉ์ | ํ๋กฌํํธ ์์ง๋์ด๋ง, ํ์ธํ๋ | End-to-end RL |
| ์ ์์ฑ | ์ ํ์ (์ฌ์ ์ ์๋ ์ํฌํ๋ก์ฐ) | ๋์ (๊ฒฝํ์ ํตํ ํ์ต) |
| ์ ์ฐ์ฑ | ๋ชจ๋ ๊ต์ฒด๋ก ์ ์ฐ์ฑ ํ๋ณด | ํ์ต๋ ์ ์ฑ ์ผ๋ก ์ ์ฐ์ฑ ํ๋ณด |
| ํด์ ๊ฐ๋ฅ์ฑ | ๋ช ์์ ํ์ดํ๋ผ์ธ์ผ๋ก ์ถ์ ์ฉ์ด | ๋ด๋ถ ํํ ํด์ ํ์ |
| ์ ์ง๋ณด์ | ํ๋กฌํํธ/๋ชจ๋ ํ๋ ํ์ | ์ฌํ์ต์ผ๋ก ๊ฐ์ |
| ํ์ฅ์ฑ | ๋ชจ๋ ์ถ๊ฐ๋ก ๊ธฐ๋ฅ ํ์ฅ | ํ์ต ๋ฐ์ดํฐ/ํ๊ฒฝ ํ์ฅ |
| ๋ํ ์์คํ | LangChain, ReAct, AutoGPT | OpenAI o1/o3, DeepSeek R1, UI-TARS |
๐ช Model-native์ ์ฅ์
1. ํฅ์๋ ์ ์์ฑ
- ์์์น ๋ชปํ ์ํฉ์์๋ ํ์ต๋ ์ ์ฑ ์ผ๋ก ๋์
- ๋์ ์ผ๋ก ๋ณํํ๋ ํ๊ฒฝ์ ์ ์ ๊ฐ๋ฅ
2. ๊ฒฌ๊ณ ์ฑ(Robustness)
- ์ธ๋ถ ๋ชจ๋ ์์กด๋ ๊ฐ์๋ก ์์คํ ์์ ์ฑ ํฅ์
- ๋จ์ผ ๋ชจ๋ธ ๋ด ํตํฉ์ผ๋ก ์ค๋ฅ ์ ํ ์ต์ํ
3. ์ผ๋ฐํ ๋ฅ๋ ฅ
- ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์์ ์ ๊ฑธ์ณ ํ์ต๋ ๋ฅ๋ ฅ ์ ์ด
- ์๋ก์ด ์๋๋ฆฌ์ค์ ๋ํ zero-shot ์ ์ฉ ๊ฐ๋ฅ
4. ํจ์จ์ ํ์ต
- Outcome-based reward: ์ค๊ฐ ๋จ๊ณ ํ๊ฐ ์์ด ์ต์ข ๊ฒฐ๊ณผ๋ก ํ์ต
- DeepSeek R1 ๋ฐฉ์: ๋จ๊ณ๋ณ ๊ฐ๋ ๋น์ฉ ๋ํญ ์ ๊ฐ
5. ์์จ์ ์์ฌ๊ฒฐ์
- ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ณํ, ๋๊ตฌ ํธ์ถ, ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ๊ฒฐ์
- ํ๋ก์กํฐ๋ธํ ์์ด์ ํธ ํ๋ ๊ฐ๋ฅ
โ ๏ธ ๋์ ๊ณผ์
๊ธฐ์ ์ ๋์
- ํ์ต ํจ์จ์ฑ: ๋๊ท๋ชจ RL ํ์ต์ ํ์ํ ์ปดํจํ ์์
- ๋ณด์ ์ค๊ณ: ํจ๊ณผ์ ์ธ outcome-based reward ์ค๊ณ
- ํ์-ํ์ฉ ๊ท ํ: ์๋ก์ด ์ ๋ต ํ์๊ณผ ๊ธฐ์กด ์ง์ ํ์ฉ์ ๊ท ํ
- ์ฅ๊ธฐ ๊ณํ: ๊ธด horizon์์์ ์์ ์ ์ธ ํ์ต
์์ ์ฑ ๋ฐ ์ ๋ ฌ ๋์
- ํ๋ ์์ธก ๋ถ๊ฐ๋ฅ์ฑ: ๋ด์ฌํ๋ ์ ์ฑ ์ ํด์ ์ด๋ ค์
- ์์ ํ ํ์: RL ํ์ ๊ณผ์ ์์์ ์์ ์ฑ ๋ณด์ฅ
- ๋ชฉํ ์ ๋ ฌ: ์์ด์ ํธ ๋ชฉํ์ ์ธ๊ฐ ์๋์ ์ ๋ ฌ
์ค์ฉ์ ๋์
- ๋ฐ์ดํฐ ์๊ตฌ๋: ๋ค์ํ ์ํธ์์ฉ ๋ฐ์ดํฐ ์์ง ํ์
- ํ๊ฒฝ ๊ตฌ์ถ: ํ์ต์ ์ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๊ตฌ์ถ
- ํ๊ฐ ์งํ: Model-native ์์ด์ ํธ ์ฑ๋ฅ ์ธก์ ๋ฐฉ๋ฒ๋ก
๐ฌ ์ฃผ์ ์ฌ๋ก ์ฐ๊ตฌ
Deep Research Agent
- ํน์ง: ์ฅ๊ธฐ ์ถ๋ก (long-horizon reasoning) ๊ฐ์กฐ
- ํจ๋ฌ๋ค์ ์ ํ: ์ธ๋ถ ๊ฒ์/์์ฝ ๋ชจ๋ โ ๋ด์ฌํ๋ ์ฐ๊ตฌ ๋ฅ๋ ฅ
- ์์: OpenAI์ research agent ๊ธฐ๋ฅ
GUI Agent
- ํน์ง: ์ฒดํ๋ ์ํธ์์ฉ(embodied interaction) ๊ฐ์กฐ
- UI-TARS (ByteDance):
- End-to-end ํ์ต์ผ๋ก ์๊ฐ์ /UI ์ปจํ ์คํธ์์ ์ ์์ค ํ๋ ์์ธก
- GPT-4o, Claude, Gemini๋ณด๋ค ํน์ ๋ฒค์น๋งํฌ์์ ์ฐ์
- GUI-Owl, OpenCUA:
- RL๋ก GUI ๊ณํ ๋ฐ ์คํ ์์ ๋ด์ฌํ
- Outcome-based reward๋ก ์ฅ๊ธฐ horizon ์ต์ ํ
๐ฎ ๋ฏธ๋ ๋ฐฉํฅ
1. Multi-agent Collaboration์ ๋ด์ฌํ
- ํ์ฌ: ์ธ๋ถ ํ๋กํ ์ฝ๋ก ์์ด์ ํธ ๊ฐ ํ๋ ฅ ์กฐ์จ
- ๋ฏธ๋: ํ๋ ฅ ๋ฅ๋ ฅ ์์ฒด๋ฅผ ๋ชจ๋ธ์ ๋ด์ฌํ
2. Reflection ๋ฅ๋ ฅ์ ๋ด์ฌํ
- ์๊ธฐ ํ๊ฐ ๋ฐ ๊ฐ์ ๋ฅ๋ ฅ์ ํ์ต
- ๋ฉํ์ธ์ง์ ๋ฅ๋ ฅ์ ๋ชจ๋ธ ํตํฉ
3. System Layer vs Model Layer์ ์ญํ ์งํ
- ์์คํ ๋ ์ด์ด: ์ธํ๋ผ, ์์ ์ฑ, ์ธํฐํ์ด์ค ๋ด๋น
- ๋ชจ๋ธ ๋ ์ด์ด: ํต์ฌ ์์ด์ ํธ ๋ฅ๋ ฅ ๋ด๋น
- ๋ ๋ ์ด์ด ๊ฐ ์ฑ ์ ๋ถ๋ด์ ์งํ
4. ํตํฉ ํ์ต ํ๋ ์์ํฌ
- LLM + RL + Task: ํตํฉ๋ ํ์ต ์๋ฃจ์
- ๋ค์ํ ๋๋ฉ์ธ(์ธ์ด, ๋น์ , ์ฒดํ)์ ๊ฑธ์น ์ ์ฉ
๐ ๊ด๋ จ ๋ ผ๋ฌธ
ํต์ฌ ์ฐธ์กฐ ๋ ผ๋ฌธ
| ๋ ผ๋ฌธ | ๊ธฐ์ฌ |
|---|---|
| OpenAI o1 | RL์ ํตํ ๊ณํ ๋ฅ๋ ฅ ์ต์ด ๋ด์ฌํ |
| DeepSeek R1 | Outcome-based reward๋ง์ผ๋ก ์ถ๋ก ํ์ต |
| OpenAI o3 | ๋๊ตฌ ์ฌ์ฉ์ ์ถ๋ก ๊ณผ์ ์ ํตํฉ |
| UI-TARS | End-to-end GUI ์์ด์ ํธ |
| MemAct | ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ๋๊ตฌํ |
| MemoryLLM | ๋ฉ๋ชจ๋ฆฌ์ ํ๋ผ๋ฏธํฐํ |
๊ด๋ จ ์๋ฒ ์ด
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey (2025)
- Memory in the Age of AI Agents (2025)
- Multi-Agent Collaboration Mechanisms: A Survey of LLMs (2025)
๐ป ์ค๋ฌด ์์ฌ์
์์ด์ ํธ ์์คํ ์ค๊ณ ์ ๊ณ ๋ ค์ฌํญ
- ํจ๋ฌ๋ค์ ์ ํ ๊ธฐ์ค
- ํด์ ๊ฐ๋ฅ์ฑ/์ ์ด ์ค์ โ Pipeline-based ์ ์ง
- ์ ์์ฑ/๊ฒฌ๊ณ ์ฑ ์ค์ โ Model-native ์ ํ ๊ฒํ
- ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ
- ์์ ํ ์ ํ๋ณด๋ค ์ ์ง์ ๋ด์ฌํ ๊ณ ๋ ค
- ํต์ฌ ๋ฅ๋ ฅ๋ถํฐ ๋จ๊ณ์ ์ผ๋ก Model-nativeํ
- RL ๋์
์ ๋ต
- Outcome-based reward๋ก ๊ฐ๋ ๋น์ฉ ์ ๊ฐ
- ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์์ ํ ํ์
ํ๋ ์์ํฌ ์ ํ ๊ฐ์ด๋
| ์ํฉ | ๊ถ์ฅ ์ ๊ทผ๋ฒ |
|---|---|
| ๋น ๋ฅธ ํ๋กํ ํ์ดํ | LangChain, ReAct (Pipeline) |
| ๋ณต์กํ ์ํฌํ๋ก์ฐ | LangGraph (Pipeline) |
| ๋์ ์ ์์ฑ ํ์ | Model-native ๋๋ ํ์ด๋ธ๋ฆฌ๋ |
| ๋ฆฌ์์ค ์ ํ | Pipeline-based |
| ์ฅ๊ธฐ ํฌ์ ๊ฐ๋ฅ | Model-native ์ฐ๊ตฌ/๊ฐ๋ฐ |
์ฃผ์ ํธ๋ ๋ ๋ชจ๋ํฐ๋ง
- OpenAI, DeepSeek ๋ฑ์ reasoning model ๋ฐ์
- GUI/Embodied agent์ end-to-end ํ์ต ์ง์
- Multi-modal agentic AI ๋ฐ์
- ์์ ํ RL ํ์ ๊ธฐ๋ฒ ๋ฐ์
๐ ํต์ฌ ๊ฐ๋ ์ฉ์ด์ง
| ์ฉ์ด | ์ ์ |
|---|---|
| Agentic AI | ํ๋ํ๊ณ , ์ถ๋ก ํ๊ณ , ์ ์ํ๋ AI ์์คํ |
| Pipeline-based | ์ธ๋ถ ๋ก์ง/๋ชจ๋๋ก ์์ด์ ํธ ๋ฅ๋ ฅ์ ์กฐ์จํ๋ ๋ฐฉ์ |
| Model-native | ์์ด์ ํธ ๋ฅ๋ ฅ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ ๋ด์ฌํํ๋ ๋ฐฉ์ |
| Outcome-based reward | ์ต์ข ๊ฒฐ๊ณผ์ ์ ํ์ฑ๋ง์ผ๋ก ๋ณด์์ ์ ๊ณตํ๋ ๋ฐฉ์ |
| End-to-end learning | ์ ๋ ฅ์์ ์ถ๋ ฅ๊น์ง ์ ์ฒด๋ฅผ ํตํฉ ํ์ตํ๋ ๋ฐฉ์ |
๐ท๏ธ Tags
#AI-Agent #LLM #Reinforcement-Learning #Model-Native #Pipeline #Survey #DeepSeek-R1 #OpenAI-o1 #Planning #Tool-Use #Memory #GUI-Agent #2025 #Paradigm-Shift #End-to-End-Learning