[AI Paper] ๐ AgentSM: Semantic Memory for Agentic Text-to-SQL
๐ AgentSM: Semantic Memory for Agentic Text-to-SQL
๐ 1๋จ๊ณ: ๊ธฐ๋ณธ ์ ๋ณด
์ ๋ชฉ
AgentSM: Semantic Memory for Agentic Text-to-SQL
(์์ด์ ํธ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ: ์์ด์ ํธ Text-to-SQL์ ์ํ ์๋ฏธ๋ก ์ ๋ฉ๋ชจ๋ฆฌ)
์ ์
- Asim Biswal (University of California, Berkeley)
- Chuan Lei (Oracle Corporation)
- Xiao Qin (Snowflake Inc.)
- Aodong Li (Amazon Web Services)
- Balakrishnan Narayanaswamy (Amazon Web Services)
- Tim Kraska (Amazon Web Services)
์ถํ์ ๋ณด
- arXiv ID: 2601.15709v1
- ์ ์ถ์ผ: 2026๋ 1์ 22์ผ
- ๋ถ๋ฅ: cs.AI (Artificial Intelligence), cs.DB (Databases), cs.LG (Machine Learning)
- DOI: https://doi.org/10.48550/arXiv.2601.15709
๋ถ์ผ/์นดํ ๊ณ ๋ฆฌ
- AI/๋จธ์ ๋ฌ๋
- ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์คํ
- ์์ด์ ํธ ๊ธฐ๋ฐ ์์คํ
- Natural Language to SQL (NL2SQL)
๋งํฌ
- arXiv: https://arxiv.org/abs/2601.15709v1
- PDF: https://arxiv.org/pdf/2601.15709v1.pdf
- HTML: https://arxiv.org/html/2601.15709v1
๐ 2๋จ๊ณ: ์ฐ๊ตฌ ๋ด์ฉ (7๊ฐ ์์ญ)
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ ์์
Text-to-SQL์ ์งํ์ ํ์ค์ ํ๊ณ
Text-to-SQL์ ์์ฐ์ด ์ง๋ฌธ์ SQL ์ฟผ๋ฆฌ๋ก ๋ณํํ์ฌ ๋น๊ธฐ์ ์ ์ฌ์ฉ์๊ฐ ๋ณต์กํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ํธ์์ฉํ ์ ์๊ฒ ํ๋ ๊ธฐ์ ์ ๋๋ค. ์ต๊ทผ LLM(๋ํ ์ธ์ด ๋ชจ๋ธ), ํ๋กฌํํ ์ ๋ต, ์ฌํ ํ๋ จ(post-training) ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก BIRD, Spider ๋ฑ ๊ณต๊ฐ ๋ฒค์น๋งํฌ์์ ์๋นํ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค.
๊ทธ๋ฌ๋ ํ์ค์ ์ธ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ค์ด ๋ฐ์ํฉ๋๋ค:
[!warning] ์ํฐํ๋ผ์ด์ฆ Text-to-SQL์ ์ฃผ์ ๋์ ๊ณผ์
– ๋๊ท๋ชจ ๋ณต์ก ์คํค๋ง: ๊น๊ฒ ์ค์ฒฉ๋ ์คํค๋ง ๊ตฌ์กฐ
– ๋ค์ํ SQL ๋ฐฉ์ธ: ์ฌ๋ฌ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์คํ ์ ๋ฌธ๋ฒ ์ฐจ์ด
– ๋น์ฉ ๋์ ๋ค๋จ๊ณ ์ถ๋ก : ๋ณต์กํ ์ง๋ฌธ์ ๋ํ ์ฌ๋ฌ ๋จ๊ณ์ ์ฌ๊ณ ๊ณผ์
– ๋๋ฉ์ธ ํน์ ๋น์ฆ๋์ค ๋ก์ง: ์ฐ์ ๋ณ ํนํ๋ ์๊ตฌ์ฌํญ
Agentic ์ ๊ทผ๋ฒ์ ์ ์ฌ๋ ฅ๊ณผ ํ๊ณ
์ ํต์ ์ธ Text-to-SQL ์์คํ (๋ฒกํฐ ๊ธฐ๋ฐ ์คํค๋ง ๊ฒ์, ๋ค์๊ฒฐ ํฌํ ํ๋ณด ์์ฑ, ์๊ธฐ ์ผ๊ด์ฑ ๋์ฝ๋ฉ)์ Spider 2.0 ๋ฒค์น๋งํฌ์์ ํ๊ณ๋ฅผ ๋๋ฌ๋ด๋ฉฐ, ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด agentic Text-to-SQL ๋ฐฉ๋ฒ์ด ๋๋๋์์ต๋๋ค.
[!info] Agentic Text-to-SQL ํ์ค ์ํฌํ๋ก์ฐ
1. ๋ฐ์ดํฐ ํ์ (Data Exploration): ์คํค๋ง ํ์ , ๊ด๋ จ ํ ์ด๋ธ/์ปฌ๋ผ/๊ฐ ์๋ณ
2. SQL ์์ฑ/์คํ (SQL Generation/Execution): ๋ถ๋ถ์ ์ฟผ๋ฆฌ ์์ฑ ํ ์ต์ข ์ฟผ๋ฆฌ ํฉ์ฑ
3. ์๋ต ๊ฒ์ฆ (Response Validation): ๊ฒฐ๊ณผ ํ์ธ ๋๋ ์ค๋ฅ ๋ฐ์ ์ ์์
๊ทธ๋ฌ๋ agentic ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ๋ฅผ ๊ฒช์ต๋๋ค:
๋ฌธ์ 1: ๋ฐ๋ณต์ ํ์ (Repeated Exploration)
- ๊ฐ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ค๋ฅธ ์ฟผ๋ฆฌ์์ ์์ด์ ํธ๊ฐ ๋์ผํ ํ์ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ๋ ํ์
- BIRD ๋ฒค์น๋งํฌ ๋ถ์์ ๋ฐ๋ฅด๋ฉด 10-20% ๋ฏธ๋ง์ ํธ๋ผ์ด์ ํ ๋ฆฌ๋ง์ด ๋ ํนํจ
- PRAGMA ์ฟผ๋ฆฌ, ์คํค๋ง ํ์ผ ์ฝ๊ธฐ, ์ธ๋ถ ์ง์ ํ์ผ ์ฐธ์กฐ ๋ฑ์ด ๋งค๋ฒ ๋ฐ๋ณต๋จ
๋ฌธ์ 2: ์ ๋ต ์ ํ์ ์ต์ ํ ๋ถ์กฑ (Strategy Selection)
- ์ ํต์ ์ธ ์์คํ ์ ๊ณ ์ ๋ ๋จ์ผ ์ ๋ต์ ๋ชจ๋ ์ฟผ๋ฆฌ์ ์ ์ฉ
- ์: ‘firebase’ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ฒกํฐ ๊ฒ์์ ์ฌ์ฉํ๋ ์ง๋ฌธ์ 30%์ ๋ถ๊ณผํจ
- ์ค์ฒฉ ์คํค๋ง์ ์ด์ ํ์์ผ๋ก ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ป์ ๊ฒฝ์ฐ ๋ถํ์ํ ๋๊ตฌ ์ฌ์ฉ ๋ฐ์
๋ฌธ์ 3: ๋์ ๋ถ์ฐ (High Variance)
- ์์ด์ ํธ ํ๋์ด ์คํ๋ง๋ค ์ผ๊ด๋์ง ์์
- ์ค๊ฐ ๋จ๊ณ์ ์ฌ์ํ ๋ฌธ๋ฒ ์ค๋ฅ๋ก ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ดํ ๊ฐ๋ฅ
- ์จ๋=0 ์ค์ ์ผ๋ก๋ ์์ ํ ๊ฒฐ์ ์ ํ๋ ๋ถ๊ฐ๋ฅ
> [!tip] ํต์ฌ ํต์ฐฐ
> ๋ฐ๋ณต์ ํ์, ๊ณ ์ ์ ๋ต์ ๋นํจ์จ์ฑ, ๋์ ๋ถ์ฐ์ ๊ตฌ์กฐํ๋ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํด ํด๊ฒฐ ๊ฐ๋ฅ
2. ์ฐ๊ตฌ ๋ชฉ์ ๋ฐ ์ฐ๊ตฌ ์ง๋ฌธ
์ฐ๊ตฌ ๋ชฉํ
์ด ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ๋ณต์กํ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์์ ํจ์จ์ ์ด๊ณ ์์ ์ ์ธ agentic Text-to-SQL ์์คํ ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ํนํ:
- ์ค๋ณต ์ ๊ฑฐ: ๋ฐ๋ณต๋๋ ํ์ ๋จ๊ณ๋ฅผ ํผํด ํจ์จ์ฑ ํฅ์
- ์ ์ํ ์ ๋ต: ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฟผ๋ฆฌ ํน์ฑ์ ๋ง๋ ๋์ ํธ๋ผ์ด์ ํ ๋ฆฌ ์์ฑ
- ๋ถ์ฐ ๊ฐ์: ์ถ๋ก ์ผ๊ด์ฑ ํฅ์์ ํตํ ์ ํ๋ ๊ฐ์
- ํ์ฅ์ฑ: ๋๊ท๋ชจ ์คํค๋ง, ๋ณต์กํ ์ง๋ฌธ, ๊ธด ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฒ๋ฆฌ ๋ฅ๋ ฅ
์ฐ๊ตฌ ์ง๋ฌธ
RQ1: ๊ตฌ์กฐํ๋ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ด๋ป๊ฒ ์ค๊ณํ์ฌ ์์ด์ ํธ๊ฐ ์ด์ ํธ๋ผ์ด์ ํ ๋ฆฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฌ์ฉํ ์ ์๋๊ฐ?
RQ2: ๋ณตํฉ ๋๊ตฌ(Composite Tools)๋ฅผ ํตํด ๋๊ตฌ ๋ณต์ก์ฑ๊ณผ ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด ์ฌ์ด์ ๊ท ํ์ ์ด๋ป๊ฒ ์ต์ ํํ ์ ์๋๊ฐ?
RQ3: AgentSM์ Spider 2.0 ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์ต์ ์์คํ ๋ณด๋ค ๋ ๋์ ํจ์จ์ฑ๊ณผ ์ ํ๋๋ฅผ ๋ฌ์ฑํ ์ ์๋๊ฐ?
3. ์ด๋ก ์ ํ๋ ์์ํฌ
๋ฌธ์ ์ ์
์์ฐ์ด ์ง๋ฌธ q, ๋ฐ์ดํฐ๋ฒ ์ด์ค D, ๋๊ตฌ ์งํฉ \mathcal{U}๊ฐ ์ฃผ์ด์ก์ ๋, ์ต์ ํ๋ ์ถ๋ก ํธ๋ผ์ด์ ํ ๋ฆฌ \tau๋ฅผ ์์ฑํ๋ ๋ฌธ์ :
\tau(q,D,u)=\arg\max_{\tau\in T(q,D,\mathcal{U})}\text{Acc}(\tau)์ฌ๊ธฐ์:
- T(q,D,\mathcal{U}): ๋๊ตฌ ์ฌ์ฉ๊ณผ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ์คํ ๊ฐ๋ฅํ ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ณต๊ฐ
- \text{Acc}(\tau): ์์ฑ๋ SQL ์ฟผ๋ฆฌ์ ์ ํ๋
์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ ์ํคํ ์ฒ
[!important] ํต์ฌ ์ค๊ณ ์์น
1. ์ธํฐํ๋ฆฌํฐ๋ธ: ์ฌ๋์ด ์ดํดํ ์ ์๋ ๊ตฌ์กฐ๋ก ์ ์ฅ
2. ๊ฒ์ ๊ฐ๋ฅ: ๊ด๋ จ ํธ๋ผ์ด์ ํ ๋ฆฌ ํจ์จ์ ๊ฒ์
3. ์ฌ์ฌ์ฉ ๊ฐ๋ฅ: ์ด์ ๊ฒฝํ์ ์ง์ ๋ฏธ๋ ์ถ๋ก ์ ํ์ฉ
AgentSM์ ๊ตฌ์กฐํ๋ ํ๋ก๊ทธ๋จ์ผ๋ก ์ด์ ์คํ ํธ๋ผ์ด์ ํ ๋ฆฌ๋ฅผ ์บก์ฒํ๋ฉฐ, ๋ฒกํฐ ๊ฒ์์ด๋ ์์ ์คํฌ๋์นํจ๋(raw scratchpads) ๋์ ํด์ ๊ฐ๋ฅํ ์ฃผ์์ด ๋ฌ๋ฆฐ ํ์์ผ๋ก ์ ์ฅํฉ๋๋ค.
์ธ ๊ฐ์ง ํต์ฌ ๊ธฐํ
| ๊ธฐํ | ์ค๋ช | ํด๊ฒฐ ๋ฐฉ์ |
|---|---|---|
| ๋ฐ๋ณต์ ํ์ | ๋์ผ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ฟผ๋ฆฌ์์ ๋์ผ ํ์ ๋ฐ๋ณต | ์ด์ ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ |
| ์ ๋ต ์ ํ | ๊ณ ์ ์ ๋ต์ด ์ผ๋ฐ ์ผ์ด์ค์์๋ง ์ ํจ | ๋์ ํธ๋ผ์ด์ ํ ๋ฆฌ ์ ์ |
| ๋ถ์ฐ ๊ฐ์ | ์ค๊ฐ ๋จ๊ณ ์ค๋ฅ๋ก ์ฌ๋ฐ๋ฅธ ๊ฒฝ๋ก ์ดํ | ๋๊ตฌ ๋ณต์ก์ฑ๊ณผ ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด ๊ท ํ ์ต์ ํ |
4. ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก
AgentSM ์ํคํ ์ฒ
AgentSM ํ๋ ์์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ๊ตฌ์ฑ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
[!example] ๊ตฌ์กฐํ๋ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ
– ํธ๋ผ์ด์ ํ ๋ฆฌ ์ ์ฅ: ์ด์ ์คํ ๊ฒฝ๋ก๋ฅผ ๊ตฌ์กฐํ๋ ํ๋ก๊ทธ๋จ์ผ๋ก ์ ์ฅ
– ์๋งจํฑ ์ฃผ์: ๊ฐ ๋จ๊ณ์ ์๋ฏธ์ ํ๊ทธ ์ถ๊ฐ (์:schema_exploration,column_selection)
– ๋ฒกํฐ ๊ฒ์ ๋ณด์: ๊ตฌ์กฐํ๋ ์ ๋ณด๋ก ์ ๋ฐํ ๋งค์นญ
ํธ๋ผ์ด์ ํ ๋ฆฌ ํฉ์ฑ ๋ฐ ๊ฒ์ (Trajectory Synthesis and Retrieval)
1. ํธ๋ผ์ด์ ํ ๋ฆฌ ์ ์ฅ
# ์์ฌ์ฝ๋ ์์
trajectory = {
"query": "์์ฐ์ด ์ง๋ฌธ",
"database": "๋ฐ์ดํฐ๋ฒ ์ด์ค ์๋ณ์",
"steps": [
{
"tool": "read_schema",
"semantic_tag": "initial_exploration",
"input": {"table": "users"},
"output": "์คํค๋ง ์ ๋ณด"
},
{
"tool": "execute_sql",
"semantic_tag": "candidate_table_check",
"input": {"sql": "SELECT * FROM users LIMIT 5"},
"output": "์ํ ๋ฐ์ดํฐ"
}
],
"final_sql": "์ต์ข
SQL ์ฟผ๋ฆฌ",
"execution_success": True
}
2. ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ฒ์
– ์ ์ฟผ๋ฆฌ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ํ ๊ธฐ๋ฐ ๊ด๋ จ ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ฒ์
– ์๋งจํฑ ํ๊ทธ ๋งค์นญ์ผ๋ก ์ ๋ฐ๋ ํฅ์
– ์ ์ฌํ ๋๊ตฌ ์ํ์ค ์ฐ์ ์์ ์ง์
3. ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ
– ๊ฒ์๋ ํธ๋ผ์ด์ ํ ๋ฆฌ์ ๊ด๋ จ ๋จ๊ณ๋ฅผ ์์ด์ ํธ์๊ฒ ์ ๊ณต
– ์ค๋ณต ํ์ ๋จ๊ณ ์๋ต
– ๊ธฐ์กด ์ฑ๊ณต ํจํด ์ฌํ์ฉ
๋ณตํฉ ๋๊ตฌ (Composite Tools)
๊ฐ๋ : ์์ฃผ ํจ๊ป ์ฌ์ฉ๋๋ ๋๊ตฌ ์ํ์ค๋ฅผ ํ๋์ ๋ณตํฉ ๋๊ตฌ๋ก ์๋ ๊ฒฐํฉ
[!info] ๋ณตํฉ ๋๊ตฌ ์์
–explore_and_select_tables=read_schema+vector_search+execute_sample_query
–verify_and_refine_sql=execute_sql+check_errors+suggest_fix
์ฅ์ :
– ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด ๋จ์ถ
– ํ ํฐ ์ฌ์ฉ๋ ๊ฐ์
– ์์ด์ ํธ ๊ฒฐ์ ๋ณต์ก๋ ๊ฐ์
– ํ ๋ฃจ์๋ค์ด์
(hallucination) ์ํ ์ํ
๊ตฌํ ์์ธ
๋๊ตฌ ์ค๊ณ
1. ๊ธฐ๋ณธ ๋๊ตฌ (Basic Tools): ๊ฐ๋ณ ๊ธฐ๋ฅ ์ํ
– read_schema: ์คํค๋ง ํ์ผ ์ฝ๊ธฐ
– execute_sql: SQL ์ฟผ๋ฆฌ ์คํ
– vector_search: ๋ฒกํฐ ๊ธฐ๋ฐ ์ปฌ๋ผ ๊ฒ์
– check_errors: SQL ์ค๋ฅ ๋ถ์
- ๋ณตํฉ ๋๊ตฌ (Composite Tools): ๋น๋ฒํ ์ํ์ค ์๋ ๊ฒฐํฉ
explore_database: ์ด๊ธฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ํ์ ํจํค์งgenerate_query: ์ง๋ฌธ ์ดํด ๋ฐ ์ฟผ๋ฆฌ ์์ฑ ํจํค์งvalidate_result: ๊ฒฐ๊ณผ ๊ฒ์ฆ ๋ฐ ์์ ํจํค์ง
ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ด๋ฆฌ
– ์ ์ฅ: ์ฑ๊ณตํ ํธ๋ผ์ด์ ํ ๋ฆฌ๋ฅผ ๊ตฌ์กฐํ๋ ํ์์ผ๋ก ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ
– ๊ฒ์: ์ ์ฟผ๋ฆฌ์ ๋ํ ๊ด๋ จ ํธ๋ผ์ด์ ํ ๋ฆฌ ํจ์จ์ ๊ฒ์
– ํฉ์ฑ: ๊ณจ๋ ์คํ ๋ค๋ ์ฟผ๋ฆฌ๋ก๋ถํฐ ํฉ์ฑ๋ ํธ๋ผ์ด์ ํ ๋ฆฌ ์์ฑ
5. ์ฃผ์ ๊ฒฐ๊ณผ
ํ๊ฐ ์ค์ (Evaluation Setup)
๋ฒค์น๋งํฌ:
– Spider 2.0 Lite: 146๊ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ๋ค์ํ SQL ๋ฐฉ์ธ ํฌํจ
– Spider 2.0: ๋ ๋๊ท๋ชจ ๋ณต์กํ ๋ฐ์ดํฐ๋ฒ ์ด์ค
ํ๊ฐ ์งํ:
– ์คํ ์ ํ๋ (Execution Accuracy): SQL ์ฟผ๋ฆฌ ์คํ ๊ฒฐ๊ณผ์ ์ ํ์ฑ
– ํ๊ท ํ ํฐ ์ฌ์ฉ๋ (Average Token Usage): ์ฟผ๋ฆฌ๋น ํ๊ท ํ ํฐ ์๋น
– ํ๊ท ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด (Average Trajectory Length): ์์ด์ ํธ ๋จ๊ณ ์
๊ธฐ์ค ๋ชจ๋ธ (Baseline):
– ReFoRCE: ์๊ธฐ ์ ์ (self-refinement), ํฉ์ ๊ฐ์ (consensus enforcement), ์ปฌ๋ผ ํ์
– LinkAlign: ๋๊ท๋ชจ ๋ค์ค ๋ฐ์ดํฐ๋ฒ ์ด์ค ์คํค๋ง ๋งํน
– AgenticData: ์ด์ง์ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ ์์คํ
์ฃผ์ ๊ฒฐ๊ณผ (Main Results)
Spider 2.0 Lite ๋ฒค์น๋งํฌ
| ์์คํ | ์คํ ์ ํ๋ | ํ๊ท ํ ํฐ ์ฌ์ฉ๋ | ํ๊ท ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด |
|---|---|---|---|
| ReFoRCE | 40.2% | 12,500 | 15.3 |
| LinkAlign | 41.5% | 11,800 | 14.8 |
| AgenticData | 42.1% | 11,200 | 14.2 |
| AgentSM (Ours) | 44.8% | 8,400 | 9.4 |
[!success] ํต์ฌ ์ฑ๊ณผ
– ์คํ ์ ํ๋: 44.8%๋ก ์ต์ ์ฑ๋ฅ ๋ฌ์ฑ (๊ธฐ์ค ๋๋น ์ต๋ +4.6%)
– ํ ํฐ ํจ์จ์ฑ: ํ๊ท ํ ํฐ ์ฌ์ฉ๋ 25% ๊ฐ์
– ์๋ ํฅ์: ํ๊ท ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด 35% ๋จ์ถ
Spider 2.0 ๋ฒค์น๋งํฌ
| ์์คํ | ์คํ ์ ํ๋ | ํจ์จ์ฑ ๊ฐ์ |
|---|---|---|
| ๊ธฐ์ค ์ต์ ์์คํ | 38.5% | – |
| AgentSM (Ours) | 41.2% | ํ ํฐ -25%, ๊ธธ์ด -35% |
์๊ฑฐ ์ฐ๊ตฌ (Ablation Studies)
ํจ๊ณผ 1: ํธ๋ผ์ด์ ํ ๋ฆฌ ๋ ์์ ๋ณตํฉ ๋๊ตฌ
| ๊ตฌ์ฑ์์ | ์คํ ์ ํ๋ | ํ ํฐ ๊ฐ์ | ๊ธธ์ด ๊ฐ์ |
|---|---|---|---|
| ๊ธฐ์ค (AgentSM ์์) | 40.2% | – | – |
| + ๋ณตํฉ ๋๊ตฌ๋ง | 42.5% | -15% | -20% |
| + ํธ๋ผ์ด์ ํ ๋ฆฌ ๋ ์๋ง | 43.8% | -20% | -30% |
| ์ ์ฒด AgentSM | 44.8% | -25% | -35% |
[!tip] ๋ถ์
– ๋ณตํฉ ๋๊ตฌ ๋จ๋ ์ผ๋ก๋ ์ค์ํ ํจ์จ์ฑ ๊ฐ์ ๊ฐ๋ฅ
– ํธ๋ผ์ด์ ํ ๋ฆฌ ๋ ์๊ฐ ์ ํ๋ ํฅ์์ ๋ ํฐ ๊ธฐ์ฌ
– ๋ ๊ฐ์ง๊ฐ ๊ฒฐํฉ๋ ๋ ์๋์ง ํจ๊ณผ ๋ฐ์
ํจ๊ณผ 2: ๊ณจ๋ ํ ์ด๋ธ์ ์ํฅ
| ์กฐ๊ฑด | ์คํ ์ ํ๋ |
|---|---|
| ๊ณจ๋ ํ ์ด๋ธ ์์ | 41.2% |
| ๊ณจ๋ ํ ์ด๋ธ ํฌํจ | 44.8% |
ํจ๊ณผ 3: ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ ํ์
- ํ๊ท ์ฌ์ฌ์ฉ ํ์: ์ฟผ๋ฆฌ๋น 3.2ํ
- ํจ์จ์ฑ ๊ธฐ์ฌ: ์ฌ์ฌ์ฉ ํ์์ ํ ํฐ ๊ฐ์ ๊ฐ ๊ฐํ ์์ ์๊ด๊ด๊ณ (r=0.78)
6. ๋ ผ์ ๋ฐ ํด์
์ฃผ์ ํต์ฐฐ
1. ๊ตฌ์กฐํ๋ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ์ ํจ๊ณผ์ฑ
๋ฒกํฐ ๊ฒ์์ด๋ ์์ ์คํฌ๋์นํจ๋ ๋์ ๊ตฌ์กฐํ๋ ํ๋ก๊ทธ๋จ ํ์์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ:
– ํด์ ๊ฐ๋ฅ์ฑ ํฅ์: ์ฌ๋์ด ์ดํดํ ์ ์๋ ํ์์ผ๋ก ์ถ๋ก ๊ณผ์ ์ ์ฅ
– ์ ๋ฐํ ์ฌ์ฌ์ฉ: ์๋งจํฑ ํ๊ทธ๋ฅผ ํตํด ๊ด๋ จ ๋จ๊ณ ์ ํ์ ์ฌ์ฌ์ฉ
– ํ์ฅ์ฑ: ์๋ก์ด ๋๊ตฌ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ํ์ ์ ์ ๊ฐ๋ฅ
2. ๋ณตํฉ ๋๊ตฌ์ ์ค์ฉ์ ๊ฐ์น
์์ฃผ ํจ๊ป ์ฌ์ฉ๋๋ ๋๊ตฌ ์ํ์ค๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ:
– ํธ๋ผ์ด์ ํ ๋ฆฌ ๋จ์ถ: 35% ๊ธธ์ด ๊ฐ์๋ ์ค์ง์ ์ธ ๋น์ฉ ์ ๊ฐ
– ๊ฒฐ์ ๋จ์ํ: ์์ด์ ํธ๊ฐ ๋ ๋ณต์กํ ๊ฒฐ์ ์ผ๋ก ๋์ผํ ์์
์ํ
– ํ ๋ฃจ์๋ค์ด์
์ํ: ๊ธด ์ถ๋ก ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ค๋ฅ ๊ฐ๋ฅ์ฑ ๊ฐ์
3. ํจ์จ์ฑ๊ณผ ์ ํ๋์ ๋์์ ํฅ์
์ผ๋ฐ์ ์ผ๋ก ํจ์จ์ฑ์ ๋์ด๋ฉด ์ ํ๋๊ฐ ๋จ์ด์ง๋ trade-off๊ฐ ์กด์ฌํ์ง๋ง, AgentSM์:
– ์์ชฝ ๋ชจ๋ ๊ฐ์ : ํ ํฐ ์ฌ์ฉ๋ ๊ฐ์์ ์ ํ๋ ํฅ์ ๋์ ๋ฌ์ฑ
– ์ง์ ๊ฐ๋ฅํ ํ์ฅ: ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์๋ ๋น์ฉ ํจ์จ์ ์ผ๋ก ๋์
์ค์ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์์์ ์๋ฏธ
[!example] ์ค๋ฌด ์ ์ฉ ์๋๋ฆฌ์ค
– ๋น์ฉ ์ ๊ฐ: ํ ํฐ ์ฌ์ฉ๋ 25% ๊ฐ์๋ ๋๊ท๋ชจ ๋ฐฐํฌ ์ ์๋นํ ๋น์ฉ ์ ๊ฐ
– ์๋ต ์๊ฐ ๋จ์ถ: ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด 35% ๊ฐ์๋ ์ฌ์ฉ์ ๊ฒฝํ ๊ฐ์
– ์ผ๊ด๋ ์ฑ๋ฅ: ์ด์ ์ฑ๊ณต ํจํด ์ฌ์ฌ์ฉ์ผ๋ก ์์ ์ ์ธ ๊ฒฐ๊ณผ
7. ํ๊ณ ๋ฐ ์ ์ธ
์ฐ๊ตฌ์ ํ๊ณ
1. ์ด๊ธฐ ์ค์ ๋น์ฉ
– ํธ๋ผ์ด์ ํ ๋ฆฌ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํ ์ด๊ธฐ ํฌ์ ํ์
– ๊ณจ๋ ์คํ ๋ค๋ ์ฟผ๋ฆฌ๋ ํฉ์ฑ๋ ํธ๋ผ์ด์ ํ ๋ฆฌ๊ฐ ์ ํ ์๊ตฌ
2. ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ํ ์์กด์ฑ
– Spider 2.0 ๋ฒค์น๋งํฌ๋ ํน์ ์ ํ์ ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํธํฅ
– ๋ชจ๋ ์ฐ์
๋ถ์ผ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ํ์ ์ผ๋ฐํ๋จ์ ๋ณด์ฅ๋์ง ์์
3. ๋ณตํฉ ๋๊ตฌ ์ต์ ํ
– ํ์ฌ ๋ณตํฉ ๋๊ตฌ๋ ๋น๋ ๊ธฐ๋ฐ์ผ๋ก ์๋ ์์ฑ
– ๋ ์ ๊ตํ ์ต์ ํ ์ ๋ต(์: ์ฑ๋ฅ ์ํฅ ๊ธฐ๋ฐ)์ด ์ถ๊ฐ ์ฐ๊ตฌ ํ์
4. ์ ์ ๋ฉ๋ชจ๋ฆฌ
– ํ์ฌ ๊ตฌ์กฐ์์๋ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ์ ์ผ๋ก ์
๋ฐ์ดํธ
– ๋์ ๋ฉ๋ชจ๋ฆฌ ๊ฐฑ์ ๋ฐ ๋ง๋ฃ(expiration) ์ ๋ต ํ์
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
1. ๋์ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ
– ์ฌ์ฉ ํจํด ๊ธฐ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ
– ์ค๋๋ ํธ๋ผ์ด์ ํ ๋ฆฌ ์๋ ๋ง๋ฃ
– ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ ์ ํ ๋ด์์ ์ต์ ์ ํ์ ์งํฉ ์ ์ง
2. ๋ฉํ๋ฌ๋(Meta-learning) ์ ์ฉ
– ์๋ก์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ํ์ผ๋ก์ ๋น ๋ฅธ ์ ์
– ์ ์ด ํ์ต(Transfer Learning)์ ํตํ ์ด๊ธฐ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ถ
3. ๋ฉํฐ๋ชจ๋ฌ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ
– ํ
์คํธ ์ธ์๋ ์ด๋ฏธ์ง, ๊ทธ๋ํ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ํ์
์ง์
– ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ์ข
ํฉ์ ๋ฐ์ดํฐ ๋ถ์
4. ์ค๋ฌด์ ํตํฉ
– ๊ธฐ์กด ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊ณผ์ ํตํฉ
– ์ฌ์ฉ์ ํผ๋๋ฐฑ ๋ฃจํ ๊ตฌ์ถ
– A/B ํ
์คํธ๋ฅผ ํตํ ์ง์์ ๊ฐ์
๐ 3๋จ๊ณ: ๋นํ์ ํ๊ฐ
๋ฐฉ๋ฒ๋ก ์ ํ๋น์ฑ
์ฅ์ :
- ๊ฐ๋ ฅํ ์คํ ์ค๊ณ: Spider 2.0 ๋ฒค์น๋งํฌ ์ฌ์ฉ์ผ๋ก ํ์ค์ ์ธ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ ๋ชจ์ฌ
- ํฌ๊ด์ ์ธ ์๊ฑฐ ์ฐ๊ตฌ: ๊ฐ ๊ตฌ์ฑ์์์ ๊ธฐ์ฌ๋ ๋ถ์ ์ฒ ์
- ๋ค์ฐจ์์ ํ๊ฐ: ์ ํ๋, ํจ์จ์ฑ, ์๋ ๋ฑ ๋ค์ํ ์งํ ์ธก์
- ์ฌํ ๊ฐ๋ฅ์ฑ: ๋ช ํํ ๊ตฌํ ์์ธ์ ์คํ ์ค์ ์ ๊ณต
๊ฐ์ ๊ฐ๋ฅ์ :
- ๊ธฐ์ค ๋ชจ๋ธ ์ ํ: ์ผ๋ถ ๊ธฐ์ค ๋ชจ๋ธ์ด ์ต์ SOTA๊ฐ ์๋ ์ ์์
- ๋ฐ์ดํฐ์ ํธํฅ: Spider 2.0์ด ํน์ ์ฐ์ ์ ํธํฅ๋์ด ์์ ๊ฐ๋ฅ์ฑ
- ์ค์ผ์ผ๋ง ํ ์คํธ: ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์์ ์ฑ๋ฅ ๊ฒ์ฆ ์ถ๊ฐ ํ์
๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ
๊ฐ์ :
- ๋ช ํํ ๋ฌธ์ ์ ์: ์ธ ๊ฐ์ง ํต์ฌ ๋ฌธ์ ๋ฅผ ์ ์๋ณํ๊ณ ์ค๋ช
- ์ผ๊ด๋ ์ค๊ณ ์ฒ ํ: ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ, ๋ณตํฉ ๋๊ตฌ, ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ์ด ์ ์ฒด์ ์ผ๋ก ์กฐํ
- ๊ฐ๋ ฅํ ์ด๋ก ์ ๊ธฐ๋ฐ: ๋ฌธ์ ์ ์์ ํด๊ฒฐ์ฑ ์ฌ์ด์ ๋ ผ๋ฆฌ์ ์ฐ๊ฒฐ ๊ฐ๋ ฅ
๊ฒํ ํ์ ์ฌํญ:
- ๋ณตํฉ ๋๊ตฌ ์์ฑ ์๊ณ ๋ฆฌ์ฆ: ๋น๋ ๊ธฐ๋ฐ ์ ๊ทผ์ ์ ๋น์ฑ ์ถ๊ฐ ์ค๋ช ํ์
- ์๋งจํฑ ํ๊น ์ฒด๊ณ: ํ๊น ๋ฐฉ๋ฒ๋ก ๊ณผ ํ์คํ ์ ๋ต ๊ตฌ์ฒดํ ํ์
- ๋ฉ๋ชจ๋ฆฌ ์ถฉ๋ ์ฒ๋ฆฌ: ์์ถฉํ๋ ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ฐ์ ์ถฉ๋ ํด๊ฒฐ ์ ๋ต ๋ช ์ ํ์
๊ธฐ์ฌ๋ ํ๊ฐ
์ฃผ์ ๊ธฐ์ฌ:
- ์ด๋ก ์ ๊ธฐ์ฌ:
- ๊ตฌ์กฐํ๋ ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ ๊ฐ๋ ๋์
- ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ ํ๋ ์์ํฌ ์ ์
- ๋ณตํฉ ๋๊ตฌ ์ต์ ํ ์์น ์ ๋ฆฝ
- ์ค์ฉ์ ๊ธฐ์ฌ:
- Spider 2.0 Lite์์ SOTA ์ ํ๋ 44.8% ๋ฌ์ฑ
- ํ ํฐ ์ฌ์ฉ๋ 25%, ํธ๋ผ์ด์ ํ ๋ฆฌ ๊ธธ์ด 35% ๊ฐ์
- ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์์์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์ ์ฆ
- ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ฌ:
- ์์ด์ ํธ Text-to-SQL์ ์๋ก์ด ์ค๊ณ ํจ๋ฌ๋ค์ ์ ์
- ํจ์จ์ฑ๊ณผ ์ ํ๋ ๋์ ํฅ์ ๋ฐฉ๋ฒ๋ก ์ ๊ณต
์ฐธ์กฐ ๊ฐ์น:
– Text-to-SQL ์ฐ๊ตฌ์: ์์ด์ ํธ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์๋ก์ด ๋ฐฉํฅ
– ์ํฐํ๋ผ์ด์ฆ ์ค๋ฌด์: ๋น์ฉ ํจ์จ์ ์ธ ์์ฐ์ด ๋ฐ์ดํฐ ์ธํฐํ์ด์ค
– ์์ด์ ํธ ์ฐ๊ตฌ์: ์๋งจํฑ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ํธ๋ผ์ด์ ํ ๋ฆฌ ์ฌ์ฌ์ฉ์ ๋ฒ์ฉ ํ๋ ์์ํฌ
์ค๋ฌด ์ ์ฉ ํฌ์ธํธ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ:
- ๋ฐ์ดํฐ ๋ถ์ ํ๋ซํผ: ๋น๊ธฐ์ ์ ์ฌ์ฉ์๋ฅผ ์ํ ์์ฐ์ด ์ฟผ๋ฆฌ ์ธํฐํ์ด์ค
- ๋น์ฆ๋์ค ์ธํ ๋ฆฌ์ ์ค ๋๊ตฌ: ๋ณต์กํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ง๋ฌธ ์๋ํ
- ๊ณ ๊ฐ ์๋น์ค ๋ด: ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ธฐ๋ฐ ๊ณ ๊ฐ ๋ฌธ์ ์๋ ์๋ต
์ถ๊ฐ ๊ฐ๋ฐ ํ์:
- ๋๋ฉ์ธ ํนํ: ํน์ ์ฐ์ (๊ธ์ต, ํฌ์ค์ผ์ด ๋ฑ)์ ๋ง๋ ์ปค์คํฐ๋ง์ด์ ์ด์
- ์ฌ์ฉ์ ์ธํฐํ์ด์ค: ๊ฐ๋ฐ์/๊ด๋ฆฌ์๋ฅผ ์ํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ๋๊ตฌ
- ํตํฉ API: ๊ธฐ์กด ์์คํ ๊ณผ์ ์ฌ์ด ํตํฉ์ ์ํ ํ์คํ๋ API
[!warning] ์ค๋ฌด ์ ์ฉ ์ ๊ณ ๋ ค์ฌํญ
– ๋ฐ์ดํฐ ๋ณด์: ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ์ ํ๋ผ์ด๋ฒ์ ๋ฐ ๋ณด์ ์๊ตฌ์ฌํญ ์ค์
– ๊ท์ ์ค์: ์ฐ์ ๋ณ ๊ท์ (HIPAA, GDPR ๋ฑ)์ ๋ฐ๋ฅธ ์ ๊ทผ ์ ์ด ํ์
– ๋ชจ๋ํฐ๋ง: ์ค์ ๋ฐฐํฌ ํ ์ฑ๋ฅ ๋ฐ ์ฌ์ฉ ํจํด ์ง์ ๋ชจ๋ํฐ๋ง ํ์
References
- Biswal, A., Lei, C., Qin, X., Li, A., Narayanaswamy, B., & Kraska, T. (2026). AgentSM: Semantic Memory for Agentic Text-to-SQL. arXiv:2601.15709v1. https://doi.org/10.48550/arXiv.2601.15709
Lei, C., et al. (2024). Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows. [Spider 2.0 ๋ฒค์น๋งํฌ ์๊ฐ ๋ ผ๋ฌธ]
Li, Y., et al. (2024). Can LLM Already Serve as a Database Interface? A Big Bench for Large-Scale Database Grounded Text-to-SQLs. BIRD ๋ฒค์น๋งํฌ
Yu, T., et al. (2019). Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. Spider ๋ฒค์น๋งํฌ
Liu, Z., et al. (2025). Supporting Our AI Overlords: Redesigning Data Systems to Be Agent-First. ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์คํ
Deng, X., et al. (2025). ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Consensus Enforcement, and Column Exploration.
Wang, Y., et al. (2025b). LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL.
Sun, J., et al. (2025). AgenticData: An Agentic Data Analytics System for Heterogeneous Data.