[AI Paper] ๐ CRAG: Comprehensive RAG Benchmark
๐ CRAG: Comprehensive RAG Benchmark
๐ ๋ฉํ ์ ๋ณด
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋ ผ๋ฌธ ์ ๋ชฉ | CRAG — Comprehensive RAG Benchmark |
| ๋ฐํ ์ฐ๋ | 2024 |
| ํํ/์ ๋ | NeurIPS 2024 (Datasets and Benchmarks Track) |
| ์ ์ | Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen ์ธ 21๋ช (์ด 27๋ช ) |
| ์์ | Meta AI, HKUST (GZ) |
| arXiv | 2406.04744 |
| GitHub | facebookresearch/CRAG |
| OpenReview | Q7lAqY41HH |
| KDD Cup 2024 | Meta Comprehensive RAG Benchmark Challenge |
| ๋ผ์ด์ ์ค | CC BY-NC 4.0 |
๐ฏ ํ์ค ์์ฝ
์ค์ QA ํ์คํฌ์ ๋ค์์ฑ๊ณผ ๋์ ํน์ฑ์ ๋ฐ์ํ 4,409๊ฐ QA ์ ๊ธฐ๋ฐ์ ์ข ํฉ์ ์ธ RAG ๋ฒค์น๋งํฌ๋ก, ์ต์ LLM์ด 34% ์ดํ, SOTA RAG ์๋ฃจ์ ๋ 63%์ ์ ํ๋๋ง ๋ฌ์ฑํ๋ฉฐ ์ฌ์ ํ 16-25%์ ํ๊ฐ(hallucination)์ ๋ณด์์ ๋ฐํ.
๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ์ ํ๊ณ์
- ์ ์ ๋ฐ์ดํฐ์
๋ฌธ์
- Natural Questions, TriviaQA, MS MARCO ๋ฑ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ์ ์ ์ธ ์ฌ์ค ๊ธฐ๋ฐ
- ์ค์๊ฐ์ผ๋ก ๋ณํ๋ ์ ๋ณด(์ฃผ๊ฐ, ์คํฌ์ธ ๊ฒฐ๊ณผ ๋ฑ)๋ฅผ ๋ฐ์ํ์ง ๋ชปํจ
- ๋จ์ผ ์์ค ์์กด
- ๋๋ถ๋ถ ์น ๊ฒ์ ๋๋ KG ๊ฒ์ ์ค ํ๋๋ง ๊ณ ๋ ค
- ์ค์ RAG ์์คํ ์ด ์ง๋ฉดํ๋ ๋ค์ค ์์ค ํตํฉ ๋ฌธ์ ๋ฏธ๋ฐ์
- ์ํฐํฐ ์ธ๊ธฐ๋ ํธํฅ
- ์ฃผ๋ก ์ธ๊ธฐ ์๋(head) ์ํฐํฐ์ ์ง์ค
- Long-tail ์ํฐํฐ์ ๋ํ ํ๊ฐ ๋ถ์กฑ
- ์ง๋ฌธ ์ ํ์ ์ ํ
- ๋จ์ ์ฌ์ค ์ง๋ฌธ ์์ฃผ
- ๋น๊ต, ์ง๊ณ, ๋ค์ค ํ ์ถ๋ก ๋ฑ ๋ณต์กํ ์ง๋ฌธ ์ ํ ๋ถ์กฑ
- RAG ํนํ ํ๊ฐ ๋ถ์ฌ
- LLM ๋จ๋ ํ๊ฐ์ RAG ์์คํ ํ๊ฐ์ ์ฐจ๋ณํ ๋ถ์กฑ
- ๊ฒ์ ํ์ง๊ณผ ์์ฑ ํ์ง์ ํตํฉ ํ๊ฐ ๋ฏธํก
์ ์ด ์ฐ๊ตฌ๊ฐ ํ์ํ๊ฐ?
- RAG๊ฐ LLM์ ์ง์ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ ๋งํ ์ ๊ทผ๋ฒ์ผ๋ก ๋ถ์
- ๊ทธ๋ฌ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ก๋ RAG ์์คํ ์ ์ค์ ์ฑ๋ฅ์ ์ ๋๋ก ํ๊ฐํ ์ ์์
- ๋ค์ํ ๋๋ฉ์ธ, ์๊ฐ์ ๋์ ์ฑ, ์ํฐํฐ ์ธ๊ธฐ๋, ์ง๋ฌธ ๋ณต์ก๋๋ฅผ ํฌ๊ดํ๋ ์ข ํฉ์ ๋ฒค์น๋งํฌ ํ์
๐ก ํต์ฌ ์์ด๋์ด
๋์ QA ๋ฒค์น๋งํฌ ์ค๊ณ ์์น
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ CRAG ์ค๊ณ ์์น โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ 1. ์๊ฐ์ ๋์ ์ฑ (Temporal Dynamism) โ
โ - ์ค์๊ฐ ~ ์๋
๋จ์๋ก ๋ณํ๋ ์ ๋ณด ํฌํจ โ
โ โ
โ 2. ์ํฐํฐ ์ธ๊ธฐ๋ ๋ค์์ฑ (Entity Popularity) โ
โ - Head / Torso / Tail ์ํฐํฐ ๊ท ํ ์๊ฒ ํฌํจ โ
โ โ
โ 3. ์ง๋ฌธ ๋ณต์ก๋ ์คํํธ๋ผ (Question Complexity) โ
โ - ๋จ์ ์ฌ์ค๋ถํฐ ๋ค์ค ํ ์ถ๋ก ๊น์ง 8๊ฐ์ง ์ ํ โ
โ โ
โ 4. ๋ค์ค ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง (Domain Coverage) โ
โ - 5๊ฐ ๋๋ฉ์ธ: ๊ธ์ต, ์คํฌ์ธ , ์์
, ์ํ, ๋ฐฑ๊ณผ์ฌ์ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
4,409๊ฐ QA ์ ๊ตฌ์ฑ
- Web ๊ธฐ๋ฐ ์ง๋ฌธ: 2,425๊ฐ (์น ๊ฒ์ ์๋ฎฌ๋ ์ด์ )
- KG ๊ธฐ๋ฐ ์ง๋ฌธ: 1,984๊ฐ (์ง์ ๊ทธ๋ํ ๊ฒ์ ์๋ฎฌ๋ ์ด์ )
- Mock API ์ ๊ณต: ์น ๊ฒ์ ๋ฐ KG ๊ฒ์ ์๋ฎฌ๋ ์ด์
๊ฒ์ ์ปจํ ์ธ ๊ท๋ชจ
- ์น ํ์ด์ง: ์ง๋ฌธ๋น ์ต๋ 50๊ฐ์ ์ ์ฒด HTML ํ์ด์ง
- Mock KG: 260๋ง ๊ฐ ์ํฐํฐ ํฌํจ
- ์ด ์น ํ์ด์ง: ์ฝ 22๋ง ๊ฐ
๐๏ธ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ
1. ์ง๋ฌธ ์ ํ (8๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ)
| ์ ํ | ์ค๋ช | ์์ |
|---|---|---|
| Simple | ๋จ์ ์ฌ์ค ์ง๋ฌธ | “Taylor Swift์ ์๋ ์์ผ์?” |
| Simple w/ Condition | ์กฐ๊ฑด๋ถ ๋จ์ ์ง๋ฌธ | “2023๋ 1์ 15์ผ Apple ์ฃผ๊ฐ๋?” |
| Comparison | ๋ ์ํฐํฐ ๋น๊ต | “Adele๊ณผ Ed Sheeran ์ค ๋๊ฐ ๋จผ์ ๋ฐ๋ทํ๋?” |
| Aggregation | ์ ๋ณด ์ง๊ณ ํ์ | “Leonardo DiCaprio๊ฐ ๋ฐ์ ์ค์ค์นด์ ๊ฐ์๋?” |
| Set | ์งํฉ ํํ ๋ต๋ณ | “๋จ๋ฐ๊ตฌ์ ์๋ ๋๋ฅ๋ค์?” |
| Multi-hop | ๋ค์ค ์ถ๋ก ๋จ๊ณ | “BTS ๋ฆฌ๋์ ์ถ์ ๋์์ ์ธ๊ตฌ๋?” |
| Post-processing | ํ์ฒ๋ฆฌ ํ์ | “์ง๋ 5๋ ๊ฐ ๊ฐ์ฅ ๋ง์ด ์์นํ ์ฃผ์ TOP 3?” |
| False Premise | ์๋ชป๋ ์ ์ ํฌํจ | “2025๋ ์๋์ปต ์ฐ์นํ์?” (๊ฐ์ต ์ ๋จ) |
์ฐธ๊ณ : Simple ๋ฐ Simple w/ Condition ์ง๋ฌธ์ด ์ ์ฒด์ ์ฝ 43%๋ฅผ ์ฐจ์ง
2. ๋๋ฉ์ธ (5๊ฐ ์์ญ)
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๋๋ฉ์ธ๋ณ ํน์ฑ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ ๋น ๋ฅธ ๋ณํ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ ๋๋ฆฐ ๋ณํ โ
โ โ
โ Finance Sports Music Movie Open Domain โ
โ (์ค์๊ฐ) (๋น ๋ฆ) (์ ์ง์ ) (์ ์ง์ ) (์์ ์ ) โ
โ โ
โ - ์ฃผ๊ฐ - ๊ฒฝ๊ธฐ๊ฒฐ๊ณผ - ์จ๋ฒ๋ฐ๋งค - ๊ฐ๋ด์ผ - ์ญ์ฌ์ โ
โ - ํ์จ - ์์ - ํฌ์ด์ผ์ - ์ถ์ฐ์ง - ๊ณผํ์ โ
โ - ์์ฅ๋ํฅ - ์ ์ํต๊ณ - ์์๋ด์ญ - ์์๋ด์ญ - ์ง๋ฆฌ์ โ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
3. ์๊ฐ์ ๋์ ์ฑ (4๋จ๊ณ)
| ๋์ ์ฑ ์์ค | ๋ณํ ์ฃผ๊ธฐ | ์์ |
|---|---|---|
| Real-time | ์ด~๋ถ ๋จ์ | ์ค์๊ฐ ์ฃผ๊ฐ, ์ค์๊ฐ ๊ฒฝ๊ธฐ ์ค์ฝ์ด |
| Fast-changing | ์๊ฐ~์ผ ๋จ์ | ์ผ์ผ ์ฃผ๊ฐ, ๊ฒฝ๊ธฐ ๊ฒฐ๊ณผ |
| Slow-changing | ์~๋ ๋จ์ | ์จ๋ฒ ๋ฐ๋งค, ์ํ ๊ฐ๋ด |
| Stable | ๊ฑฐ์ ๋ถ๋ณ | ์ญ์ฌ์ ์ฌ์ค, ์ง๋ฆฌ ์ ๋ณด |
4. ์ํฐํฐ ์ธ๊ธฐ๋ (3๋จ๊ณ)
| ์ธ๊ธฐ๋ | ์ค๋ช | LLM ํ์ต ๋ฐ์ดํฐ ํฌํจ ๊ฐ๋ฅ์ฑ |
|---|---|---|
| Head | ๋งค์ฐ ์ ๋ช ํ ์ํฐํฐ | ๋์ (์ฌ์ ํ์ต์ ํฌํจ) |
| Torso | ์ค๊ฐ ์ธ๊ธฐ๋ ์ํฐํฐ | ์ค๊ฐ |
| Tail | Long-tail ์ํฐํฐ | ๋ฎ์ (RAG ์์กด ํ์) |
5. KDD Cup 2024 Challenge ๊ตฌ์ฑ
3๊ฐ์ง ํ์คํฌ:
- Task 1: ์น ํ์ด์ง์์ ์ ๋ณด ์์ถํ์ฌ ์ ํํ ๋ต๋ณ ์์ฑ
- Task 2: Mock KG์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ ํตํฉ
- Task 3: ๊ด๋ฒ์ํ ์น ํ์ด์ง์ API์์ ํต์ฌ ๋ฐ์ดํฐ ์ ํ ๋ฐ ํตํฉ
๋ฐ์ดํฐ ๋ถํ :
– Validation: 30%
– Public Test: 30%
– Private Test: 40%
– ์ด 2,706๊ฐ ์์ ๊ฐ validation ๋ฐ public test๋ก ๊ณต์
– ์ด ์๊ธ: USD 31,500
๐ ์คํ ๋ฐ ๊ฒฐ๊ณผ
์ฃผ์ ์คํ ๊ฒฐ๊ณผ
1. LLM ๋จ๋ ์ฑ๋ฅ vs RAG ์ฑ๋ฅ
| ์์คํ | ์ ํ๋ | ํ๊ฐ๋ฅ |
|---|---|---|
| GPT-4 Turbo (LLM only) | โค34% | – |
| GPT-4 Turbo + Naive RAG | 44% | – |
| SOTA Industry RAG | 63% | 16-25% |
| KDD Cup 2024 ์ต๊ณ ์ฑ์ | 51% | 17-25% |
2. ์ํฐํฐ ์ธ๊ธฐ๋๋ณ ์ฑ๋ฅ (GPT-4 Turbo)
์ ํ๋ (Truthfulness)
โ
โ 21% โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ Head
โ 11% โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ Torso
โ 8% โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ Tail
โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๋ฐ๊ฒฌ: RAG ์ถ๊ฐ ์ Torso(+7%), Tail(+6%) ๊ฐ์ ๋๋ Head(-4%) ์ฑ๋ฅ ํ๋ฝ
3. ์๊ฐ์ ๋์ ์ฑ๋ณ ์ฑ๋ฅ
| ๋์ ์ฑ | GPT-4 ์ ํ๋ | ๋น๊ณ |
|---|---|---|
| Fast-changing | <15% | ๊ฐ์ฅ ์ด๋ ค์ |
| Real-time | ๋งค์ฐ ๋ฎ์ | Finance, Sports ๋๋ฉ์ธ |
| Slow-changing | ์ค๊ฐ | – |
| Stable | ์๋์ ์ํธ | – |
4. ์ง๋ฌธ ์ ํ๋ณ ๋์ด๋
๊ฐ์ฅ ์ด๋ ค์ด ์ง๋ฌธ ์ ํ:
– Set ์ง๋ฌธ (์งํฉ ๋ต๋ณ)
– Post-processing ํ์ ์ง๋ฌธ
– False Premise ์ง๋ฌธ
5. ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ
| ๋๋ฉ์ธ | RAG Truthfulness | ํน์ง |
|---|---|---|
| Finance | ๋ฎ์ | ์ค์๊ฐ ๋ฐ์ดํฐ ์์กด |
| Sports | ๋ฎ์ | ๋น ๋ฅธ ๋ณํ |
| Music | ์ค๊ฐ | – |
| Movie | ์ค๊ฐ | – |
| Open | ์๋์ ์ํธ | ์์ ์ ์ ๋ณด |
ํ๊ฐ ์งํ
CRAG๋ ํ๊ฐ(hallucination)๊ณผ ๋ฌด์๋ต(missing)์ ๊ตฌ๋ถ:
– ํ๊ฐ ๋ต๋ณ: ๋ ๋์ ํ๋ํฐ (์ฌ์ฉ์ ์ ๋ขฐ ์์)
– ๋ฌด์๋ต: ์๋์ ์ผ๋ก ๋ฎ์ ํ๋ํฐ
Score = Correct - alpha * Hallucinated - beta * Missing
(alpha > beta, ํ๊ฐ์ ๋ ํฐ ํ๋ํฐ)
์ฐ์ ์ฉ RAG ์๋ฃจ์ ํ๊ฐ
| ์๋ฃจ์ | Truthfulness | ์ง์ฐ ์๊ฐ |
|---|---|---|
| Copilot Pro | ์ต๊ณ (~51%) | ๊ฐ์ฅ ๋์ (~11.6์ด) |
| Perplexity | ์ค์ | ์ค๊ฐ |
| ChatGPT Plus (GPT-4o) | ์ค์ | ์ค๊ฐ |
๐ช ๊ฐ์ ๋ฐ ๊ธฐ์ฌ
ํ์ ์ ๊ธฐ์ฌ
- ์ต์ด์ ์ข
ํฉ์ RAG ๋ฒค์น๋งํฌ
- ์๊ฐ์ ๋์ ์ฑ, ์ํฐํฐ ์ธ๊ธฐ๋, ์ง๋ฌธ ๋ณต์ก๋๋ฅผ ๋ชจ๋ ๊ณ ๋ ค
- ์ค์ RAG ์์คํ ์ ๋์ ๊ณผ์ ๋ฅผ ํ์ค์ ์ผ๋ก ๋ฐ์
- ์๋ก์ด ํ๊ฐ ํจ๋ฌ๋ค์
- ํ๊ฐ๊ณผ ๋ฌด์๋ต์ ์ฐจ๋ณํ๋ ํ๊ฐ
- RAG ํนํ ํ๊ฐ ํ๋ ์์ํฌ ์ ์
- ๋๊ท๋ชจ ์ปค๋ฎค๋ํฐ ๊ฒ์ฆ
- KDD Cup 2024 ์ฑ๋ฆฐ์ง๋ก ์์ฒ ๋ช ์ฐธ๊ฐ
- 31,500 USD ์๊ธ ๊ท๋ชจ
์ค์ฉ์ ๊ธฐ์ฌ
- Mock API ์ ๊ณต
- ์น ๊ฒ์ ๋ฐ KG ๊ฒ์ ์๋ฎฌ๋ ์ด์
- ์ฌํ ๊ฐ๋ฅํ ์คํ ํ๊ฒฝ
- ๋ค์ํ ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง
- ์ฐ์ ๋ณ RAG ์์คํ ํ๊ฐ ๊ฐ๋ฅ
- ๋๋ฉ์ธ ํนํ ๊ฐ์ ์ ์๋ณ
- ์คํ์์ค ๊ณต๊ฐ
- ๋ฐ์ดํฐ์ , ์ฝ๋, ํ๊ฐ ๋๊ตฌ ๋ชจ๋ ๊ณต๊ฐ
- ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ์ ๊ทผ์ฑ ํ๋ณด
์ธ์ฌ์ดํธ ์ ๊ณต
- RAG์ ํ๊ณ ๋ช
ํํ
- ์ต์ SOTA๋ 63% ์ ํ๋, 16-25% ํ๊ฐ๋ฅ
- ํนํ ๋์ ์ ๋ณด, long-tail ์ํฐํฐ์์ ์ทจ์ฝ
- ๊ฐ์ ๋ฐฉํฅ ์ ์
- ์ค์๊ฐ ์ ๋ณด ์ฒ๋ฆฌ ๋ฅ๋ ฅ ๊ฐํ ํ์
- Long-tail ์ํฐํฐ ๊ฒ์ ์ ๋ฐ๋ ํฅ์ ํ์
- ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์ ํ์
โ ๏ธ ํ๊ณ์
๋ฒค์น๋งํฌ ์ค๊ณ ํ๊ณ
- 1๋จ๊ณ ๊ฒ์ ํ๊ฐ ๋ฏธํฌํจ
- ๊ฒ์ ํ๋ณด๊ตฐ ๊ตฌ์ฑ(retrieval candidate pool) ์ง์ ํ๊ฐ ์ ํจ
- KDD Cup 3๊ฐ์ ์ผ์ ๊ณ ๋ คํ ์ค๊ณ ๊ฒฐ์
- ์ฌ์ฉ์๊ฐ 22๋ง ์น ํ์ด์ง๋ฅผ corpus๋ก retriever ๊ตฌ์ถ ๊ฐ๋ฅ
- ์์ด ์ค์ฌ
- ๋ค๊ตญ์ด(multilingual) ์ง์ ๋ฏธํก
- ํฅํ ํ์ฅ ๊ณํ ์ค
- ๋จ์ผ ํด QA ํ์
- ๋ฉํฐํด ๋ํ ์๋๋ฆฌ์ค ๋ฏธํฌํจ
- ์ค์ ์ฌ์ฉ ํจํด๊ณผ ์ฐจ์ด
- ํ
์คํธ ๊ธฐ๋ฐ
- ๋ฉํฐ๋ชจ๋ฌ(์ด๋ฏธ์ง, ๋น๋์ค ๋ฑ) ๋ฏธ์ง์
- ํฅํ ํ์ฅ ๊ณํ ์ค
๋ฐ์ดํฐ ๊ด๋ จ ํ๊ณ
- Mock ๋ฐ์ดํฐ ์์กด
- ์ค์ ๊ฒ์ ์์ง/KG์ ์ฐจ์ด ๊ฐ๋ฅ
- ๊ฒ์ ํ์ง์ ํ์ค์ฑ ์ ํ
- ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ฅธ ์ง๋ถํ
- ์ ๋ต์ด ๋ณํ ์ ์๋ ๋์ ์ง๋ฌธ ์กด์ฌ
- ์ง์์ ์ ๋ฐ์ดํธ ํ์
- ๋๋ฉ์ธ ์ ํ
- 5๊ฐ ๋๋ฉ์ธ์ผ๋ก ํ์
- ์๋ฃ, ๋ฒ๋ฅ ๋ฑ ์ ๋ฌธ ๋๋ฉ์ธ ๋ฏธํฌํจ
ํ๊ฐ ์งํ ํ๊ณ
- Exact Match ๊ธฐ๋ฐ
- ์๋ฏธ์ ์ผ๋ก ๋๋ฑํ ๋ต๋ณ ์ฒ๋ฆฌ ์ด๋ ค์
- ๋ถ๋ถ ์ ๋ต ํ๊ฐ ์ ํ
- ํ๊ฐ ํ์ ๊ธฐ์ค
- ์๋ํ๋ ํ๊ฐ ํ์ง์ ํ๊ณ
- Human evaluation ๋น์ฉ ๋ฌธ์
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
| ๋ฐฉํฅ | ์ค๋ช |
|---|---|
| ๋ค๊ตญ์ด ํ์ฅ | ๋ค์ํ ์ธ์ด์ QA ์ ์ถ๊ฐ |
| ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ | ์ด๋ฏธ์ง, ๋น๋์ค ํฌํจ (CRAG-MM ์งํ ์ค) |
| ๋ฉํฐํด ๋ํ | ๋ํ ์ปจํ ์คํธ์์์ RAG ํ๊ฐ |
| Tail ์ํฐํฐ ๊ฐ์ | Long-tail ์ ๋ณด ๊ฒ์ ์ ํ๋ ํฅ์ |
| ํ๊ฐ ๊ฐ์ | ๋ ๊ฐ๊ฑดํ ๊ทธ๋ผ์ด๋ฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ |
| ์๊ฐ์ ์ถ๋ก ๊ฐํ | ์ค์๊ฐ ์ ๋ณด ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํฅ์ |
๐ ๊ด๋ จ ๋ ผ๋ฌธ
๊ธฐ์กด QA ๋ฒค์น๋งํฌ
| ๋ ผ๋ฌธ | ํน์ง | CRAG์์ ์ฐจ์ด |
|---|---|---|
| Natural Questions (2019) | Google ๊ฒ์ ๋ก๊ทธ ๊ธฐ๋ฐ ์ค์ ์ง๋ฌธ | ์ ์ , ๋จ์ผ ์์ค |
| TriviaQA (2017) | ํธ๋ฆฌ๋น์ ์คํ์ผ, ๋ค์ค ์์ค | ์ ์ , ์ ํ๋ ๋ณต์ก๋ |
| HotpotQA (2018) | ๋ฉํฐํ ์ถ๋ก | ์ ์ , KG ๋ฏธํฌํจ |
| MS MARCO (2016) | ๋๊ท๋ชจ ์ฝ๊ธฐ ์ดํด | ์ ์ , ๋์ ์ฑ ๋ฏธ๊ณ ๋ ค |
| QALD-10 (2013) | KG ๊ธฐ๋ฐ QA | ์น ๊ฒ์ ๋ฏธํฌํจ |
RAG ๊ด๋ จ ์ฐ๊ตฌ
- RAG: Retrieval-Augmented Generation (Lewis et al., 2020)
- REALM (Guu et al., 2020)
- RETRO (Borgeaud et al., 2022)
- Self-RAG (Asai et al., 2023)
ํ๊ฐ ํ๋ ์์ํฌ
- RAGCHECKER (NeurIPS 2024) – RAG ์์คํ ์ธ๋ถํ ํ๊ฐ
- RAGAS – RAG ํ๊ฐ ์๋ํ ํ๋ ์์ํฌ
๐ป ์ค๋ฌด ์ ์ฉ ํฌ์ธํธ
RAG ์์คํ ๊ฐ๋ฐ ์ ๊ณ ๋ ค์ฌํญ
1. ๋์ ์ ๋ณด ์ฒ๋ฆฌ ์ ๋ต
# ์๊ฐ์ ๋์ ์ฑ์ ๋ฐ๋ฅธ ์ฒ๋ฆฌ ์ ๋ต ์์
def get_retrieval_strategy(question_type):
if is_realtime(question_type):
return "live_api_call" # ์ค์๊ฐ API ํธ์ถ
elif is_fast_changing(question_type):
return "cached_with_short_ttl" # ์งง์ TTL ์บ์
elif is_slow_changing(question_type):
return "cached_with_long_ttl" # ๊ธด TTL ์บ์
else:
return "static_knowledge_base" # ์ ์ ์ง์๋ฒ ์ด์ค
2. ์ํฐํฐ ์ธ๊ธฐ๋ ๊ธฐ๋ฐ ๊ฒ์ ์กฐ์
- Head ์ํฐํฐ: LLM ๋ด๋ถ ์ง์ ํ์ฉ ๊ฐ๋ฅ, ๊ฒ์ ๋ณด์กฐ์
- Torso/Tail ์ํฐํฐ: ๊ฒ์ ๊ฒฐ๊ณผ์ ๋ ์์กด, ๊ฒ์ ํ์ง ์ค์
3. ์ง๋ฌธ ์ ํ๋ณ ํ์ดํ๋ผ์ธ ์ค๊ณ
| ์ง๋ฌธ ์ ํ | ๊ถ์ฅ ํ์ดํ๋ผ์ธ |
|---|---|
| Simple | ๋จ์ผ ๊ฒ์ -> ์ง์ ๋ต๋ณ |
| Comparison | ๋ค์ค ๊ฒ์ -> ๋น๊ต ๋ก์ง |
| Aggregation | ๋ค์ค ๊ฒ์ -> ์ง๊ณ ์ฒ๋ฆฌ |
| Multi-hop | ๋ฐ๋ณต ๊ฒ์ -> ์ฒด์ธ ์ถ๋ก |
| False Premise | ์ ์ ๊ฒ์ฆ -> ์กฐ๊ฑด๋ถ ๋ต๋ณ |
4. ํ๊ฐ ๋ฐฉ์ง ์ ๋ต
- ์ถ์ฒ ๋ช ์: ๋ต๋ณ์ ๊ฒ์ ์ถ์ฒ ํฌํจ
- ์ ๋ขฐ๋ ์ ์: ๊ฒ์ ๊ฒฐ๊ณผ ์ ๋ขฐ๋ ๊ธฐ๋ฐ ๋ต๋ณ ์กฐ์
- “๋ชจ๋ฅด๊ฒ ์” ์ต์ : ํ์คํ์ง ์์ ๋ ์ธ์
- Fact-checking: ์์ฑ๋ ๋ต๋ณ ๊ฒ์ฆ ๋จ๊ณ ์ถ๊ฐ
5. ํ๊ฐ ์ฒดํฌ๋ฆฌ์คํธ
[ ] ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ๋ถ๋ฆฌ ์ธก์
[ ] ์๊ฐ์ ๋์ ์ฑ๋ณ ์ฑ๋ฅ ๋ถ์
[ ] ์ํฐํฐ ์ธ๊ธฐ๋๋ณ ์ฑ๋ฅ ๋ถ์
[ ] ์ง๋ฌธ ๋ณต์ก๋๋ณ ์ฑ๋ฅ ๋ถ์
[ ] ํ๊ฐ๋ฅ vs ๋ฌด์๋ต๋ฅ ๊ตฌ๋ถ ์ธก์
[ ] ๊ฒ์ ํ์ง๊ณผ ์์ฑ ํ์ง ๋ถ๋ฆฌ ํ๊ฐ
CRAG ๋ฒค์น๋งํฌ ํ์ฉ ๋ฐฉ๋ฒ
์ค์น ๋ฐ ๋ฐ์ดํฐ ์ ๊ทผ
# GitHub์์ CRAG ํด๋ก
git clone https://github.com/facebookresearch/CRAG.git
cd CRAG
# ๋ฐ์ดํฐ์
๋ค์ด๋ก๋ (๋ผ์ด์ ์ค ๋์ ํ์)
# CC BY-NC 4.0 ๋ผ์ด์ ์ค ํ์ธ
ํ์ฉ ์๋๋ฆฌ์ค
- ์์คํ ํ๊ฐ: ์์ฒด RAG ์์คํ ์ CRAG๋ก ํ๊ฐํ์ฌ ์ฝ์ ํ์
- A/B ํ ์คํธ: ๊ฐ์ ์ ํ CRAG ์ ์ ๋น๊ต
- ๋๋ฉ์ธ ํนํ: ํน์ ๋๋ฉ์ธ subset์ผ๋ก ์ง์ค ํ๊ฐ
- ๊ฒฝ์ ๋ฒค์น๋งํน: ๋ค๋ฅธ ์์คํ ๊ณผ ๊ฐ๊ด์ ๋น๊ต
์ค๋ฌด ์ธ์ฌ์ดํธ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ CRAG์์ ๋ฐฐ์ด ์ค๋ฌด ๊ตํ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ * RAG๊ฐ ํญ์ ๋์์ด ๋์ง ์์ โ
โ - Head ์ํฐํฐ์์ ์คํ๋ ค ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ โ
โ - ์ ์ ํ ๊ฒ์ vs ์ง์ ์์ฑ ํ๋จ ํ์ โ
โ โ
โ * ํ๊ฐ ์ธก์ ์ด ํ์ โ
โ - ์ ํ๋๋ง์ผ๋ก ๋ถ์กฑ, ํ๊ฐ๋ฅ ๋ณ๋ ์ธก์ โ
โ - SOTA๋ 17-25% ํ๊ฐ๋ฅ ์ ์ง โ
โ โ
โ * ๋๋ฉ์ธ๋ณ ์ ๋ต ํ์ โ
โ - Finance/Sports: ์ค์๊ฐ ๋ฐ์ดํฐ ์์ค ํ์ โ
โ - Open Domain: ๊ธฐ์กด ์ง์ ํ์ฉ ๊ฐ๋ฅ โ
โ โ
โ * Long-tail ์ํฐํฐ ํน๋ณ ๊ด๋ฆฌ โ
โ - RAG์ ๊ฐ์ฅ ํฐ ๊ฐ์น๋ Tail ์ํฐํฐ โ
โ - ๊ฒ์ ํ์ง ํฅ์์ด ํต์ฌ โ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๐ท๏ธ Tags
#RAG #Benchmark #NeurIPS2024 #MetaAI #QuestionAnswering #LLM #Retrieval #KnowledgeGraph #Hallucination #TemporalDynamism #EntityPopularity #KDDCup2024 #FactualQA #Evaluation #Dataset