[AI Paper] ๐ RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems
๐ RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems
๐ ๋ฉํ ์ ๋ณด
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ์ ์ | Robert Friel, Masha Belyi, Atindriyo Sanyal |
| ์์ | Galileo Technologies Inc. |
| ๋ฐํ์ผ | 2024๋ 7์ 15์ผ (arXiv) |
| ์ต์ ๋ฒ์ | v2 (2025๋ 1์ 16์ผ) |
| arXiv | 2407.11005 |
| ๋ฐ์ดํฐ์ | HuggingFace – rungalileo/ragbench |
| GitHub | rungalileo/ragbench |
๐ฏ ํ์ค ์์ฝ
100,000๊ฐ ์์ ๋ฅผ ํฌํจํ ์ต์ด์ ๋๊ท๋ชจ RAG ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ๊ณผ ์ค๋ช ๊ฐ๋ฅํ TRACe ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, RAG ์์คํ ์ ์ฒด๊ณ์ ์ด๊ณ ์ผ๊ด๋ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ.
๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ธฐ์กด RAG ํ๊ฐ์ ๋ฌธ์ ์
- ํต์ผ๋ ํ๊ฐ ๊ธฐ์ค ๋ถ์ฌ
- ๋ค์ํ RAG ํ๊ฐ ํ๋ ์์ํฌ๋ค์ด ์๋ก ๋ค๋ฅธ ๋ฉํธ๋ฆญ๊ณผ ์ ์๋ฅผ ์ฌ์ฉ
- ์์คํ ๊ฐ ์ฒด๊ณ์ ์ธ ๋น๊ต๊ฐ ์ด๋ ค์
- ์ฃผ์์ด ๋ฌ๋ฆฐ ๋ฐ์ดํฐ์
๋ถ์กฑ
- ๋๊ท๋ชจ์ ํ์คํ๋ RAG ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ด ์กด์ฌํ์ง ์์
- ์ค์ ์ฐ์ ํ๊ฒฝ์ ๋ฐ์ํ ๋ฐ์ดํฐ ๋ถ์กฑ
- ๊ธฐ์กด ํ๊ฐ ๋ฐฉ๋ฒ์ ํ๊ณ
- LLM ๊ธฐ๋ฐ ํ๊ฐ์์ ์์ ์ฑ ๋ฐ ์ ๋ขฐ์ฑ ๋ฌธ์
- ํ๊ฐ ๊ฒฐ๊ณผ์ ์ค๋ช ๊ฐ๋ฅ์ฑ(Explainability) ๋ถ์กฑ
- ์ฐ์
์ ์ฉ์ฑ ๋ถ์กฑ
- ๊ธฐ์กด ๋ฒค์น๋งํฌ๊ฐ ์ค์ ์ฐ์ ๋๋ฉ์ธ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํจ
๐ก ํต์ฌ ์์ด๋์ด
100K ์์ ๋ฐ์ดํฐ์ ์ ํน์ง
RAGBench๋ 12๊ฐ์ ๊ฐ๋ณ QA ๋ฐ์ดํฐ์ ์ ํตํฉํ์ฌ ๊ตฌ์ฑ๋จ:
| ๋ฐ์ดํฐ์ | ๋๋ฉ์ธ | ์์ ์ | ํน์ง |
|---|---|---|---|
| CovidQA | ์๋ฃ/๋ฐ์ด์ค | 1.77k | COVID-19 ๊ด๋ จ ๋ค์ค ๋ฌธ์ ์ถ๋ก |
| PubMedQA | ์๋ฃ/๋ฐ์ด์ค | 24.5k | ์ํ ๋ ผ๋ฌธ ๊ธฐ๋ฐ QA |
| HotpotQA | ์ผ๋ฐ ์ง์ | 2.7k | ๋ค์ค ํ ์ถ๋ก ํ์ |
| MS Marco | ์ผ๋ฐ ์ง์ | 2.69k | ์น ๊ฒ์ ๊ธฐ๋ฐ QA |
| CUAD | ๋ฒ๋ฅ | 2.55k | ๋ฒ๋ฅ ๊ณ์ฝ์ ๋ถ์ (๊ธด ๋ฌธ๋งฅ) |
| EManual | ๊ณ ๊ฐ ์ง์ | 1.32k | ์ฌ์ฉ์ ๋งค๋ด์ผ ๊ธฐ๋ฐ |
| TechQA | ๊ณ ๊ฐ ์ง์ | 1.81k | ๊ธฐ์ ์ง์ ๋ฌธ์ |
| FinQA | ๊ธ์ต | 16.6k | ์ฌ๋ฌด ๋ณด๊ณ ์ ์์น ์ถ๋ก |
| TAT-QA | ๊ธ์ต | 33.1k | ํ ์ด๋ธ+ํ ์คํธ ํ์ด๋ธ๋ฆฌ๋ ์ถ๋ก |
| ExpertQA | ์ ๋ฌธ ์ง์ | 2.03k | ์ ๋ฌธ๊ฐ ์์ฑ QA |
| HAGRID | ์ผ๋ฐ ์ง์ | 4.53k | ์ธ์ฉ ๊ธฐ๋ฐ QA |
| DelucionQA | ๊ณ ๊ฐ ์ง์ | 1.83k | ํ๊ฐ ํ์ง์ฉ (์๋ ์์ฑ) |
5๊ฐ ์ฐ์ ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง
- ์๋ฃ/๋ฐ์ด์ค๋ฉ๋์ปฌ: CovidQA, PubMedQA
- ๋ฒ๋ฅ : CUAD
- ๊ณ ๊ฐ ์ง์: EManual, TechQA, DelucionQA
- ๊ธ์ต: FinQA, TAT-QA
- ์ผ๋ฐ ์ง์: HotpotQA, MS Marco, HAGRID, ExpertQA
๋ฐ์ดํฐ์ ๋ถํ
- ํ๋ จ ์ธํธ: 78,000 ์์
- ๊ฒ์ฆ ์ธํธ: 12,000 ์์
- ํ ์คํธ ์ธํธ: 11,000 ์์
- ์ฟผ๋ฆฌ ๊ธฐ์ค ์๊ฒฉํ ๋ถ๋ฆฌ ์ ์ฉ
๐๏ธ TRACe ๋ฉํธ๋ฆญ ์์ธ
TRACe๋ uTilization, Relevance, Adherence, Completeness์ ์ฝ์๋ก, RAG ์์คํ ์ ํ์ง์ ์ค๋ช ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ํ๊ฐํจ.
1. Context Relevance (๋ฌธ๋งฅ ๊ด๋ จ์ฑ) – Retriever ํ๊ฐ
์ ์: ๊ฒ์๋ ๋ฌธ์๊ฐ ์ง๋ฌธ์ ์ผ๋ง๋ ์ ์ ํ๊ฐ?
- ํ๊ฐ ๋์: Retriever ์ปดํฌ๋ํธ
- ์ธก์ ๋ด์ฉ: ๊ฒ์ ์์คํ ์ด ์ฌ๋ฐ๋ฅธ ์ ๋ณด๋ฅผ ๊ฐ์ ธ์๋์ง ํ๊ฐ
- ํต์ฌ ์ง๋ฌธ: “๊ฒ์๋ ๋ฌธ๋งฅ์ด ์ง๋ฌธ์ ๋ตํ๋ ๋ฐ ํ์ํ ์ ๋ณด๋ฅผ ํฌํจํ๋๊ฐ?”
2. Context Utilization (๋ฌธ๋งฅ ํ์ฉ๋) – Generator ํ๊ฐ
์ ์: ์์ฑ๊ธฐ๊ฐ ๊ฒ์๋ ๋ฌธ์๋ฅผ ์ผ๋ง๋ ์ ํ์ฉํ๋๊ฐ?
- ํ๊ฐ ๋์: Generator ์ปดํฌ๋ํธ
- ์ธก์ ๋ด์ฉ: ์ ๊ณต๋ ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ์ค์ ๋ก ์๋ต ์์ฑ์ ์ฌ์ฉ๋์๋์ง ํ๊ฐ
- ํต์ฌ ์ง๋ฌธ: “์ฑ๋ด์ด ๊ฒ์๋ ์ ๋ณด๋ฅผ ์ค์ ๋ก ํ์ฉํ๋๊ฐ?”
3. Response Adherence (์๋ต ์ค์๋) – Generator ํ๊ฐ
์ ์: ์๋ต์ด ๊ฒ์๋ ๋ฌธ๋งฅ์ ์ ๋ณด์ ์ถฉ์คํ๊ฐ?
- ํ๊ฐ ๋์: Generator ์ปดํฌ๋ํธ (ํ๊ฐ ํ์ง)
- ์ธก์ ๋ด์ฉ: ์๋ต์ด ์ ๊ณต๋ ๋ฌธ๋งฅ์ ๊ทผ๊ฑฐํ๋์ง ๋๋ ํ๊ฐ์ ํฌํจํ๋์ง ํ๊ฐ
- ํต์ฌ ์ง๋ฌธ: “์ฑ๋ด์ด ์ฌ์ค์ ๊ธฐ๋ฐํ๋๊ฐ, ์๋๋ฉด ์ ๋ณด๋ฅผ ์ง์ด๋๋๊ฐ?”
- ๊ตฌํ ๋ฐฉ์: ์๋ต์ ๊ฐ ๋ฌธ์ฅ์ด ๋ฌธ๋งฅ์ ์ํด ์ง์ง๋๋์ง ํ์ธ
4. Response Completeness (์๋ต ์์ ์ฑ) – Generator ํ๊ฐ
์ ์: ์๋ต์ด ์ง๋ฌธ์ ์์ ํ ๋ตํ๋๊ฐ?
- ํ๊ฐ ๋์: Generator ์ปดํฌ๋ํธ
- ์ธก์ ๋ด์ฉ: ์ง๋ฌธ์ ๋ํ ๋ชจ๋ ํ์ํ ์ ๋ณด๊ฐ ์๋ต์ ํฌํจ๋์๋์ง ํ๊ฐ
- ํต์ฌ ์ง๋ฌธ: “๋ต๋ณ์ด ์ง๋ฌธ์ ๋ชจ๋ ์ธก๋ฉด์ ๋ค๋ฃจ์๋๊ฐ?”
TRACe ํ๋ ์์ํฌ ๊ตฌ์กฐ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ RAG System โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ Query โ [Retriever] โ Context โ [Generator] โ Response โ
โ โ โ โ
โ Relevance Utilization โ
โ Adherence โ
โ Completeness โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๊ธฐ์ ์ ๊ตฌํ
- DeBERTa ๋ชจ๋ธ์ ๊ฐ TRACe ๋ฉํธ๋ฆญ์ ์ํ ์์ ์์ธก ํค๋ ์ถ๊ฐ
- ๋จ์ผ ์์ ํ(forward pass)๋ก ๋ชจ๋ ๋ฉํธ๋ฆญ ์์ธก ๊ฐ๋ฅ
- ๋ฌธ๋งฅ ํ ํฐ: Relevance, Utilization ํ๋ฅ ์ถ์
- ์๋ต ํ ํฐ: Adherence ํ๋ฅ ์ถ์
๐ ์คํ ๋ฐ ๊ฒฐ๊ณผ
์ฃผ์ ์คํ ์ค์
ํ๊ฐ ๋์ ์์คํ
:
– LLM Judges: GPT-3.5, GPT-4
– ๊ธฐ์กด ํ๋ ์์ํฌ: RAGAS, TruLens
– Fine-tuned ๋ชจ๋ธ: DeBERTa-v3-Large (400M ํ๋ผ๋ฏธํฐ)
ํต์ฌ ์คํ ๊ฒฐ๊ณผ
ํ๊ฐ ํ์ง (Adherence) ์ฑ๋ฅ – AUROC
| ๋ฐ์ดํฐ์ | DeBERTa | RAGAS | TruLens |
|---|---|---|---|
| TechQA | 0.86 | 0.57 | 0.70 |
| ์ ์ฒด ๋ฒ์ | 0.64-0.86 | – | – |
์ฃผ์ ๋ฐ๊ฒฌ์ฌํญ
- Small ๋ชจ๋ธ์ ์ฐ์์ฑ
- 400M ํ๋ผ๋ฏธํฐ DeBERTa ๋ชจ๋ธ์ด ์์ญ์ต ํ๋ผ๋ฏธํฐ LLM Judge๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ
- ํนํ๋ ํ๋ จ ๋ฐ์ดํฐ์ ๊ฐ์น ์ ์ฆ
- Context Relevance์ ๋์ด๋
- ๋ชจ๋ ๋ชจ๋ธ์์ Context Relevance ์ถ์ ์ด ๊ฐ์ฅ ์ด๋ ค์
- ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํ ํน์ ์ ๋ณด ํฌํจ ์ฌ๋ถ ํ๋จ์ ๋ณต์ก์ฑ
- ๋๋ฉ์ธ๋ณ ํ๊ฐ ๋น์จ ์ฐจ์ด
- ๋์ ํ๊ฐ๋ฅ : ExpertQA (12%), CovidQA (16%), MS Marco (13%)
- ๋ฎ์ ํ๊ฐ๋ฅ : CUAD, FinQA, TAT-QA (๊ฐ ์ฝ 1%)
- Ground Truth์์ ๊ฒฉ์ฐจ
- ์ต๊ณ ์ฑ๋ฅ ํ๊ฐ์์ Ground Truth ์ฌ์ด์ ์ฌ์ ํ ์๋นํ ๊ฒฉ์ฐจ ์กด์ฌ
๐ช ๊ฐ์ ๋ฐ ๊ธฐ์ฌ
1. ์ต์ด์ ๋๊ท๋ชจ RAG ๋ฒค์น๋งํฌ
- 100,000๊ฐ ์์ ๋ก ๊ตฌ์ฑ๋ ์ต์ด์ ํฌ๊ด์ RAG ๋ฒค์น๋งํฌ
- 5๊ฐ ์ฐ์ ๋๋ฉ์ธ, 12๊ฐ ๋ฐ์ดํฐ์ ํตํฉ
2. ์ค๋ช ๊ฐ๋ฅํ ํ๊ฐ ํ๋ ์์ํฌ
- TRACe์ 4๊ฐ์ง ๋ฉํธ๋ฆญ์ด Retriever์ Generator๋ฅผ ๋ถ๋ฆฌํ์ฌ ํ๊ฐ
- ๊ฐ ๋ฉํธ๋ฆญ์ด ๊ตฌ์ฒด์ ์ธ ๊ฐ์ ๋ฐฉํฅ ์ ์
3. ์ค์ฉ์ ์ฐ์ ์ ์ฉ์ฑ
- ์ฌ์ฉ์ ๋งค๋ด์ผ, ๊ธฐ์ ๋ฌธ์ ๋ฑ ์ค์ ์ฐ์ ๋ฐ์ดํฐ ํ์ฉ
- ๊ณ ๊ฐ ์ง์, ๊ธ์ต, ๋ฒ๋ฅ ๋ฑ ์ค์ RAG ์ ์ฉ ๋ถ์ผ ๋ฐ์
4. ํจ์จ์ ์ธ ํ๊ฐ ๋ชจ๋ธ ์ ์
- 400M DeBERTa๊ฐ billion-scale LLM๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ
- ๋น์ฉ ํจ์จ์ ์ธ RAG ํ๊ฐ ๊ฐ๋ฅ
5. ํ ํฐ ๋ ๋ฒจ ์ฃผ์
- ๋จ์ ์ ์๊ฐ ์๋ ํ ํฐ/์คํฌ ๋ ๋ฒจ์ ์์ธ ์ฃผ์ ์ ๊ณต
- ๋๋ฒ๊น ๋ฐ ๊ฐ์ ์ ์ค์ง์ ๋์
6. ์คํ์์ค ๊ณต๊ฐ
- ๋ฐ์ดํฐ์ ๊ณผ ์ฝ๋ ์ ์ฒด ๊ณต๊ฐ
- ์ฌํ ๊ฐ๋ฅํ ์ฐ๊ตฌ ์ง์
โ ๏ธ ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ
๋ ผ๋ฌธ์์ ์ธ๊ธํ ํ๊ณ์
- ์์ด ์ค์ฌ
- ํ์ฌ ์์ด ํ์คํฌ์๋ง ์ด์
- ๋ค๊ตญ์ด ์ง์ ํ์
- ์ ์ ์ง์ ์์ค
- ๋๋ถ๋ถ ์ ์ ์ธ ์ง์ ์์ค ์ฌ์ฉ
- ๋์ ์ด๊ณ ๊ฐ๋ฐฉํ ๊ฒ์ ์๋๋ฆฌ์ค ๋ฏธ๋ฐ์
- Ground Truth์์ ๊ฒฉ์ฐจ
- ์ต๊ณ ์ฑ๋ฅ ํ๊ฐ์๋ Ground Truth์ ์๋นํ ๊ฒฉ์ฐจ ์กด์ฌ
- ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ ํ์
- Context Relevance ์ถ์ ์ ์ด๋ ค์
- ๋ค๋ฅธ ๋ฉํธ๋ฆญ ๋๋น ๋์ RMSE
- ์๋ฌต์ ์ ๋ต ์ถ๋ก ์ ๋ณต์ก์ฑ
- LLM ๊ธฐ๋ฐ ์ฃผ์์ ํ๊ณ
- ์ผ๋ถ ์ฃผ์์ LLM ํ์ฉ
- ์ ์ฌ์ ํธํฅ ๊ฐ๋ฅ์ฑ
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ฒค์น๋งํฌ ํ์ฅ
- ChatRAGBench ๋ฑ ์ถ๊ฐ ๋ฐ์ดํฐ์ ํตํฉ ๊ณํ
- ๋ ํฐ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ ํ์ธํ๋
- Ground Truth์์ ๊ฒฉ์ฐจ ์ขํ๊ธฐ ์ํ ์ฐ๊ตฌ
- ํ ํฐ ๋ ๋ฒจ ์์ธก ๊ฐํ
- ์์ ๋ ๋ฒจ์ด ์๋ ํ ํฐ ๋ ๋ฒจ ์์ธก์ผ๋ก ํด์ ๊ฐ๋ฅ์ฑ ํฅ์
- LLM Judge ํ์ธํ๋
- DeBERTa์ GPT-4 ๊ฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ ํด์
๐ ๊ด๋ จ ๋ ผ๋ฌธ
์ ํ ์ฐ๊ตฌ (RAG ํ๊ฐ ํ๋ ์์ํฌ)
| ๋ ผ๋ฌธ/ํ๋ ์์ํฌ | ํต์ฌ ๋ด์ฉ | ๊ด๊ณ |
|---|---|---|
| RAGAS | Context Relevance, Groundedness, Answer Relevance ํ๊ฐ | RAGBench๊ฐ ๋น๊ต ๋์์ผ๋ก ์ฌ์ฉ |
| TruLens | RAG Triad ๊ฐ๋ ๋์ (NLI ๋ชจ๋ธ ํ์ฉ) | ์ ์ฌํ ๋ฉํธ๋ฆญ ์ ์, ์ฑ๋ฅ ๋น๊ต |
| ARES | ๋๋ฉ์ธ๋ณ LLM Judge ์์ฑ | ์ ์ฌํ ์ ๊ทผ๋ฒ, ๋ฉํธ๋ฆญ ์ ์ ์ฐธ์กฐ |
| RGB | RAG Triad ๊ฐ๋ ํ์ฅ | ์ ์ ์์ธก ๋ฐฉ๋ฒ ๊ฐ์ |
| CRUD-RAG | CRUD ์์ ๊ธฐ๋ฐ RAG ๋ถ๋ฅ | ์ค๊ตญ์ด ๋ฒค์น๋งํฌ |
๊ธฐ๋ฐ ๋ฐ์ดํฐ์
- HotpotQA, MS Marco, CUAD, FinQA, TAT-QA, PubMedQA, CovidQA ๋ฑ
ํ์/๊ด๋ จ ์ฐ๊ตฌ
| ๋ ผ๋ฌธ | ์ค๋ช |
|---|---|
| RAGChecker (NeurIPS 2024) | ์ธ๋ถํ๋ RAG ํ๊ฐ ํ๋ ์์ํฌ |
| T2-RAGBench | ํ ์คํธ+ํ ์ด๋ธ RAG ๋ฒค์น๋งํฌ |
| RAG-RewardBench | RAG ๋ณด์ ๋ชจ๋ธ ๋ฒค์น๋งํฌ |
๐ป ์ค๋ฌด ์ ์ฉ ํฌ์ธํธ
RAGBench ๋ฐ์ดํฐ์ ์ฌ์ฉ ๋ฐฉ๋ฒ
1. ๋ฐ์ดํฐ์ ๋ก๋
from datasets import load_dataset
# ๊ฐ๋ณ ๋ฐ์ดํฐ์
๋ก๋
ragbench_hotpotqa = load_dataset("rungalileo/ragbench", "hotpotqa")
# ํน์ ๋ถํ ๋ง ๋ก๋
ragbench_test = load_dataset("rungalileo/ragbench", "hotpotqa", split="test")
# ์ ์ฒด RAGBench ๋ก๋
ragbench = {}
datasets_list = ['covidqa', 'cuad', 'delucionqa', 'emanual', 'expertqa',
'finqa', 'hagrid', 'hotpotqa', 'msmarco', 'pubmedqa',
'tatqa', 'techqa']
for dataset in datasets_list:
ragbench[dataset] = load_dataset("rungalileo/ragbench", dataset)
2. ํ๊ฐ ์คํ
# ๊ธฐ์กด RAG ํ๊ฐ ํ๋ ์์ํฌ ๋ฒค์น๋งํน
python calculate_metrics.py --dataset hotpotqa msmarco hagrid expertqa
# ์ถ๋ก ์คํ
python run_inference.py
TRACe ๋ฉํธ๋ฆญ ํ์ฉ ๊ฐ์ด๋
| ๋ฉํธ๋ฆญ | ๋ฎ์ ์ ์ ์ ์กฐ์น |
|---|---|
| Relevance | Retriever ๊ฐ์ (์๋ฒ ๋ฉ ๋ชจ๋ธ, ์ฒญํน ์ ๋ต, ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ) |
| Utilization | ํ๋กฌํํธ ์์ง๋์ด๋ง, ๋ฌธ๋งฅ ํตํฉ ๋ฐฉ์ ๊ฐ์ |
| Adherence | ํ๊ฐ ๋ฐฉ์ง ๊ธฐ๋ฒ ์ ์ฉ, ์ถ์ฒ ์ธ์ฉ ๊ฐํ |
| Completeness | ๋ค์ค ๋ฌธ์ ํตํฉ, ์๋ต ์์ฑ ์ ๋ต ๊ฐ์ |
์ค๋ฌด ์ ์ฉ ์ฒดํฌ๋ฆฌ์คํธ
- [ ] ์์ฌ ๋๋ฉ์ธ๊ณผ ์ ์ฌํ RAGBench ์๋ธ์ ์๋ณ
- [ ] TRACe ๋ฉํธ๋ฆญ์ผ๋ก ํ์ฌ RAG ์์คํ ํ๊ฐ
- [ ] ๊ฐ์ฅ ๋ฎ์ ์ ์์ ๋ฉํธ๋ฆญ์ ์ง์คํ์ฌ ๊ฐ์
- [ ] DeBERTa ๊ธฐ๋ฐ ํ๊ฐ์๋ก ๋น์ฉ ํจ์จ์ ํ๊ฐ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- [ ] ํ ํฐ ๋ ๋ฒจ ์ฃผ์ ํ์ฉํ์ฌ ๊ตฌ์ฒด์ ๋ฌธ์ ์ ํ์
๐ท๏ธ Tags
#RAG #Benchmark #TRACe #Evaluation #Retrieval #Generation #LLM #Hallucination #DeBERTa #Galileo #HuggingFace #NLP #QA #InformationRetrieval #ContextRelevance #Adherence #Utilization #Completeness #RAGBench #2024
๐ ์ฐธ๊ณ ์๋ฃ
- arXiv Paper: https://arxiv.org/abs/2407.11005
- HuggingFace Dataset: https://huggingface.co/datasets/rungalileo/ragbench
- GitHub Repository: https://github.com/rungalileo/ragbench
- Semantic Scholar: https://www.semanticscholar.org/paper/1b0aba023d7aa5fb9853f9e942efb5c243dc1201
Last Updated: 2025-01-19