[AI Paper] 📄 Self-RAG: Learning to Retrieve, Generate, and Critique

2026년 01월 25일 11 Min Read

📄 Self-RAG: Learning to Retrieve, Generate, and Critique

📋 메타 정보

항목	내용
논문 제목	Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
저자	Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
소속	University of Washington, IBM Research AI, Allen Institute for AI
발표	ICLR 2024 (Oral Presentation, 상위 1%)
연도	2024
arXiv	2310.11511
GitHub	AkariAsai/self-rag
프로젝트	selfrag.github.io
HuggingFace	selfrag/selfrag_llama2_7b, selfrag/selfrag_llama2_13b

🎯 한줄 요약

Self-RAG는 LLM이 Reflection Token을 통해 검색 필요성을 스스로 판단하고, 검색된 문서의 관련성과 생성 결과의 품질을 자체 평가하여 사실성과 정확도를 크게 향상시키는 자기 반성적(Self-Reflective) RAG 프레임워크이다.

🔍 연구 배경 및 동기

LLM의 근본적 한계

LLM은 파라미터에 인코딩된 지식(Parametric Knowledge)에만 의존하여 다음과 같은 문제가 발생한다:

사실적 오류(Hallucination): 존재하지 않는 정보를 마치 사실처럼 생성
지식 단절(Knowledge Cutoff): 학습 데이터 이후의 정보에 대응 불가
전문 도메인 취약성: 특수 분야의 세부 지식 부족

기존 RAG의 한계점

┌─────────────────────────────────────────────────────────────────────┐
│                     기존 RAG의 구조적 문제                           │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  Query ──► [무조건 검색] ──► Top-K 문서 ──► LLM 생성                 │
│                                                                     │
│  문제점:                                                            │
│  1. 검색 필요성 판단 없이 항상 검색 (비효율)                         │
│  2. 검색 결과의 관련성 검증 없음 (노이즈 유입)                       │
│  3. 생성 내용이 검색 문서에 근거하는지 확인 불가                     │
│  4. 태스크별 유연한 동작 조정 불가                                   │
│                                                                     │
└─────────────────────────────────────────────────────────────────────┘

1. 무분별한 검색 (Indiscriminate Retrieval)

기존 RAG는 검색이 필요한지 여부와 관계없이 항상 고정된 수의 문서를 검색
간단한 상식 질문에도 불필요하게 검색 수행하여 효율성 저하
예: “2+2는 무엇인가?” 같은 질문에도 Wikipedia 검색

2. 검색 품질 평가 부재

검색된 문서가 실제로 쿼리와 관련성이 있는지 평가하지 않음
무관하거나 잘못된 정보가 생성 과정에 포함되어 오히려 품질 저하
Retriever의 한계로 노이즈가 그대로 LLM에 전달됨

3. 생성-증거 불일치

생성된 내용이 검색된 문서에 의해 실제로 지지(Support)되는지 검증 불가
LLM이 검색 결과를 무시하고 자체 지식으로 답변하는 경우 발생
인용과 내용 간의 불일치 문제

4. 유연성 부족

다양한 태스크 요구사항에 맞게 모델 동작을 조정할 수 없음
사실 검증 태스크 vs 창의적 글쓰기 등 다른 요구에 동일하게 대응

💡 핵심 아이디어

1. Self-Reflection Tokens (자기 성찰 토큰)

Self-RAG의 핵심 혁신은 Reflection Token이라는 특수 토큰을 모델 어휘에 추가하여, 모델이 자신의 동작을 제어하고 평가하도록 하는 것이다.

┌─────────────────────────────────────────────────────────────────┐
│                    Reflection Tokens 체계                        │
├─────────────────┬───────────────────────────────────────────────┤
│   [Retrieve]    │  검색이 필요한지 판단 (On-demand)              │
│   [ISREL]       │  검색된 문서의 관련성 평가                     │
│   [ISSUP]       │  생성 내용이 문서에 의해 지지되는지 평가       │
│   [ISUSE]       │  최종 답변의 전체적 유용성 평가                │
└─────────────────┴───────────────────────────────────────────────┘

핵심 장점:
– 별도의 외부 평가 모델 없이 단일 모델 내에서 처리
– 추론 시점에 토큰 가중치 조정으로 동작 제어 가능
– End-to-end 학습으로 최적화된 성능

2. Adaptive Retrieval (적응적 검색)

기존 RAG: Query → [항상 검색] → Documents → Generation
Self-RAG: Query → [검색 필요?] → [선택적 검색] → [품질 평가] → Generation

On-demand Retrieval: 검색이 실제로 필요한 경우에만 수행
Multi-step Retrieval: 생성 중 여러 번 검색하거나 완전히 건너뛸 수 있음
Task-adaptive: 태스크 특성에 따라 검색 빈도 자동 조절
- 사실 검증 태스크: 더 자주 검색하여 정확성 확보
- 창의적 작문: 검색 최소화하여 유창성 유지

3. Critique and Generation (비평과 생성의 통합)

Self-RAG는 생성과 평가를 하나의 모델에서 통합 수행:

Retrieval Decision: 현재 컨텍스트에서 검색이 도움이 될지 판단
Relevance Evaluation: 검색된 각 문서의 관련성 평가
Support Assessment: 생성 내용이 증거에 근거하는지 확인
Utility Scoring: 최종 답변의 전체적 유용성 평가

🏗️ 아키텍처 / 방법론

Reflection Token 상세 설명

1. Retrieve Token (검색 결정 토큰)

토큰	의미	사용 시점
`[Retrieve=Yes]`	외부 지식 필요	사실 기반 정보, 최신 정보, 전문 지식 필요 시
`[Retrieve=No]`	내부 지식 충분	상식, 일반 지식, 창의적 작업 시
`[Retrieve=Continue]`	이전 검색 결과 계속 사용	긴 답변 생성 중 동일 맥락 유지 시

판단 기준:
– 현재 쿼리에 대해 모델의 내부 지식만으로 신뢰성 있게 답변 가능한지
– 검색이 답변 품질 향상에 실질적으로 기여하는지

2. ISREL Token (관련성 토큰)

토큰	의미	후속 처리
`[ISREL=Relevant]`	문서가 쿼리 해결에 유용	해당 문서 기반으로 생성 진행
`[ISREL=Irrelevant]`	문서가 쿼리와 무관	해당 문서 제외, 다른 문서 사용

평가 관점:
– 검색된 passage가 입력 질문을 해결하는 데 실제로 도움이 되는 정보를 포함하는지

3. ISSUP Token (지지 토큰)

토큰	의미	Hallucination 위험도
`[ISSUP=Fully Supported]`	모든 주장이 문서에 근거	낮음
`[ISSUP=Partially Supported]`	일부만 문서에 근거	중간
`[ISSUP=No Support]`	문서에 근거 없음	높음

핵심 역할:
– 생성된 답변의 각 검증 가능한 진술(Verifiable Statement)이 검색 문서에 의해 뒷받침되는지 확인
– Hallucination 방지의 핵심 메커니즘

4. ISUSE Token (유용성 토큰)

토큰	점수	의미
`[ISUSE=5]`	5점	완벽하게 유용한 답변
`[ISUSE=4]`	4점	매우 유용함
`[ISUSE=3]`	3점	적절히 유용함
`[ISUSE=2]`	2점	다소 유용함
`[ISUSE=1]`	1점	유용하지 않음

평가 기준:
– 검색 문서와 독립적으로 최종 답변이 원래 질문에 얼마나 유용한지 종합 평가

학습 파이프라인

Self-RAG는 4단계 학습 파이프라인을 통해 훈련된다:

┌──────────────────────────────────────────────────────────────────────┐
│                      Self-RAG Training Pipeline                       │
├──────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │  Step 1: Critic Data Creation (GPT-4 활용)                  │     │
│  │  ────────────────────────────────────────────────────────   │     │
│  │  • GPT-4에 few-shot prompting으로 Reflection Token 생성     │     │
│  │  • 각 토큰 타입별 4K-20K 샘플 수집                          │     │
│  │  • Human evaluation과 비교하여 품질 검증                    │     │
│  └────────────────────────────────────────────────────────────┘     │
│                              ↓                                       │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │  Step 2: Critic Model Training                              │     │
│  │  ────────────────────────────────────────────────────────   │     │
│  │  • Llama 2-7B를 base model로 사용                           │     │
│  │  • Reflection Token들을 vocabulary에 추가                   │     │
│  │  • Standard next-token prediction으로 학습                  │     │
│  │  • GPT-4 예측과 90% 이상 일치율 달성                        │     │
│  └────────────────────────────────────────────────────────────┘     │
│                              ↓                                       │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │  Step 3: Generator Data Creation                            │     │
│  │  ────────────────────────────────────────────────────────   │     │
│  │  • 학습된 Critic + Retriever로 원본 코퍼스 증강             │     │
│  │  • 각 segment에 Reflection Token 오프라인 삽입              │     │
│  │  • Retrieve=Yes인 경우 Top-K 문서 추가                      │     │
│  │  • 검색된 텍스트 청크는 학습 시 마스킹                      │     │
│  └────────────────────────────────────────────────────────────┘     │
│                              ↓                                       │
│  ┌────────────────────────────────────────────────────────────┐     │
│  │  Step 4: Generator Model Training                           │     │
│  │  ────────────────────────────────────────────────────────   │     │
│  │  • 확장된 vocabulary로 최종 Generator 모델 학습             │     │
│  │  • Target output + Reflection Token 동시 예측               │     │
│  │  • RLHF 대비 훨씬 낮은 학습 비용                            │     │
│  └────────────────────────────────────────────────────────────┘     │
│                                                                      │
└──────────────────────────────────────────────────────────────────────┘

학습 효율성의 핵심:
– Critic 모델을 오프라인으로 사용하여 토큰 삽입
– 학습 시점에 Critic 모델을 호스팅할 필요 없음
– RLHF(PPO 등) 대비 메모리 효율적이고 안정적

추론 알고리즘

Input Query
     │
     ▼
┌────────────────────┐
│  [Retrieve] 예측   │
│  ─────────────────  │
│  검색 필요성 판단   │
└────────────────────┘
     │
     ├── [Retrieve=No] ──────────────────────┐
     │                                        ▼
     │                              ┌─────────────────┐
     │                              │  직접 생성      │
     │                              │  (내부 지식)    │
     │                              └─────────────────┘
     │
     └── [Retrieve=Yes/Continue]
                 │
                 ▼
        ┌────────────────┐
        │  Retriever     │
        │  (Top-K 검색)  │
        └────────────────┘
                 │
                 ▼
        ┌────────────────────┐
        │  [ISREL] 평가      │
        │  ────────────────  │
        │  각 문서 관련성    │
        │  평가 및 필터링    │
        └────────────────────┘
                 │
                 ▼
        ┌────────────────────┐
        │  Segment 생성      │
        │  ────────────────  │
        │  관련 문서별로     │
        │  응답 후보 생성    │
        └────────────────────┘
                 │
                 ▼
        ┌────────────────────┐
        │  [ISSUP] 평가      │
        │  ────────────────  │
        │  생성 내용의       │
        │  증거 지지도 확인  │
        └────────────────────┘
                 │
                 ▼
        ┌────────────────────┐
        │  [ISUSE] 평가      │
        │  ────────────────  │
        │  전체 유용성 점수  │
        └────────────────────┘
                 │
                 ▼
        ┌────────────────────┐
        │  Segment-level     │
        │  Beam Search       │
        │  ────────────────  │
        │  Critique Score    │
        │  기반 최적 선택    │
        └────────────────────┘
                 │
                 ▼
          Final Output

Critique Score 계산

Segment-level beam search에서 각 segment의 점수는 Reflection Token 확률의 가중 합으로 계산:

Score = w_rel × P([ISREL]=Relevant)
      + w_sup × P([ISSUP]=Fully_Supported)
      + w_use × P([ISUSE]=5)

가중치	역할	조정 방향
`w_rel`	관련성 중요도	노이즈 필터링 강화 시 증가
`w_sup`	지지도 중요도	Hallucination 방지 강화 시 증가
`w_use`	유용성 중요도	답변 품질 강조 시 증가

추론 시 제어 가능성:
– 이 가중치들을 조정하여 태스크별 맞춤 동작 가능
– 사실성 중시 vs 창의성 중시 간 trade-off 조절

📊 실험 및 결과

평가 데이터셋

데이터셋	태스크 유형	특징	평가 지표
PopQA	Open-domain QA	WikiData 기반, 최신 엔티티 포함	Accuracy
TriviaQA	Open-domain QA	Trivia 질문	Accuracy (EM)
PubHealth	Fact Verification	건강 정보 사실 검증	Accuracy
ARC-Challenge	Reasoning	과학 추론	Accuracy
ASQA	Long-form QA	모호한 질문, 종합 답변 필요	FactScore, Citation Precision/Recall
Biography	Long-form Generation	인물 전기 생성	FactScore

주요 실험 결과

Short-form Generation (QA, Fact Verification, Reasoning)

Model	PopQA	TriviaQA	PubHealth	ARC-C
Llama2-13B (No Retrieval)	14.7%	47.0%	–	29.4%
Alpaca-13B (No Retrieval)	24.4%	66.9%	51.1%	57.6%
Llama2-chat + RAG	–	–	–	–
ChatGPT	29.3%	–	70.0%	–
Self-RAG 7B	50.5%	66.4%	72.4%	67.3%
Self-RAG 13B	55.8%	69.3%	74.5%	73.1%

Long-form Generation (Citation 필요 태스크)

Model	ASQA EM	Citation Prec.	Citation Rec.	Bio FactScore
Llama2-chat-13B + RAG	17.1%	41.7%	17.4%	–
ChatGPT	25.2%	61.8%	68.9%	71%
Retrieval-augmented ChatGPT	–	–	–	–
Self-RAG 13B	29.3%	70.3%	71.3%	80%

핵심 발견:
– Self-RAG 7B/13B가 ChatGPT와 기존 RAG 모델 대비 일관된 성능 향상
– 특히 Citation Precision에서 현저한 개선 (70.3% vs 61.8%)
– Biography 생성에서 FactScore 80% 달성

Ablation Study 결과

설정	PopQA	PubHealth	ASQA
Full Self-RAG	54.9%	72.2%	28.7%
w/o Retriever	32.9% (-40%)	70.8% (-2%)	25.1%
w/o Critic	47.2%	68.4%	26.9%
Always Retrieve (Top-1)	51.3%	71.5%	27.8%
No Adaptive Retrieval	–	소폭 하락	–

Ablation 분석:

Retriever 제거 시:
- PopQA: 40% 성능 하락 (검색이 핵심적)
- PubHealth: 2% 하락 (내부 지식으로도 어느 정도 대응 가능)
- 태스크 특성에 따라 검색 중요도가 다름을 입증
Critic 제거 시:
- 전반적 성능 저하 발생
- 자기 평가 메커니즘의 중요성 확인
Always Retrieve (관련성 무시):
- PopQA, ASQA에서 큰 성능 하락
- 무관한 문서가 노이즈로 작용함을 확인
검색 빈도에 따른 성능:
- PubHealth: 검색 빈도 낮춰도 성능 저하 작음
- PopQA: 검색 빈도 낮추면 성능 저하 큼
- Adaptive retrieval의 필요성 입증

💪 강점 및 기여

1. 적응적 검색 메커니즘 (Adaptive Retrieval)

쿼리와 태스크 특성에 따라 검색 여부 및 빈도를 동적으로 결정
불필요한 검색으로 인한 노이즈 제거
효율성과 정확성의 균형 달성

2. 다단계 자기 평가 (Multi-level Self-Assessment)

Retrieve → Relevance → Support → Utility 4단계 평가
세분화된 품질 관리로 hallucination 대폭 감소
각 단계에서 문제를 조기 발견하고 대응

3. 효율적인 학습 방법

RLHF 대비 훨씬 낮은 학습 비용
Critic 모델을 통한 오프라인 토큰 삽입으로 메모리 효율적
GPT-4 지식을 소형 Critic 모델로 지식 증류(Distillation)

4. 추론 시점 제어 가능성 (Inference-time Controllability)

Reflection Token 가중치 조정으로 태스크별 맞춤 설정
사실성 vs 창의성 간 trade-off 유연하게 조절
별도 재학습 없이 동작 변경 가능

5. End-to-End 통합 프레임워크

별도의 retriever, generator, critic 파이프라인이 아닌 단일 모델
모든 컴포넌트가 jointly 학습되어 최적화
배포 및 관리 복잡도 감소

6. 뛰어난 실험 성과

7B, 13B 모델로 ChatGPT와 기존 RAG 대비 우수한 성능
특히 사실성(factuality)과 인용 정확도에서 큰 향상
다양한 태스크에서 일관된 개선

⚠️ 한계점

1. Token Probability 접근 필요

Self-RAG 알고리즘 적용을 위해 토큰 확률에 대한 접근이 필수
API 기반 모델(GPT-4, Claude 등)에는 직접 적용 어려움
오픈소스 모델에서만 완전한 기능 활용 가능

2. 추출형 태스크에 상대적 강점

검색된 문서에서 정보를 추출/복사하는 태스크에서 효과적
추론이나 종합이 필요한 태스크(PubHealth, ARC-Challenge)에서는 개선 폭 제한적
복잡한 다단계 추론에는 추가적인 메커니즘 필요

3. 학습 데이터 의존성

Critic 모델 학습에 GPT-4 생성 데이터 필요
데이터 품질이 전체 파이프라인 성능에 영향
GPT-4 API 비용 및 재현성 문제

4. 완전한 Hallucination 방지 불가

Self-RAG도 여전히 지지되지 않는 주장을 생성할 수 있음
Critic 모델의 평가 신뢰성에 의존
검색 코퍼스에 없는 정보에 대해서는 한계

5. 계산 비용 증가

Segment별 검색 및 평가로 인한 추론 시간 증가
Beam search로 인한 메모리 사용량 증가
대규모 Wikipedia 임베딩 저장에 약 100GB RAM 필요

6. 검색 코퍼스 의존성

검색 코퍼스의 품질과 커버리지에 성능 의존
지식 최신성 유지 문제 (Wikipedia 업데이트 주기)
특수 도메인에서는 별도 코퍼스 구축 필요

🔗 관련 논문

선행 연구 – RAG 기반 접근법

논문	연도	핵심 아이디어	Self-RAG와의 차이점
RAG (Lewis et al.)	2020	Retrieval + Generation 결합	고정 검색, 품질 평가 없음
REALM (Guu et al.)	2020	Retrieval로 사전학습	검색 시점 고정
RETRO (Borgeaud et al.)	2022	대규모 사전학습에 retrieval 통합	추가 encoder 필요, 적응적 검색 없음
Atlas (Izacard et al.)	2022	Few-shot learning + RAG	자기 평가 메커니즘 없음
REPLUG (Shi et al.)	2023	LLM 피드백으로 retriever fine-tuning	Generator 학습 안 함

선행 연구 – Active/Adaptive Retrieval

논문	연도	핵심 아이디어	Self-RAG와의 차이점
FLARE (Jiang et al.)	2023	저신뢰 토큰 시 검색 트리거	생성 품질 평가 없음
Active Retrieval (Jiang et al.)	2023	토큰 확률 기반 검색 타이밍	Critique 메커니즘 없음

선행 연구 – Self-Critique/Reflection

논문	연도	핵심 아이디어	Self-RAG와의 차이점
Self-Refine (Madaan et al.)	2023	생성 후 반복적 자기 피드백	Retrieval과 분리됨
Constitutional AI (Bai et al.)	2022	원칙 기반 자기 비평	검색 메커니즘 없음

후속 연구

논문	연도	발전 방향
CRAG (Yan et al.)	2024	Corrective RAG – 검색 품질 평가 후 웹 검색 폴백
Speculative RAG (Zhang et al.)	2024	소형 specialist LM으로 드래프팅, 대형 모델로 검증
RAT (Liu et al.)	2024	RAG + Chain-of-Thought 결합
Adaptive RAG	2024	쿼리 복잡도에 따른 동적 전략 선택

비교 분석 표

방법	적응적 검색	관련성 평가	지지도 평가	유용성 평가	학습 방식
Standard RAG	X	X	X	X	없음
FLARE	O (부분)	X	X	X	없음
CRAG	X	O (외부)	X	X	Plug-and-play
Self-RAG	O	O (내부)	O (내부)	O (내부)	End-to-end

💻 실무 적용 포인트

1. 적용 적합 시나리오

시나리오	적합도	이유
Knowledge-intensive QA	매우 높음	사실 기반 답변에 검색 필수
Fact Verification	매우 높음	증거 기반 검증에 최적
Document-grounded Generation	높음	인용 정확도 향상
Citation-required Tasks	높음	출처 명시가 필요한 학술/법률 도메인
Customer Support Bot	중간	정책/매뉴얼 기반 답변
Creative Writing	낮음	검색보다 창의성이 중요

2. 구현 옵션

Option A: 공식 Self-RAG 모델 사용

# HuggingFace에서 Self-RAG 모델 로드
from vllm import LLM, SamplingParams

model = LLM("selfrag/selfrag_llama2_7b", dtype="half")
sampling_params = SamplingParams(
    temperature=0.0,
    top_p=1.0,
    max_tokens=100,
    skip_special_tokens=False  # Reflection tokens 확인용
)

# 쿼리 실행
prompt = "What is the capital of France?"
outputs = model.generate([prompt], sampling_params)
print(outputs[0].outputs[0].text)

Option B: LangGraph를 활용한 Self-RAG 패턴 구현

from typing import TypedDict, List
from langgraph.graph import StateGraph, END
from langchain_openai import ChatOpenAI
from langchain_community.vectorstores import Chroma

# State 정의
class GraphState(TypedDict):
    question: str
    generation: str
    documents: List[str]
    relevance_scores: List[float]

# 노드 함수들
def should_retrieve(state) -> str:
    """[Retrieve] 토큰 역할 - 검색 필요성 판단"""
    question = state["question"]
    # LLM으로 검색 필요성 판단
    decision = retrieval_grader.invoke({
        "question": question
    })
    return "retrieve" if decision == "yes" else "generate_direct"

def retrieve(state):
    """문서 검색"""
    question = state["question"]
    documents = retriever.invoke(question)
    return {"documents": documents}

def grade_documents(state):
    """[ISREL] 토큰 역할 - 문서 관련성 평가"""
    question = state["question"]
    documents = state["documents"]

    filtered_docs = []
    for doc in documents:
        # LLM으로 관련성 평가
        score = relevance_grader.invoke({
            "question": question,
            "document": doc.page_content
        })
        if score.binary_score == "relevant":
            filtered_docs.append(doc)

    return {"documents": filtered_docs}

def generate(state):
    """답변 생성"""
    question = state["question"]
    documents = state["documents"]
    generation = rag_chain.invoke({
        "context": "\n\n".join([d.page_content for d in documents]),
        "question": question
    })
    return {"generation": generation}

def grade_generation(state) -> str:
    """[ISSUP] + [ISUSE] 토큰 역할"""
    # 환각 체크 (ISSUP)
    hallucination_score = hallucination_grader.invoke({
        "documents": state["documents"],
        "generation": state["generation"]
    })

    if hallucination_score.binary_score == "no":
        return "regenerate"

    # 답변 유용성 체크 (ISUSE)
    answer_score = answer_grader.invoke({
        "question": state["question"],
        "generation": state["generation"]
    })

    return "useful" if answer_score.binary_score == "yes" else "not_useful"

# 그래프 구성
workflow = StateGraph(GraphState)

# 노드 추가
workflow.add_node("retrieve", retrieve)
workflow.add_node("grade_documents", grade_documents)
workflow.add_node("generate", generate)
workflow.add_node("generate_direct", generate_direct)

# 조건부 엣지
workflow.set_conditional_entry_point(
    should_retrieve,
    {
        "retrieve": "retrieve",
        "generate_direct": "generate_direct"
    }
)

workflow.add_edge("retrieve", "grade_documents")
workflow.add_conditional_edges(
    "grade_documents",
    lambda x: "generate" if x["documents"] else "websearch",
    {"generate": "generate", "websearch": "websearch"}
)
workflow.add_conditional_edges(
    "generate",
    grade_generation,
    {"useful": END, "not_useful": "websearch", "regenerate": "generate"}
)

app = workflow.compile()

3. 파라미터 튜닝 가이드

태스크 유형	`w_rel`	`w_sup`	`w_use`	설명
사실 검증	높음	매우 높음	중간	Hallucination 방지 최우선
Open QA	높음	높음	높음	균형 잡힌 설정
Long-form 생성	중간	높음	매우 높음	유용성과 품질 중시
창의적 작문	낮음	낮음	매우 높음	유창성과 창의성 중시

4. 배포 시 고려사항

항목	권장 사항
메모리	전체 Wikipedia 임베딩 시 100GB+ RAM 필요
검색기	Contriever 또는 DPR 권장
청크 크기	250 토큰 권장 (논문 설정)
추론 최적화	vLLM 사용으로 처리량 향상
모델 선택	7B (속도 중시) vs 13B (품질 중시)
코퍼스	도메인별 커스텀 코퍼스 구축 권장

5. 평가 지표 선택

태스크	권장 지표
QA	Accuracy, Exact Match (EM), F1
Long-form	FactScore, MAUVE, Citation Precision/Recall
Fact Verification	Accuracy, F1
일반	ROUGE, BERTScore

6. 활용 시나리오별 권장사항

기업 QA 시스템:
- 사내 문서 기반 RAG + Self-RAG 패턴
- Citation 표시로 답변 신뢰성 향상
법률/의료 도메인:
- 높은 w_sup 설정으로 근거 기반 답변 강제
- 도메인 특화 코퍼스 구축 필수
연구 보조 도구:
- ASQA 스타일의 종합 답변 생성
- 인용 추적 기능 활성화
고객 지원 봇:
- 정책/매뉴얼 기반 일관된 답변
- Adaptive retrieval로 효율성 확보

🏷️ Tags

#RAG #Self-RAG #Retrieval-Augmented-Generation #LLM #Self-Reflection #Adaptive-Retrieval #ICLR2024 #Hallucination-Reduction #Fact-Verification #Knowledge-Grounding #Critique-Model #Reflection-Tokens #Llama2 #LangGraph #NLP #InformationRetrieval