[AI Paper] 📄 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

2026년 01월 25일 9 Min Read

📄 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

📋 메타 정보

항목	내용
저자	Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc V. Le, Denny Zhou
소속	Google Brain (현 Google DeepMind)
발표처	NeurIPS 2022 (Advances in Neural Information Processing Systems 35)
발표 연도	2022
arXiv	arXiv:2201.11903
NeurIPS	Proceedings
인용수	10,000+ (2024년 기준, 프롬프팅 분야 최다 인용 논문 중 하나)

🎯 한줄 요약

대규모 언어 모델(LLM)에 중간 추론 단계(chain of thought)를 포함한 few-shot 예시를 제공하면, 복잡한 산술, 상식, 기호 추론 과제에서 성능이 비약적으로 향상된다는 것을 최초로 체계적으로 입증한 획기적 연구.

🔍 연구 배경 및 동기

기존 문제점

스케일링의 한계: 언어 모델의 크기를 키워도 산술 추론, 상식 추론, 기호 추론 같은 복잡한 다단계 추론(multi-step reasoning) 과제에서는 성능 향상이 미미했음
표준 프롬프팅의 제약: 기존의 few-shot 프롬프팅은 입력-출력 쌍만 제공하여, 모델이 중간 추론 과정 없이 바로 답을 생성하도록 유도
Flat Scaling Curve 문제: 많은 추론 과제에서 모델 크기를 키워도 성능이 거의 향상되지 않는 현상이 지속
Fine-tuning의 비용: 추론 능력 향상을 위한 대규모 데이터셋 구축과 파인튜닝은 막대한 비용과 시간이 소요

연구 동기

인간은 복잡한 문제를 풀 때 단계별로 사고를 분해하여 해결함
이러한 인간의 사고 과정을 LLM에도 적용할 수 있지 않을까?
핵심 질문: “프롬프트에 추론 단계를 포함시키면 모델의 추론 능력이 향상될 수 있을까?”

💡 핵심 아이디어

Chain-of-Thought (CoT)의 정의

Chain-of-Thought(사고의 연쇄)란 최종 답에 도달하기까지의 일련의 중간 추론 단계(intermediate reasoning steps)를 의미한다.

문제 → 추론 단계 1 → 추론 단계 2 → ... → 추론 단계 n → 최종 답

표준 프롬프팅 vs CoT 프롬프팅

표준 프롬프팅 (Standard Prompting):

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls.
   Each can has 3 tennis balls. How many tennis balls does he have now?
A: The answer is 11.

Chain-of-Thought 프롬프팅:

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls.
   Each can has 3 tennis balls. How many tennis balls does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls.
   5 + 6 = 11. The answer is 11.

CoT의 세 가지 핵심 특성

복잡한 문제 분해: 다단계 문제를 중간 단계들로 분해하여, 각 단계에 더 많은 계산 자원 할당 가능
해석 가능한 추론 과정: 모델이 특정 답에 도달한 과정을 관찰할 수 있어 디버깅과 해석이 용이
범용적 적용 가능성: 수학, 상식, 기호 추론 등 인간이 언어로 풀 수 있는 모든 태스크에 적용 가능

CoT가 효과적인 이유

요인	설명
중간 계산 공간	모델이 중간 결과를 저장하고 활용할 수 있음
문제 분해	복잡한 문제를 관리 가능한 하위 문제로 분해
인간 사고 모방	인간의 문제 해결 방식과 유사한 접근
오류 추적 가능	추론 경로를 통해 오류 원인 파악 가능

🏗️ 방법론

실험 설정

사용된 언어 모델

모델	파라미터 크기	비고
GPT-3 (InstructGPT)	350M, 1.3B, 6.7B, 175B	OpenAI
LaMDA	422M, 2B, 8B, 68B, 137B	Google
PaLM	8B, 62B, 540B	Google (주요 실험)
UL2	20B	Google
Codex	code-davinci-002	OpenAI

프롬프트 구성 방법

[Few-shot exemplars with chain-of-thought] (보통 8개)
+ [Test question]
→ [Model generates chain-of-thought + answer]

CoT 프롬프트 구조

def chain_of_thought_prompting(question, cot_exemplars, model):
    """
    Chain-of-Thought 프롬프팅 알고리즘

    Args:
        question: 풀어야 할 문제
        cot_exemplars: CoT가 포함된 few-shot 예시들 (8개 사용)
        model: 대규모 언어 모델

    Returns:
        answer: 최종 답변
        reasoning_chain: 추론 과정
    """

    # 1. 프롬프트 구성
    prompt = ""
    for exemplar in cot_exemplars:
        prompt += f"Q: {exemplar.question}\n"
        prompt += f"A: {exemplar.chain_of_thought}. "
        prompt += f"The answer is {exemplar.answer}.\n\n"

    prompt += f"Q: {question}\nA:"

    # 2. 모델 추론 (greedy decoding)
    output = model.generate(prompt, temperature=0)

    # 3. 답변 추출
    reasoning_chain = extract_reasoning(output)
    answer = extract_final_answer(output)

    return answer, reasoning_chain

구체적인 예시들

1. 산술 추론 예시 (GSM8K)

Q: John has 10 apples. He gives away 4 and then receives 5 more.
   How many apples does he have?

A: John starts with 10 apples. He gives away 4, so 10 - 4 = 6.
   He then receives 5 more apples, so 6 + 5 = 11.
   The answer is 11.

2. 상식 추론 예시 (StrategyQA)

Q: Would a pear sink in water?

A: A pear has a density of about 0.59 g/cm³, which is less than
   the density of water (1 g/cm³). Objects with density less
   than water float. The answer is no.

3. 기호 추론 예시 (Last Letter Concatenation)

Q: Take the last letters of the words in "Elon Musk" and
   concatenate them.

A: The last letter of "Elon" is "n". The last letter of "Musk"
   is "k". Concatenating them is "nk". The answer is nk.

Ablation Study에서 비교한 변형들

변형	설명	효과
Equation only	자연어 없이 수학 방정식만	효과 제한적
Variable compute	“…”으로 토큰 수만 증가	효과 없음
CoT after answer	답 먼저, 추론 나중	효과 없음

결론: 자연어로 된 중간 추론 단계가 핵심이며, 단순히 토큰 수를 늘리거나 순서를 바꾸는 것은 효과가 없음

📊 실험 및 결과

평가 데이터셋

1. 산술 추론 (Arithmetic Reasoning)

GSM8K: 초등학교 수준 수학 워드 문제 (8.5K 문제)
SVAMP: 다양한 수학 워드 문제
ASDiv: 다양한 난이도의 수학 문제
AQuA: 대수학 문제
MAWPS: 수학 워드 문제 모음 (SingleOp, SingleEq, AddSub, MultiArith)

2. 상식 추론 (Commonsense Reasoning)

CommonsenseQA (CSQA): 상식 기반 객관식 문제
StrategyQA: 다단계 전략적 추론이 필요한 예/아니오 문제
Date Understanding: 날짜 관련 추론 (BIG-bench)
Sports Understanding: 스포츠 관련 추론 (BIG-bench)
SayCan: 로봇 액션 매핑

3. 기호 추론 (Symbolic Reasoning)

Last Letter Concatenation: 단어들의 마지막 글자 연결
Coin Flip: 동전 뒤집기 상태 추적

주요 실험 결과

1. 산술 추론 벤치마크 (PaLM 540B)

벤치마크	표준 프롬프팅	CoT 프롬프팅	향상폭
GSM8K	17.9%	56.9%	+39.0%p
SVAMP	79.0%	86.6%	+7.6%p
ASDiv	73.9%	82.0%	+8.1%p
MAWPS	91.4%	94.1%	+2.7%p

핵심 발견: GSM8K에서 CoT + PaLM 540B가 56.9%를 달성하여, fine-tuned GPT-3 + verifier (55%)를 능가하며 SOTA 달성

2. 상식 추론 벤치마크

벤치마크	표준 프롬프팅	CoT 프롬프팅	비고
StrategyQA	~65%	75.6%	기존 SOTA 69.4% 능가
Sports Understanding	84%	95%	인간 전문가(84%) 능가
Date Understanding	–	67.5%	복잡한 날짜 추론
CommonsenseQA	~80%	~80%	미미한 향상

3. 기호 추론 벤치마크

과제	표준 프롬프팅	CoT 프롬프팅
Last Letter Concat (4 words)	~0%	58.0%
Coin Flip (4 flips)	~0%	91.4%

중요 발견: CoT는 OOD(Out-of-Distribution) 길이 일반화 능력도 보여줌 (예: 2-word 예시로 4-word 문제 해결)

모델 크기별 성능 (Emergent Ability)

모델 크기        | 표준 프롬프팅 | CoT 프롬프팅  | 효과
----------------|-------------|--------------|------
~1B 파라미터     | 낮음         | 낮음/더 낮음  | 역효과 가능
~10B 파라미터    | 중간         | 중간         | 미미함
~100B+ 파라미터  | 중간         | 높음 ⬆️      | 큰 효과

핵심 발견: CoT는 약 100B 파라미터 이상의 모델에서만 효과가 나타나는 창발적 능력(emergent ability)

Self-Consistency와 결합 시 결과

벤치마크	CoT만	CoT + Self-Consistency	추가 향상
GSM8K	56.9%	74.4%	+17.5%p
SVAMP	86.6%	93.0%	+6.4%p
StrategyQA	75.6%	82.0%	+6.4%p

오류 분석 (PaLM 62B, GSM8K)

오류 유형	비율	설명
거의 정확	46%	사소한 계산 실수
의미 이해 오류	27%	문제 이해 실패
일관성 오류	27%	추론 중 논리적 불일치

540B로 스케일업 시 62B의 “한 단계 누락”과 “의미 이해” 오류 대부분 해결됨

💪 강점 및 기여

1. 방법론적 단순성

파인튜닝 불필요: 기존 모델을 그대로 사용하며 프롬프트만 변경
최소한의 예시: 단 8개의 CoT 예시만으로 SOTA 달성
추가 학습 데이터 불필요: 대규모 rationale 데이터셋 구축 없이 적용 가능

2. 뛰어난 성능 향상

GSM8K에서 3배 이상 성능 향상 (17.9% → 56.9%)
기존 파인튜닝 + verifier 방식의 SOTA (55%)를 능가
여러 벤치마크에서 새로운 SOTA 달성

3. 해석 가능성 향상

모델의 추론 과정을 투명하게 관찰 가능
오류 디버깅 및 개선 방향 도출 용이
블랙박스 문제 일부 해소

4. 범용적 적용성

산술, 상식, 기호 추론 등 다양한 태스크에 적용 가능
인간이 언어로 해결할 수 있는 모든 문제에 확장 가능
다양한 도메인에 일반화

5. 학술적 기여

새로운 프롬프팅 패러다임 제시
Emergent Ability 발견: 모델 규모에 따른 추론 능력의 창발적 출현 입증
후속 연구의 기반: Zero-shot CoT, Self-Consistency, Tree-of-Thoughts 등 촉발
Scaling Law 확장: 단순 스케일링이 아닌 프롬프팅 방식의 중요성 강조

⚠️ 한계점 및 향후 연구

주요 한계점

1. 대규모 모델 의존성

100B+ 파라미터 모델에서만 효과 발휘
소형 모델은 유창하지만 논리적이지 않은 추론 체인 생성
소형 모델에서는 오히려 성능 저하 가능

2. 추론의 정확성 미보장

CoT가 항상 올바른 추론을 생성하지 않음
그럴듯해 보이지만 틀린 추론 경로 가능
Faithfulness 문제: 최종 답이 추론 과정과 불일치할 수 있음

3. 계산 비용 증가

대규모 모델 필요로 인한 높은 추론 비용
긴 출력 생성으로 인한 지연 시간 증가
토큰 비용 증가

4. 수동 예시 작성 필요

Few-shot 예시를 수동으로 작성해야 함
과제별 최적의 예시 선정이 어려움
어노테이션 비용 (대규모 적용 시)

5. 근본적 질문

모델이 진정으로 “추론”하는지, 패턴 매칭인지 논쟁 중
CoT가 인간의 사고를 모방하지만, 실제 “이해”인지 불명확

열린 질문들

모델 규모 증가에 따라 추론 능력이 얼마나 더 향상될 수 있을까?
어떤 프롬프팅 방법이 LLM이 해결할 수 있는 태스크 범위를 확장할 수 있을까?
CoT를 소형 모델에서도 효과적으로 만들 수 있을까?

🔗 관련 논문

선행 연구

논문	핵심 내용
Scratchpad (Nye et al., 2021)	중간 계산을 위한 스크래치패드 개념
Rationale-Augmented Training	추론 과정을 포함한 학습 데이터 활용

핵심 후속 연구

논문	핵심 내용	연도
Zero-shot CoT (Kojima et al.)	“Let’s think step by step” 한 문장으로 CoT 유도	2022
Self-Consistency (Wang et al.)	다양한 추론 경로 샘플링 후 다수결 투표	2022
Auto-CoT (Zhang et al.)	LLM으로 CoT 예시 자동 생성	2022
Least-to-Most Prompting	문제를 하위 문제로 분해하여 해결	2022

확장 연구들

논문	핵심 내용
Tree of Thoughts (ToT)	여러 추론 경로를 트리 구조로 탐색
Graph of Thoughts (GoT)	그래프 구조로 추론 확장
ReAct	추론(Reasoning)과 행동(Acting)을 결합
Reflexion	자기 반성을 통한 추론 개선
PAL (Program-Aided LM)	코드 생성을 통한 추론

💻 실무 적용 포인트

언제 CoT를 사용해야 하는가?

조건	권장 사항
다단계 추론 필요	CoT 적극 활용
대규모 모델 (100B+) 사용	CoT 효과적
수학/논리 문제	CoT 강력 추천
단순 한두 단계 문제	표준 프롬프팅으로 충분
소규모 모델	CoT 효과 제한적

CoT 프롬프트 작성 가이드

1. 기본 구조

당신은 문제를 단계별로 풀어나가는 전문가입니다.

예시 1:
Q: [질문]
A: [단계 1]. [단계 2]. [단계 3]. 따라서 답은 [답]입니다.

예시 2:
Q: [질문]
A: [단계 1]. [단계 2]. 따라서 답은 [답]입니다.

실제 문제:
Q: [새로운 질문]
A:

2. 효과적인 CoT 예시 작성 팁

원칙	설명
명확한 단계	각 추론 단계를 명확히 구분
자연스러운 언어	기계적이지 않은 자연스러운 설명
중간 계산 포함	숫자 문제의 경우 계산 과정 명시
다양한 예시	다양한 유형의 문제 포함
적절한 길이	너무 길거나 짧지 않게

3. Python 구현 예시

import openai

def create_cot_prompt(question: str) -> str:
    """Chain-of-Thought 프롬프트 생성"""

    exemplars = """
Q: Jason had 20 lollipops. He gave Denny some lollipops. Now Jason has 12 lollipops.
How many lollipops did Jason give to Denny?
A: Jason started with 20 lollipops. He now has 12 lollipops.
So he gave away 20 - 12 = 8 lollipops. The answer is 8.

Q: There are 15 trees in the grove. Grove workers will plant trees today.
After they are done, there will be 21 trees. How many trees did the workers plant?
A: There were 15 trees originally. After planting there are 21 trees.
So the workers planted 21 - 15 = 6 trees. The answer is 6.

Q: Shawn has five toys. For Christmas, he got two toys each from his mom and dad.
How many toys does he have now?
A: Shawn started with 5 toys. He got 2 toys from mom and 2 from dad,
which is 2 + 2 = 4 toys. So now he has 5 + 4 = 9 toys. The answer is 9.
"""

    prompt = f"{exemplars}\nQ: {question}\nA:"
    return prompt

def solve_with_cot(question: str, model: str = "gpt-4") -> dict:
    """CoT를 활용한 문제 해결"""

    prompt = create_cot_prompt(question)

    response = openai.ChatCompletion.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0,  # Greedy decoding
        max_tokens=256
    )

    output = response.choices[0].message.content

    # 답변 파싱
    reasoning = output.rsplit("The answer is", 1)[0].strip()
    answer = output.rsplit("The answer is", 1)[-1].strip().rstrip(".")

    return {
        "question": question,
        "reasoning": reasoning,
        "answer": answer,
        "full_output": output
    }

4. Zero-shot CoT 구현

def zero_shot_cot(question: str) -> str:
    """Zero-shot CoT - 가장 간단한 방법"""
    return f"{question}\n\nLet's think step by step."

# 한국어 버전
def zero_shot_cot_kr(question: str) -> str:
    return f"{question}\n\n단계별로 생각해봅시다."

5. Self-Consistency 구현

import collections

def self_consistency(question: str, n_samples: int = 5) -> str:
    """Self-Consistency를 통한 답변 신뢰도 향상"""

    answers = []

    for _ in range(n_samples):
        response = openai.ChatCompletion.create(
            model="gpt-4",
            messages=[{"role": "user", "content": create_cot_prompt(question)}],
            temperature=0.7,  # 다양성을 위한 temperature
            max_tokens=256
        )

        output = response.choices[0].message.content
        answer = extract_answer(output)
        answers.append(answer)

    # 다수결로 최종 답 선택
    counter = collections.Counter(answers)
    final_answer = counter.most_common(1)[0][0]

    return final_answer

한국어 CoT 예시

질문: 철수는 사과 5개를 가지고 있습니다. 영희에게 2개를 주고,
어머니께 3개를 더 받았습니다. 철수가 가진 사과는 몇 개일까요?

풀이: 철수는 처음에 사과 5개를 가지고 있습니다.
영희에게 2개를 주었으므로 5 - 2 = 3개가 남습니다.
어머니께 3개를 더 받았으므로 3 + 3 = 6개가 됩니다.
따라서 답은 6개입니다.

실무 적용 시 주의사항

모델 크기 고려: GPT-4, Claude, Gemini 등 대규모 모델에서 효과적
토큰 비용 관리: 추론 단계로 인한 출력 토큰 증가 고려
도메인별 예시 준비: 태스크에 맞는 고품질 CoT 예시 준비
Self-Consistency 활용: 중요한 결정에는 다중 샘플링 고려
출력 파싱: “The answer is” 같은 마커로 최종 답 추출

🏷️ Tags

#ChainOfThought #CoT #Prompting #Reasoning #LLM #NeurIPS2022 #GoogleBrain #EmergentAbility #ArithmeticReasoning #CommonsenseReasoning #SymbolicReasoning #PromptEngineering #FewShotLearning #InContextLearning #GSM8K #PaLM #GPT3 #SelfConsistency #ZeroShotCoT #AIAgent