[AI Paper] 📄 ReAct: Synergizing Reasoning and Acting in Language Models

2026년 01월 25일 11 Min Read

📄 ReAct: Synergizing Reasoning and Acting in Language Models

📋 메타 정보

항목	내용
저자	Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
소속	Princeton University (Department of Computer Science), Google Research (Brain Team)
발표처	ICLR 2023 (International Conference on Learning Representations)
연도	2022년 10월 (arXiv), 2023년 (ICLR 발표)
수상	ICLR 2023 Notable Top 5% Paper, Oral Presentation
arXiv	https://arxiv.org/abs/2210.03629
OpenReview	https://openreview.net/forum?id=WE_vluYUL-X
GitHub	https://github.com/ysymyth/ReAct
프로젝트 페이지	https://react-lm.github.io/

🎯 한줄 요약

LLM이 추론(Reasoning)과 행동(Acting)을 교차(interleaved) 방식으로 생성하도록 하여, 동적 추론을 통한 행동 계획 수립과 외부 환경과의 상호작용을 통한 정보 수집을 동시에 가능하게 한 AI Agent의 핵심 프레임워크

🔍 연구 배경 및 동기

기존 문제점

Reasoning과 Acting의 분리된 연구
- LLM의 추론 능력(예: Chain-of-Thought prompting)과 행동 능력(예: action plan generation)이 별개의 연구 주제로 다뤄져 옴
- 두 능력 간의 시너지 효과를 활용하지 못함
Chain-of-Thought (CoT)의 한계
- 외부 세계에 대한 접근 불가
- 지식 업데이트 불가능
- 환각(Hallucination) 문제: 논리적으로 들리지만 사실과 다른 내용 생성
  - HotpotQA에서 CoT의 환각으로 인한 false positive rate이 ReAct 대비 2배 이상 (14% vs 6%)
  - CoT의 주요 실패 원인 중 56%가 환각으로 인한 것
- 오류 전파(Error Propagation): 초기 추론 오류가 후속 단계로 전파
Action-only 접근법의 한계
- 고수준 목표 추적 및 계획 조정 능력 부족
- 예외 상황 처리 어려움
- 행동의 근거나 의도 파악 불가
- 목표를 하위 목표로 적절히 분해하지 못함

왜 이 연구가 필요한가?

인간의 문제 해결 방식: 추론과 행동이 긴밀하게 연결
예: 요리할 때 레시피를 추론하면서(reason to act) 동시에 재료 상태를 확인하며 계획 조정(act to reason)
또 다른 예: “식탁 위에 없으니 서랍을 확인해봐야겠다”는 생각(추론) -> 서랍 열기(행동) -> 결과 확인(관찰)
LLM도 이러한 인간과 유사한 시너지적 접근이 필요

💡 핵심 아이디어

ReAct = Reasoning + Acting

ReAct는 LLM이 추론 트레이스(reasoning traces)와 태스크별 행동(task-specific actions)을 인터리빙(interleaving) 방식으로 생성하도록 함.

양방향 시너지

┌─────────────────────────────────────────────────────────────────┐
│                        ReAct Framework                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   Reason to Act                    Act to Reason               │
│   ─────────────                    ─────────────               │
│   • 동적 추론으로 고수준 계획 수립    • 외부 환경과 상호작용      │
│   • 계획 유지 및 조정                • 추가 정보 획득            │
│   • 예외 상황 처리                  • 추론에 새 정보 반영       │
│                                                                 │
│         ┌──────┐        ┌──────┐        ┌──────────┐           │
│         │Thought│──────▶│Action│──────▶│Observation│           │
│         └──────┘        └──────┘        └──────────┘           │
│              ▲                               │                  │
│              └───────────────────────────────┘                  │
│                         (반복)                                  │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

Thought-Action-Observation 루프

구성요소	역할	특징	예시
Thought	추론	외부 환경에 영향 없음, 내부 추론만	“Colorado orogeny의 동부 구역을 찾아봐야겠다”
Action	행동	외부 환경과 상호작용	`Search[High Plains]`, `Lookup[eastern sector]`
Observation	관찰	행동 결과 수신	“High Plains는 해발 1,800~7,000ft에 위치…”

핵심 차별점

Reasoning traces는 외부 환경에 영향을 주지 않음 (순수 내부 추론)
Actions는 외부 환경과 상호작용하여 observation feedback을 받음
두 가지가 교차(interleaved)되면서 시너지 효과 발생

🏗️ 아키텍처 / 방법론

시스템 구조

┌────────────────────────────────────────────────────────────────────┐
│                         ReAct System                               │
├────────────────────────────────────────────────────────────────────┤
│                                                                    │
│  ┌─────────────┐     ┌─────────────────────────────────────────┐  │
│  │   Prompt    │     │              Frozen LLM                 │  │
│  │ (Few-shot   │────▶│       (PaLM-540B / GPT-3 등)            │  │
│  │ Exemplars)  │     │                                         │  │
│  └─────────────┘     └──────────────────┬──────────────────────┘  │
│                                         │                          │
│                                         ▼                          │
│                      ┌──────────────────────────────────┐          │
│                      │     Autoregressive Generation    │          │
│                      │  ┌─────────┐    ┌─────────────┐  │          │
│                      │  │ Thought │ or │   Action    │  │          │
│                      │  └─────────┘    └─────────────┘  │          │
│                      └──────────────────┬───────────────┘          │
│                                         │                          │
│                           ┌─────────────┴─────────────┐            │
│                           ▼                           ▼            │
│                    Thought인 경우              Action인 경우       │
│                    (컨텍스트에                (외부 환경 호출)     │
│                     추가만)                          │             │
│                                                      ▼             │
│                                        ┌─────────────────────┐     │
│                                        │  External Environment│     │
│                                        │  - Wikipedia API     │     │
│                                        │  - ALFWorld          │     │
│                                        │  - WebShop           │     │
│                                        └──────────┬──────────┘     │
│                                                   │                │
│                                                   ▼                │
│                                        ┌─────────────────────┐     │
│                                        │    Observation      │     │
│                                        │  (컨텍스트에 추가)   │     │
│                                        └─────────────────────┘     │
│                                                                    │
└────────────────────────────────────────────────────────────────────┘

ReAct 프롬프트 구조

[Few-shot 예시들]
Question: {질문}
Thought 1: {현재 상황 분석 및 계획}
Action 1: {수행할 액션}[{파라미터}]
Observation 1: {액션 결과}
Thought 2: {관찰 결과 분석 및 다음 계획}
Action 2: ...
...
Thought N: {최종 답변 도출 추론}
Action N: Finish[{최종 답변}]

지원 액션 타입 (QA/Fact Verification)

액션	설명	예시
`Search[entity]`	Wikipedia에서 엔티티 검색, 첫 5문장 반환. 없으면 상위 5개 유사 엔티티 제안	`Search[Colorado orogeny]`
`Lookup[keyword]`	현재 페이지에서 키워드가 포함된 다음 문장 반환 (Ctrl+F 시뮬레이션)	`Lookup[eastern sector]`
`Finish[answer]`	최종 답변 제출 및 태스크 종료	`Finish[1,800 to 7,000 ft]`

실제 예시 (HotpotQA)

Question: Colorado orogeny의 동부 구역이 확장되는 지역의 고도 범위는?

Thought 1: Colorado orogeny를 검색하여 동부 구역 정보를 찾아야 한다.
Action 1: Search[Colorado orogeny]
Observation 1: The Colorado orogeny was an episode of mountain building...
              (동부 구역에 대한 직접적 언급 없음)

Thought 2: 동부 구역에 대한 언급이 없다. 동부 구역을 lookup해야 한다.
Action 2: Lookup[eastern sector]
Observation 2: (Result 1/1) The eastern sector extends into the High Plains
              and is called the Central Plains orogeny.

Thought 3: 동부 구역이 High Plains로 확장된다. High Plains의 고도를 검색해야 한다.
Action 3: Search[High Plains]
Observation 3: High Plains refers to one of the two distinct land regions...
              rise in elevation from around 1,800 to 7,000 ft.

Thought 4: High Plains의 고도 범위는 1,800~7,000 ft이다. 이것이 답이다.
Action 4: Finish[1,800 to 7,000 ft]

Interactive Decision Making 예시 (ALFWorld)

Task: put a clean apple in the fridge.

Thought: To complete this task, I need to find an apple, clean it, then put it in the fridge.
Action: go to countertop 1
Observation: On the countertop 1, you see an apple 1.

Thought: I found an apple. Now I need to take it.
Action: take apple 1 from countertop 1
Observation: You pick up the apple 1.

Thought: I have the apple. Now I need to clean it at the sink.
Action: go to sinkbasin 1
Observation: On the sinkbasin 1, you see nothing.

Thought: I'm at the sink. Let me clean the apple.
Action: clean apple 1 with sinkbasin 1
Observation: You clean the apple 1 using the sinkbasin 1.

Thought: The apple is clean. Now I need to put it in the fridge.
Action: go to fridge 1
Observation: The fridge 1 is closed.

Action: open fridge 1
Observation: You open the fridge 1.

Action: put apple 1 in/on fridge 1
Observation: You put the apple 1 in/on the fridge 1.

알고리즘 Pseudo Code

def react_agent(question, few_shot_examples, llm, environment):
    """
    ReAct Agent 알고리즘

    Args:
        question: 해결할 질문/태스크
        few_shot_examples: 인컨텍스트 학습용 예시 궤적들
        llm: 사전학습된 언어 모델 (frozen, PaLM-540B)
        environment: 외부 환경 (Wikipedia API, ALFWorld 등)

    Returns:
        final_answer: 최종 답변
    """
    # 프롬프트 초기화
    context = few_shot_examples + f"\nQuestion: {question}\n"
    step = 1

    while True:
        # 1. Thought 생성 (추론 단계)
        thought = llm.generate(
            context + f"Thought {step}:",
            stop_tokens=["Action"]
        )
        context += f"Thought {step}: {thought}\n"

        # 2. Action 생성 (행동 결정)
        action = llm.generate(
            context + f"Action {step}:",
            stop_tokens=["Observation"]
        )
        context += f"Action {step}: {action}\n"

        # 3. Action 파싱 및 실행
        action_type, action_arg = parse_action(action)

        # 종료 조건 체크
        if action_type == "finish":
            return action_arg

        # 4. 환경과 상호작용하여 Observation 획득
        observation = environment.execute(action_type, action_arg)
        context += f"Observation {step}: {observation}\n"

        step += 1

        # 최대 스텝 도달 시 종료
        if step > MAX_STEPS:
            return "Unable to find answer"


def parse_action(action_string):
    """
    액션 문자열을 파싱하여 타입과 인자 추출
    예: "search[Colorado orogeny]" -> ("search", "Colorado orogeny")
    """
    match = re.match(r"(\w+)\[(.+)\]", action_string)
    if match:
        return match.group(1), match.group(2)
    return None, None

4가지 프롬프팅 방법 비교

┌────────────────────────────────────────────────────────────┐
│              Prompting Methods Comparison                  │
├────────────────────────────────────────────────────────────┤
│                                                            │
│  (a) Standard:   Question → Answer                         │
│                  (직접 답변, 추론 없음)                     │
│                                                            │
│  (b) CoT:        Question → Thought₁ → ... → Answer        │
│      (Reason     (내부 추론만, 외부 상호작용 없음)          │
│       Only)                                                │
│                                                            │
│  (c) Act-only:   Question → Action₁ → Obs₁ → ... → Answer  │
│                  (행동만, 추론 없음)                        │
│                                                            │
│  (d) ReAct:      Question → Thought₁ → Action₁ → Obs₁ →    │
│                            Thought₂ → Action₂ → Obs₂ → ... │
│                  (추론 + 행동 교차)                         │
│                                                            │
└────────────────────────────────────────────────────────────┘

📊 실험 및 결과

사용 모델 및 설정

Base Model: PaLM-540B (frozen, prompting only)
Few-shot Examples: 1-6개의 in-context 예시
비교 모델: GPT-3 (text-davinci-002)

벤치마크 개요

벤치마크	태스크 유형	환경	평가 지표
HotpotQA	다중 홉 질문 답변	Wikipedia API	Exact Match (EM)
FEVER	사실 검증 (SUPPORTS/REFUTES/NOT ENOUGH INFO)	Wikipedia API	Accuracy
ALFWorld	텍스트 기반 게임	가상 가정 환경	Success Rate
WebShop	웹페이지 탐색 및 쇼핑	웹 시뮬레이터	Success Rate, Reward

Knowledge-Intensive Tasks 결과

HotpotQA (Multi-hop Question Answering)

방법	Exact Match (EM)	특징
Standard	25.7%	단순 답변 생성
CoT (Chain-of-Thought)	29.4%	내부 추론만 사용
Act-only	25.7%	행동만 수행, 추론 없음
ReAct	27.4%	추론 + 행동 결합
ReAct + CoT-SC	35.1%	두 방법 결합 시 최고 성능

Note: CoT가 HotpotQA에서 약간 높은 성능을 보이나, ReAct는 해석 가능성과 신뢰성에서 우위

FEVER (Fact Verification)

방법	Accuracy	False Positive Rate
CoT	56.3%	14% (환각으로 인한)
Act-only	58.9%	–
ReAct	60.9%	6%
ReAct + CoT-SC	64.6%	–

ReAct가 FEVER에서 CoT 대비 4.6%p 향상, 환각으로 인한 오류 대폭 감소

Decision Making Tasks 결과

ALFWorld (Text-based Game)

방법	Success Rate	Training Data
BUTLER (IL)	26%	10^5 instances
BUTLER (IL+RL)	37%	10^5 instances
Act-only (1-shot)	45%	1 example
ReAct (1-shot)	71%	1 example
ReAct (best trial)	71%	–
ReAct (worst trial)	48%	–

ReAct가 강화학습/모방학습 대비 34%p 절대적 향상, 훈련 데이터 거의 불필요

WebShop (Web Navigation)

방법	Success Rate	Reward
IL (Imitation Learning)	29.1%	–
IL + RL	30%	–
ReAct (1-shot)	40%	–
Human Expert	50%	–

ReAct가 기존 최고 방법 대비 10%p 향상, 인간 수준(50%)에 근접

오류 분석

오류 유형	CoT	ReAct	설명
환각 (Hallucination)	56%	낮음	CoT의 주요 실패 원인
비정보적 검색	–	23%	ReAct의 주요 실패 원인
추론 오류	중간	낮음	–
False Positive Rate	14%	6%	환각으로 인한 잘못된 긍정

핵심 발견

환각 감소: ReAct는 CoT 대비 환각으로 인한 실패를 크게 감소시킴
샘플 효율성: 1-2개의 few-shot 예제만으로 10^3~10^5개 인스턴스로 훈련된 IL/RL 방법 능가
ReAct + CoT 결합이 최적: 내부 지식(CoT)과 외부 정보(ReAct) 모두 활용 가능
검색 품질의 중요성: ReAct에서 비정보적 검색(non-informative search)은 오류의 23% 차지

💪 강점 및 기여

학술적 기여

새로운 패러다임 제시: 추론과 행동의 시너지를 통한 LLM 에이전트의 기초 프레임워크 확립
환각 문제 완화: 외부 지식 기반과의 상호작용을 통해 사실적 정확성 향상
해석 가능성 향상: 인간과 유사한 문제 해결 궤적 생성으로 디버깅 용이

실용적 장점

장점	설명
해석 가능성	각 단계의 추론 과정이 명시적으로 표현됨
디버깅 용이	어느 단계에서 오류가 발생했는지 쉽게 파악 가능
환각 감소	외부 지식 소스와 상호작용하여 사실 확인
오류 전파 방지	중간 단계에서 외부 피드백으로 오류 수정
데이터 효율성	1-2개의 few-shot 예시만으로 강력한 성능
유연성	다양한 도메인(QA, 게임, 웹)에 적용 가능
제어 가능성	인간이 추론 과정에 개입하여 수정 가능

Human-in-the-Loop 가능성

환각이 발생한 문장을 인간이 수정하면 모델이 이를 반영하여 올바른 답을 도출
소수의 Thought만 수정하면 되므로 인간-기계 협업에 효과적

실무적 영향

LangChain Agents의 기반: 상용 AI 에이전트 프레임워크의 핵심 구조로 채택
AI Agent 연구의 기초: 후속 연구(Reflexion, ReSpAct, AutoGPT 등)의 foundation
산업 표준화: Tool-calling AI 시스템의 de facto 표준 패턴으로 자리잡음

⚠️ 한계점 및 향후 연구

논문에서 언급한 한계

검색 의존성
- 비정보적 검색(non-informative search)이 오류의 23% 차지
- 검색 실패 시 추론 복구 어려움
- 모델이 추론을 재구성하기 어려움
구조적 경직성
- Thought -> Action -> Observation의 고정된 순서
- 유연성 부족
프롬프팅 기반의 한계
- Few-shot 예시의 품질에 성능 의존
- 도메인별 프롬프트 설계 필요
추론 루프 문제
- 같은 Thought나 Action을 반복하는 루프에 빠질 수 있음
인간 수준 대비 성능 격차
- WebShop에서 인간 전문가(50%) 대비 여전히 낮은 성능(40%)

향후 연구 방향

방향	설명
강화학습 통합	RL을 통한 장기 계획 및 전략 학습, 보상/패널티 기반 행동 개선
멀티태스크 학습	여러 태스크 동시 학습으로 일반화 향상, few-shot 의존도 감소
Fine-tuning	ReAct 궤적으로 소형 모델 직접 학습, 더 나은 성능
Human Feedback	인간 피드백 통합으로 추론 품질 향상
더 나은 검색	정보 검색 품질 개선을 통한 비정보적 검색 문제 해결
멀티모달 확장	비전, 오디오 등 다양한 모달리티 지원

후속 연구들의 개선

연구	ALFWorld	WebShop	개선점
ReAct (원본)	71%	40%	Baseline
ReSpAct	77% (+6%)	44% (+4%)	Self-Planning 추가
A3T (ActRe)	96% (+25%)	49% (+9%)	ActRe 기반 학습
REBACT	98.51%	61%	Reflection 강화

🔗 관련 논문

선행 연구

논문	관계	핵심 내용
Chain-of-Thought Prompting (Wei et al., 2022)	Reasoning 기반	추론 과정을 단계별로 생성하여 복잡한 문제 해결
Self-Consistency (Wang et al., 2022)	Reasoning 기반	다중 추론 경로 샘플링 및 일관성 검증
Zero-shot CoT (Kojima et al., 2022)	Reasoning 기반	“Let’s think step by step”으로 제로샷 추론
Inner Monologue (Huang et al., 2022)	Acting 기반	로봇 환경에서 closed-loop 피드백 시스템
SayCan (Ahn et al., 2022)	Acting 기반	LLM + 로봇 행동 결합
WebGPT (Nakano et al., 2021)	Acting 기반	웹 브라우징을 통한 QA

후속/관련 연구

논문	관계	핵심 내용
Reflexion (Shinn et al., 2023)	ReAct 확장	자기 반성을 통한 에이전트 개선, 메모리 피드백
Tree of Thoughts (Yao et al., 2023)	Reasoning 확장	다중 추론 경로 트리 탐색
Toolformer (Schick et al., 2023)	도구 사용	LLM의 자가 지도 API 호출 학습
MRKL Systems (Karpas et al., 2022)	관련 프레임워크	Modular Reasoning, Knowledge, Language
AutoGPT, BabyAGI (2023)	실용 응용	ReAct 기반 자율 에이전트

ReAct vs Inner Monologue 차이점

Inner Monologue: Closed-loop 피드백 시스템의 첫 번째 연구, ReAct의 영감
ReAct 저자들의 주장: Inner Monologue는 진정한 의미의 “inner thoughts”를 포함하지 않음
ReAct는 explicit한 reasoning traces를 통해 더 명확한 추론 과정 제공

💻 실무 적용 포인트

ReAct 프롬프트 템플릿 (QA용)

Solve a question answering task with interleaving Thought, Action, Observation steps.

Thought can reason about the current situation.
Action can be three types:
(1) Search[entity]: searches the exact entity on Wikipedia and returns the first paragraph.
(2) Lookup[keyword]: returns the next sentence containing keyword in the current passage.
(3) Finish[answer]: returns the answer and finishes the task.

Here are some examples:
{few_shot_examples}

Question: {input_question}
{agent_scratchpad}

LangChain 구현 예시 (Classic)

from langchain import hub
from langchain.agents import AgentExecutor, create_react_agent
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_openai import ChatOpenAI

# 1. 프롬프트 로드
prompt = hub.pull("hwchase17/react")

# 2. LLM 초기화
llm = ChatOpenAI(model="gpt-4", temperature=0)

# 3. 도구 정의
tools = [TavilySearchResults(max_results=3)]

# 4. ReAct 에이전트 생성
agent = create_react_agent(llm, tools, prompt)

# 5. 실행기 생성
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True,
    max_iterations=10,
    handle_parsing_errors=True
)

# 6. 실행
result = agent_executor.invoke({
    "input": "What is the elevation range of the area that the eastern sector of Colorado orogeny extends into?"
})

LangGraph 구현 (Modern Approach – 권장)

from langgraph.prebuilt import create_react_agent
from langchain_core.tools import tool

@tool
def search_wikipedia(query: str) -> str:
    """Search Wikipedia for information about a topic."""
    # Wikipedia API 호출 구현
    return wikipedia_api.search(query)

@tool
def lookup_keyword(keyword: str) -> str:
    """Look up a keyword in the current page."""
    return current_page.find(keyword)

# ReAct 에이전트 생성
graph = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",
    tools=[search_wikipedia, lookup_keyword],
    prompt="You are a helpful research assistant."
)

# 실행
inputs = {"messages": [{"role": "user", "content": "질문 내용"}]}
for chunk in graph.stream(inputs, stream_mode="updates"):
    print(chunk)

커스텀 ReAct 프롬프트 템플릿 (한국어)

REACT_PROMPT_KR = """다음 도구들을 사용하여 질문에 답하세요:

{tools}

다음 형식을 사용하세요:

Question: 답해야 할 질문
Thought: 무엇을 해야 할지 항상 생각하세요
Action: [{tool_names}] 중 하나의 액션
Action Input: 액션에 대한 입력
Observation: 액션의 결과
... (Thought/Action/Action Input/Observation을 N번 반복)
Thought: 이제 최종 답을 알았습니다
Final Answer: 원래 질문에 대한 최종 답변

시작하세요!

Question: {input}
{agent_scratchpad}"""

실무 적용 시 고려사항

고려사항	권장 사항
Few-shot 예시	도메인에 맞는 고품질 예시 3-6개 준비
도구 설계	명확한 설명과 파라미터 정의 필수
최대 반복 횟수	무한 루프 방지를 위해 max_iterations 설정 (7-10 권장)
에러 처리	검색 실패 시 대체 전략 구현, 파싱 에러 핸들링
토큰 관리	Thought 생성으로 인한 추가 토큰 비용 고려
로깅	Thought/Action/Observation 전체 로깅으로 디버깅
폴백 전략	ReAct 실패 시 CoT 폴백 구현 권장

디버깅 팁

# verbose=True로 설정하여 전체 추론 과정 확인
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True,  # 추론 과정 출력
    return_intermediate_steps=True  # 중간 단계 반환
)

result = agent_executor.invoke({"input": "질문"})

# 중간 단계 분석
for step in result["intermediate_steps"]:
    action, observation = step
    print(f"Action: {action.tool}")
    print(f"Input: {action.tool_input}")
    print(f"Observation: {observation}")
    print("---")

🏷️ Tags

#AIAgent #ReAct #Reasoning #Acting #LLM #PromptEngineering #ChainOfThought #CoT #Hallucination #HotpotQA #FEVER #ALFWorld #WebShop #LangChain #LangGraph #ICLR2023 #Princeton #GoogleBrain #LanguageModel #AgenticAI #ToolUse #ThoughtActionObservation #InteractiveDecisionMaking #FewShotLearning #WikipediaAPI