[AI Paper] LLM-in-Sandbox Elicits General Agentic Intelligence
📄 LLM-in-Sandbox Elicits General Agentic Intelligence
개요
이 연구는 LLM-in-Sandbox라는 새로운 패러다임을 제안합니다. LLM에게 코드 샌드박스(가상 컴퓨터) 내에서 자유롭게 탐색할 수 있는 환경을 제공하여, 코딩이 아닌 일반 도메인에서도 일반 에이전트 지능(General Agentic Intelligence)을 발현시킬 수 있음을 입증합니다.
[!tip] 핵심 발견
강력한 에이전트 LLM은 추가 학습 없이도 코드 샌드박스를 활용하여 다양한 비코딩 작업에서 성능 향상을 달성합니다. 또한, 일반 비에이전트 데이터만으로 학습된 LLM-in-Sandbox Reinforcement Learning을 통해 약한 모델도 샌드박스 탐색 능력을 획득할 수 있음을 보여줍니다.
1단계: 기본 정보
제목
LLM-in-Sandbox Elicits General Agentic Intelligence
저자
- Daixuan Cheng (GSAI, Renmin University of China)
- Shaohan Huang (Microsoft Research)
- Yuxian Gu (Tsinghua University)
- Huatong Song (GSAI, Renmin University of China)
- Guoxin Chen (GSAI, Renmin University of China)
- Li Dong (Microsoft Research)
- Wayne Xin Zhao (GSAI, Renmin University of China) †
- Ji-Rong Wen (GSAI, Renmin University of China)
- Furu Wei (Microsoft Research) †
출판정보
- arXiv ID: 2601.16206v1
- 발행일: 2026년 1월
- 분류: cs.CL, cs.AI
링크
- arXiv: https://arxiv.org/abs/2601.16206v1
- PDF: https://arxiv.org/pdf/2601.16206v1.pdf
- 프로젝트 페이지: https://llm-in-sandbox.github.io
2단계: 연구 내용
1. 연구 배경 및 문제의식
LLM 진화의 흐름
LLM의 능력은 다음과 같은 패러다임을 통해 점진적으로 해금되어 왔습니다:
- In-Context Learning: 작업별 파인튜닝 없이 새 작업에 일반화 가능 (Brown et al., 2020)
- Chain-of-Thought Prompting: 문제를 단계로 분해하도록 유도하여 추론 능력 발현 (Wei et al., 2022)
- Agentic Frameworks: 다양한 도구를 여러 차례에 걸쳐 활용 가능 (Anthropic, 2025)
문제 제기
“이러한 궤적을 따라, LLM의 능력을 어떻게 더 해금할 수 있을까?”
샌드박스의 잠재력
컴퓨터는 인류 역사상 가장 다재다능한 플랫폼입니다. 그 다재다능함은 3가지 메타 능력에서 비롯됩니다:
- 외부 리소스 접근 (예: 인터넷)
- 파일 관리 (데이터 영구 저장 및 조직)
- 코드 실행 (임의 프로그램 작성 및 실행)
연구 가설
가설: LLM의 강력한 추론 및 에이전트 능력을 가상 컴퓨터와 결합하면, 일반 지능(General Intelligence)의 잠재력을 해금할 수 있다.
2. 연구 목적 및 연구 질문
주요 목표
- LLM-in-Sandbox 패러다임의 타당성 입증: LLM이 코드 샌드박스를 활용하여 비코딩 작업에서도 일반화 가능한지 확인
- 약한 모델의 샌드박스 활용 능력 증진: 비에이전트 데이터만으로 샌드박스 탐색 훈련 가능한지 확인
- 효율성 및 배포 가능성 분석: 컴퓨팅 비용, 속도, 인프라 관점에서 실용성 평가
- 오픈소스화: 실제 배포를 촉진하기 위해 Python 패키지로 공개
핵심 연구 질문
- RQ1: 강력한 에이전트 LLM이 추가 학습 없이도 샌드박스를 비코딩 작업에 활용할 수 있는가?
- RQ2: 일반 비에이전트 데이터만으로 샌드박스 탐색 능력을 학습시킬 수 있는가?
- RQ3: LLM-in-Sandbox는 도메인 간 일반화와 효율적 배포에서 어떤 이점을 제공하는가?
3. 이론적 프레임워크
LLM-in-Sandbox 설계 원칙
이 패러다임은 두 가지 원칙을 강조합니다:
| 원칙 | 설명 |
|---|---|
| 최소화 (Minimal) | 3가지 핵심 능력을 갖춘 기본 코드 샌드박스만 제공 |
| 탐색적 (Exploratory) | 모델이 다양한 해결 전략을 발견하도록 장려 |
컴퓨터의 3가지 메타 능력
┌─────────────────────────────────────────────┐
│ 가상 컴퓨터 (Code Sandbox) │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐│
│ │ 외부 │ │ 파일 │ │ 코드 ││
│ │ 리소스 │ │ 관리 │ │ 실행 ││
│ │ 접근 │ │ │ │ ││
│ └─────────┘ └─────────┘ └─────────┘│
└─────────────────────────────────────────────┘
- External Resource Access: 외부 서비스(인터넷, 패키지 저장소 등)에서 리소스 가져오기
- File Management: 데이터 읽기, 쓰기, 영구 저장
- Code Execution: 임의 프로그램 작성 및 실행
ReAct 프레임워크 기반 워크플로우
LLM-in-Sandbox는 ReAct(Reasoning + Acting) 프레임워크를 기반으로 합니다:
while (not done and turns < max_turns):
1. 모델이 프롬프트와 히스토리 기반으로 툴 호출 생성
2. 툴 호출 실행 → 샌드박스에서 관찰(observation) 얻음
3. (action, observation)를 상호작용 히스토리에 추가
4. 다음 액션 결정
4. 연구 방법론
4.1 샌드박스 설계
경량화된 일반 목적 설계
기존 SWE 에이전트와의 비교:
| 특성 | SWE 에이전트 | LLM-in-Sandbox |
|---|---|---|
| 환경 설정 | 작업별 특화 | 일반 목적 |
| 의존성 | 사전 구성 | 런타임 설치 |
| 저장소 확장 | 작업별 이미지 | 단일 공유 이미지 |
장점:
1. 일반화 가능성: 수동 재구성 없이 동일 환경이 다양한 작업 지원
2. 확장성: 균일한 설정으로 효율적 대규모 추론 및 훈련 가능
[!example] 저장소 비용 비교
– SWE 에이전트: 수천 개 작업에 대해 최대 6TB 저장소 필요
– LLM-in-Sandbox: 공유 이미지로 일정 1.1GB만 유지
최소 도구 세트
3가지 기본 도구만 제공:
- execute_bash: 임의 터미널 명령 실행 (가장 다재다능한 인터페이스)
- 패키지 설치
- 파일 관리
- 프로그램 실행
- str_replace_editor: 파일 생성, 보기, 편집
- submit: 작업 완료 표시
4.2 작업 입력/출력 처리
유연한 입력 처리
- 프롬프트 기반: 텍스트 형태로 제공
- 파일 기반: 긴 컨텍스트 작업 등에서 문서를
/testbed/documents/에 배치
예시: 100K 토큰이 넘는 보고서를 처리할 때, 모델이 샌드박스 파일 시스템을 통해 접근
깔끔한 출력 분리
- 최종 결과만 지정된 위치(예:
/testbed/answer.txt)에 배치 - 중간 콘텐츠 제외
- 작업 완료 후 해당 위치에서 결과 추출
4.3 LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL)
문제: 약한 모델의 샌드박스 활용 실패
강력한 에이전트 모델은 LLM-in-Sandbox 모드에서 성능 향상을 보이지만, 약한 모델은:
– LLM-in-Sandbox 모드가 일반 LLM 모드보다 성능 저하
– 샌드박스 탐색 힘들어함
해결책: 비에이전트 데이터 기반 RL 훈련
일반 컨텍스트 기반 작업 사용:
– 컨텍스트를 프롬프트에 직접 제공하지 않음
– 대신 샌드박스 내 텍스트 파일로 사전 배치
– 모델이 환경을 탐색하고 상호작용하도록 요구
결과 기반 보상 (Outcome-based Rewards)
DeepSeek-R1과 유사하게 단순한 결과 기반 보상 사용:
– 올바른 결과: 보상 +1
– 틀린 결과: 보상 0
4.4 실험 설정
평가 모델
| 유형 | 모델 |
|---|---|
| 프론티어 프라이빗 | Claude-Sonnet-4.5-Thinking, GPT-5 |
| 오픈 웨이트 | DeepSeek-V3.2-Thinking, MiniMax-M2, Kimi-K2-Thinking |
| 코드 전문 | Qwen3-Coder-30B-A3B-Instruct |
| 소형 일반 | Qwen3-4B-Instruct-2507 |
평가 도메인
비코딩 6개 도메인:
1. 수학 (Mathematics)
2. 물리 (Physics)
3. 화학 (Chemistry)
4. 생의학 (Biomedicine)
5. 긴 컨텍스트 이해 (Long-Context Understanding)
6. 지시 사항 준수 (Instruction Following)
[!important] 평가 방법
모델이 샌드박스에서 인터넷 접근 권한을 갖으므로:
– 테스트 문제를 재구성하여 벤치마크 해킹 방지
– 샘플링된 트래젝토리 수동 검증하여 유효한 추론 확인
5. 주요 결과
5.1 Training-free 설정
전체 성능 표
| 모델 | 수학 | 물리 | 화학 | 생의학 | 긴 컨텍스트 | 지시 준수 |
|---|---|---|---|---|---|---|
| Claude-Sonnet-4.5-Think | +6.6% | +6.4% | +1.1% | +1.0% | +1.3% | +12.7% |
| GPT-5 | +10.1% | +5.2% | +0.5% | -6.8% | +0.5% | +7.0% |
| DeepSeek-V3.2-Thinking | +7.9% | +1.7% | +1.1% | +2.8% | +3.0% | +14.4% |
| MiniMax-M2 | +5.0% | +4.0% | +14.4% | +2.0% | +6.2% | -11.7% |
| Kimi-K2-Thinking | +4.2% | -1.4% | +3.2% | -5.0% | +1.5% | +3.7% |
| Qwen3-Coder-30B-A3B | +24.2% | +11.1% | +5.6% | +1.4% | -3.3% | +5.0% |
| Qwen3-4B-Instruct-2507 | -5.9% | -4.2% | -5.5% | +0.2% | -25.0% | -4.0% |
[!note] 해석
– 강력한 에이전트 모델: 모든 평가 도메인에서 일관된 성능 향상
– 최대 개선: Qwen3-Coder에서 수학 +24.2%
– 약한 모델: Qwen3-4B-Instruct 실패 → LLM-in-Sandbox 모드가 일반 LLM 모드보다 성능 저하
5.2 샌드박스 활용 분석
3가지 핵심 능력 사용 빈도
모델이 샌드박스의 핵심 능력을 얼마나 자주 활용하는지 정량적으로 분석:
| 작업 유형 | 외부 리소스 | 파일 관리 | 연산 |
|---|---|---|---|
| 화학 | 높음 | 중간 | 높음 |
| 긴 컨텍스트 | 낮음 | 매우 높음 | 중간 |
| 지시 준수 | 낮음 | 중간 | 매우 높음 |
케이스 스터디 1: 외부 리소스 접근
작업: 화학 분자 이름만 주어져서 분자 특성 예측
모델의 해결 과정:
1. apt-get으로 Java 런타임 설치
2. OPSIN 라이브러리 다운로드 (화학 이름 → 분자 구조 변환)
3. 기본 환경에서 사용 불가능한 도메인 특화 도구 획득
[Turn 1] pip install rdkit-pypi -q
[Turn 8] apt-get install -y default-jre
[Turn 12] curl https://api.github.com/... | grep tag_name
[Turn 14] apt-get install -y libopsin-java
[Turn 18] java -jar opsin-cli.jar -o smi < input.txt
→ "NCC(CCCCCN1/C(/C(C2=CC=CC=C12)..." // 분자 구조
케이스 스터디 2: 파일 관리
작업: 100K 토큰이 넘는 긴 산업 보고서에서 특정 정보 추출
모델의 해결 과정:
1. ls, grep, sed로 관련 섹션 찾기
2. Python 스크립트 작성하여 체계적으로 정보 추출
[Turn 5] ls -la /testbed/documents/
[Turn 8] grep -n -i 'infringement' ...
→ 26: ... infringement notices issued by ...
→ 252: ... number of consumer-related infringements
[Turn 9] sed -n '240,280p' ...
→ There have been 12 infringement notices ...
[Turn 15] str_replace_editor create extract_industries.py
케이스 스터디 3: 연산
작업: 중세 역사에 대한 문장 3개 생성, 엄격한 제약:
– 모든 문장이 동일한 문자 수
– 전혀 다른 단어 사용
모델의 해결 과정:
1. Python 스크립트로 문자 수, 단어 중복 확인
2. 조합 검색으로 제약 조건 만족하는 후보 찾기
[Turn 3] create helper.py
def char_count(s): return len(s)
def word_set(s): return set(re.findall(r'\b\w+\b', s.lower()))
[Turn 4] python3 helper.py
→ Lengths: [90, 95, 91]
→ Overlap between 0 and 1: {'the'}
[Turn 12] create generate.py
for s1, s2, s3 in itertools.product(...):
if check_constraints([s1, s2, s3]):
candidates.append(...)
[Turn 13] python3 generate.py
→ Found 363 candidates with equal length and no overlapping words
5.3 LLM-in-Sandbox-RL 결과
RL 훈련 효과
LLM-in-Sandbox-RL은 다음을 달성:
1. 약한 모델의 샌드박스 활용 능력 증진: LLM-in-Sandbox 모드가 일반 LLM 모드보다 우월해짐
2. 강력한 모델의 능력 강화: 이미 강한 에이전트 능력을 가진 모델도 향상
3. 강력한 일반화:
– 다양한 도메인 외 작업에서 일관된 개선
– 심지어 일반 LLM 모드도 강화
도메인 간 일반화
훈련된 모델이 학습에 사용되지 않은 새로운 도메인에서도 성능 향상 달성
모델 능력 간 일반화
강력한 모델뿐만 아니라, 약한 모델도 훈련을 통해 샌드박스 탐색 능력 습득
추론 모드 간 일반화
- LLM-in-Sandbox 모드 향상
- 동시에 일반 LLM 모드도 강화 (훈련 효과가 샌드박스 외부로 전이)
[!important] 주요 발견
LLM-in-Sandbox-RL은 에이전트 지능과 비에이전트 지능 모두를 발현시키는 일반 방법이 될 수 있다는 증거를 제공합니다.
6. 논의 및 해석
6.1 왜 샌드박스가 일반 지능을 발현시키는가?
다재다능성 (Versatility)
컴퓨터는 인류 역사상 가장 다재다능한 플랫폼:
– 모든 작업을 컴퓨터로 완수 가능
– 다양한 도구를 통해 문제 해결
메타 능력 (Meta-capabilities)
3가지 메타 능력의 결합:
1. 외부 리소스 접근: 새 도구와 지식 획득
2. 파일 관리: 대용량 데이터 처리 및 조직
3. 코드 실행: 복잡한 연산 및 시뮬레이션
이것이 일반 지능의 기초를 형성합니다.
자발적 활용 (Spontaneous Utilization)
강력한 에이전트 LLM은 추가 프롬프트나 훈련 없이도:
– 도메인 특화 도구 자체 설치
– 파일 시스템 활용하여 긴 컨텍스트 처리
– 스크립트 실행하여 포맷 요구사항 충족
6.2 약한 모델 실패 원인
샌드박스 탐색의 복잡성
- 다단계 상호작용 요구
- 환경 피드백을 효과적으로 활용해야 함
- 약한 모델은 이 툴-사용 루프에 어려움 겪음
해결책의 효과성
LLM-in-Sandbox-RL은:
– 단순한 결과 기반 보상 사용
– 비에이전트 데이터만으로 훈련
– 그럼에도 불구하고 샌드박스 탐색 능력 효과적으로 전이
6.3 실무 적용 시사점
효율적 배포
- 토큰 소비 감소: 긴 컨텍스트 시나리오에서 최대 8× 감소 (100K → 13K 토큰)
- 경쟁력 있는 처리량: 평균적으로 쿼리 레벨 처리량 유지
- 최소 인프라 오버헤드: 샌드박스 인프라 유지비 최소화
오픈소스화
- Python 패키지로 공개
- vLLM, SGLang 등 인기 인프라와 통합
- API 기반 LLM 호환
6.4 향후 방향
기본 인프라로서의 LLM-in-Sandbox
- “기본 추론 인프라”로 채택 가능
- 다양한 LLM과 도메인에 범용 적용
에이전트 능력 벤치마크로서의 LLM-in-Sandbox
- 샌드박스 활용 능력 평가를 위한 표준화된 벤치마크 제안
- 모델 비교에 활용 가능
샌드박스 네이티브 모델 훈련
- 샌드박스 환경에서 처음부터 훈련된 모델 개발 가능성
- 더 깊은 통합과 효율성 기대
7. 한계 및 제언
한계점
1. 평가 범위
- 주로 6개 비코딩 도메인에 초점
- 실제 세계의 다양한 작업 유형을 완전히 커버하지 못할 수 있음
2. 샌드박스 보안
- 격리된 Docker 컨테이너 사용하지만
- 완전히 안전하지는 않음 (인터넷 접근 허용)
- 실제 배포 시 추가 보안 계층 필요
3. 계산 비용
- 샌드박스 유지는 추가 리소스 요구
- 대규모 배포 시 비용 고려 필요
4. 모델 의존성
- 강력한 에이전트 능력을 가진 모델이 training-free 설정에서 주로 이득
- 약한 모델은 RL 훈련이 필요
제언
1. 향후 연구 방향
- 더 넓은 도메인 확장:
- 예술, 음악, 게임 등 창의적 작업
- 실제 세계 로봇 제어 등 물리적 작업
- 고급 샌드박스 환경:
- GPU 접근 (딥러닝 모델 실행)
- GUI 애플리케이션 제어
- 멀티모달 입력 처리
- 훈련 방법론 개선:
- 더 정교한 보상 설계
- 고품질 샌드박스 트래젝토리 수집
- 대규모 RL 훈련
- 안전성 강화:
- 샌드박스 내 위험한 작업 감지 및 방지
- 도메인별 제약 조건 구현
- 안전 가드레일 개발
2. 실무 적용 가이드
- 비용 효율성 평가:
- 작업 유형별 토큰 감소 효과 측정
- 샌드박스 인프라 비용 vs 토큰 비용 분석
- 모델 선택:
- 강력한 에이전트 모델: training-free로 즉시 사용
- 약한 모델: LLM-in-Sandbox-RL 훈련 필요
- 프롬프트 최적화:
- 샌드박스 활용을 장려하는 시스템 프롬프트 사용
- 탐색적 행동 유도
- 결과와 탐색 분리
- 인프라 통합:
- 기존 vLLM/SGLang 인프라에 LLM-in-Sandbox 통합
- 확장성 확보
3단계: 비판적 평가
방법론적 타당성
강점
1. 엄격한 실험 설계
- 다양한 모델 유형(프론티어, 오픈 웨이트, 코드 전문, 소형) 평가
- 6개 서로 다른 비코딩 도메인에서 테스트
- 대조군(일반 LLM) 설정으로 명확한 비교
2. 다층적 분석
- 정량적 분석: 성능 표, 능력 사용 빈도
- 정성적 분석: 케이스 스터디, 트래젝토리 검증
- 시스템적 분석: 비용, 속도, 인프라
3. 일반화 입증
- 도메인 간 일반화: 훈련에 사용되지 않은 새 도메인에서도 개선
- 모델 간 일반화: 다양한 능력의 모델에서 효과 확인
- 추론 모드 간 일반화: 샌드박스 모드 훈련이 일반 LLM 모드에도 영향
약점
1. 인과 관계 입증 부족
- 샌드박스가 성능 향상을 일으키는지 vs 단순히 활용 가능한지 명확히 구분 안됨
- 더 철저한 통제 실험 필요
2. 샌드박스 능력 측정의 한계
- 패턴 매칭으로 능력 분류 → 오분류 가능성
- 더 정교한 수동 검증 필요
3. 평가 데이터셋의 제한
- 주로 기존 벤치마크 사용
- 샌드박스 해킹 방지 위한 문제 재구성이 제한적일 수 있음
논리적 일관성
강점
1. 명확한 연구 질문과 대응
- RQ1: training-free 설정 → 강력한 모델의 샌드박스 활용 입증
- RQ2: LLM-in-Sandbox-RL → 약한 모델 능력 강화
- RQ3: 효율성 및 배포 → 비용, 속도, 오픈소스화
2. 이론적 기반의 일관성
- 컴퓨터의 3가지 메타 능력 → 샌드박스 설계 원칙으로 연결
- ReAct 프레임워크 → 워크플로우에 적용
- 강화 학습 이론 → LLM-in-Sandbox-RL 훈련
3. 결과의 논리적 해석
- 강력한 모델의 성공 → 샌드박스 활용 능력 자발적 발현
- 약한 모델의 실패 → 샌드박스 탐색의 복잡성
- RL 훈련의 성공 → 비에이전트 데이터로도 샌드박스 탐습 가능
약점
1. 인과 메커니즘 불명확
- 왜 샌드박스가 일반 지능을 발현시키는지에 대한 더 깊은 이론적 설명 필요
- 단순히 도구 제공인지, 아니면 다른 메커니즘인지 불분명
2. 일반화 경계 불명확
- 어느 정도까지 도메인 간 일반화가 유효한지 불분명
- 완전히 새로운 작업 유형에서도 효과적인지 불확실
기여도 평가
주요 기여
1. 새로운 패러다임 제안
- LLM-in-Sandbox: 코딩뿐만 아니라 일반 도메인에서도 샌드박스 활용
- 컴퓨터의 다재다능성을 LLM의 에이전트 능력과 결합
2. Training-free 성능 향상 입증
- 강력한 에이전트 LLM이 추가 학습 없이도 샌드박스 활용
- 다양한 도메인에서 견고한 일반화 달성
3. LLM-in-Sandbox-RL 제안
- 비에이전트 데이터만으로 샌드박스 탐색 훈련
- 약한 모델의 샌드박스 활용 능력 증진
- 도메인 간, 모델 간, 추론 모드 간 일반화 입증
4. 실용적 분석 및 오픈소스화
- 비용, 속도, 인프라 관점에서 효율성 분석
- Python 패키지로 공개하여 실제 배포 촉진
잠재적 영향
1. 학술적 영향
- 에이전트 LLM 연구에 새로운 방향 제시
- 샌드박스 기반 일반 지능 연구 활성화
2. 실무적 영향
- 실제 배포를 위한 오픈소스 도구 제공
- 다양한 LLM과 인프라와 통합 가능
- 비용 효율적인 배포 경로 제시
3. 기술적 영향
- 샌드박스를 기본 추론 인프라로 채택 가능
- 에이전트 능력 벤치마크 표준화에 기여
실무 적용 포인트
즉시 적용 가능
1. 강력한 에이전트 모델에 training-free 적용
- 대상: Claude-Sonnet-4.5, GPT-5, DeepSeek-V3.2 등
- 방법: LLM-in-Sandbox 프롬프트 사용, 샌드박스 환경 제공
- 효과: 5-25% 성능 향상 (도메인 의존)
2. 긴 컨텍스트 처리에 활용
- 대상: 문서 요약, 정보 추출, 긴 텍스트 분석
- 방법: 문서를 샌드박스 파일 시스템에 배치
- 효과: 토큰 소비 8× 감소, 비용 절감
3. 도메인 특화 도구 통합
- 대상: 화학, 생의학, 물리 등 과학적 도메인
- 방법: 모델이 필요에 따라 도구 런타임 설치
- 효과: 기본 환경에서 불가능한 작업 수행 가능
추가 훈련 필요
1. 약한 모델에 LLM-in-Sandbox-RL 적용
- 대상: Qwen3-4B, 7B 등 소형 일반 모델
- 방법: 비에이전트 데이터 + 결과 기반 보상으로 RL 훈련
- 효과: 샌드박스 탐색 능력 습득, 성능 향상
2. 도메인 특화 훈련
- 대상: 특정 도메인에 초점을 둔 서비스
- 방법: 해당 도메인 작업으로 LLM-in-Sandbox-RL 훈련
- 효과: 도메인 전문화 및 샌드박스 활용 능력 강화
인프라 고려사항
1. 샌드박스 환경 구축
- Docker 컨테이너 사용 (격리 및 보안)
- Python 인터프리터 + 기본 과학 컴퓨팅 라이브러리 (NumPy, SciPy)
- 인터넷 접근 허용 (필요시)
2. 툴 인터페이스 구현
execute_bash: 터미널 명령 실행str_replace_editor: 파일 관리submit: 작업 완료 표시
3. 비용 최적화
- 긴 컨텍스트 작업: 샌드박스 파일 시스템 활용하여 토큰 감소
- 균일한 샌드박스 이미지 사용하여 저장소 비용 절감
- 오픈소스 LLM-in-Sandbox 패키지 사용하여 개발 비용 절감
References
논문
- Cheng, D., Huang, S., Gu, Y., Song, H., Chen, G., Dong, L., Zhao, W. X., Wen, J.-R., & Wei, F. (2026). LLM-in-Sandbox Elicits General Agentic Intelligence. arXiv:2601.16206v1.
관련 연구
- Brown, T. B., et al. (2020). Language models are few-shot learners.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models.
- Anthropic (2025). Claude sonnet.
- Anthropic (2025). Claude code.
- DeepSeek (2025). DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning.
도구 및 프레임워크
- vLLM: https://github.com/vllm-project/vllm
- SGLang: https://github.com/sglangai/sglang
- LLM-in-Sandbox: https://github.com/llm-in-sandbox/llm-in-sandbox
요약
이 연구는 LLM-in-Sandbox라는 새로운 패러다임을 통해 LLM의 일반 에이전트 지능을 발현시키는 방법을 제시합니다.
핵심 발견
- Training-free 성능: 강력한 에이전트 LLM은 추가 학습 없이도 샌드박스를 활용하여 5-25% 성능 향상 달성
- LLM-in-Sandbox-RL: 비에이전트 데이터만으로 샌드박스 탐색 능력 훈련 가능, 약한 모델도 샌드박스 활용 가능
- 일반화: 도메인 간, 모델 간, 추론 모드 간 일관된 성능 향상
- 효율성: 긴 컨텍스트에서 토큰 소비 8× 감소, 경쟁력 있는 처리량, 최소 인프라 오버헤드
기여
- 새로운 패러다임 제안: 코딩뿐 아니라 일반 도메인에서도 샌드박스 활용
- 실용적 솔루션 제공: Python 패키지로 오픈소스화
- 학술적 실무적 영향: 에이전트 LLM 연구에 새로운 방향 제시
미래
- 샌드박스를 기본 추론 인프라로 채택 가능
- 에이전트 능력 벤치마크 표준화에 기여
- 샌드박스 네이티브 모델 훈련 가능성 탐색
[!quote] 인용
“Computers are perhaps the most versatile platform ever created—virtually any task can be accomplished through them. This versatility stems from three meta-capabilities: external resource access, file management, and code execution.”
연습문제
[!example]- 문제 1
LLM-in-Sandbox의 3가지 핵심 메타 능력은 무엇인가?정답:
[!success]- 정답 보기
1. 외부 리소스 접근 (External Resource Access)
2. 파일 관리 (File Management)
3. 코드 실행 (Code Execution)[!example]- 문제 2
강력한 에이전트 모델이 training-free 설정에서 샌드박스를 통해 어떤 능력을 자발적으로 활용하는가?정답:
[!success]- 정답 보기
1. 외부 리소스 접근: 도메인 특화 도구 설치 (예: OPSIN 라이브러리)
2. 파일 시스템 활용: 긴 컨텍스트 문서 처리
3. 스크립트 실행: 포맷 요구사항 충족 (예: 문자 수 일치)[!example]- 문제 3
LLM-in-Sandbox-RL의 주요 특징은 무엇인가?정답:
[!success]- 정답 보기
– 비에이전트(Non-agentic) 데이터만 사용
– 결과 기반 보상(Outcome-based Rewards)
– 도메인 간, 모델 간, 추론 모드 간 일반화
– 약한 모델의 샌드박스 탐색 능력 증진[!example]- 문제 4
LLM-in-Sandbox의 효율성 측면에서 주요 이점은 무엇인가?정답:
[!success]- 정답 보기
– 긴 컨텍스트 시나리오에서 토큰 소비 최대 8× 감소 (100K → 13K)
– 평균적으로 경쟁력 있는 쿼리 레벨 처리량
– 최소 샌드박스 인프라 오버헤드
– 단일 공유 이미지로 저장소 비용 절감
부록
A. 샌드박스 구현
도구 사양
execute_bash(command): 터미널 명령 실행, 표준 출력/에러 반환str_replace_editor(filename, command, ...): 파일 생성, 보기, 편집create: 새 파일 생성view: 파일 내용 보기str_replace: 내용 치환
submit(): 작업 완료 표시
B. 모델 설정
모델별 매개변수
- Claude-Sonnet-4.5-Thinking: 최대 토큰 200K, 온도 0.7
- GPT-5: 최대 토큰 200K, 온도 0.7
- DeepSeek-V3.2-Thinking: 최대 토큰 200K, 온도 0.7
- Qwen3 시리즈: 최대 토큰 100K, 온도 0.7
C. 평가 상세
도메인별 벤치마크
- 수학: MATH, AIME, AMC
- 물리: UG Physics, AP Physics
- 화학: ChemBench, OChem
- 생의학: MedXpertQA, PubMedQA
- 긴 컨텍스트: IFBench, LongBench
- 지시 준수: IFEval, SWE-Instruction
D. 샌드박스 능력 분류
패턴 매칭 규칙
- 외부 리소스:
curl,requests.get,pip install,apt-get - 파일 관리:
open(),json.load,cat,grep,sed - 연산: 수치 솔버, 반복 알고리즘, 시뮬레이션 루프
E. LLM-in-Sandbox-RL 훈련 상세
보상 설계
r(s, a) = \begin{cases} 1 & \text{if answer is correct} \ 0 & \text{otherwise} \end{cases}최적화
- PPO (Proximal Policy Optimization) 사용
- 학습률: 1e-5
- 배치 크기: 512
- 에포크: 10
F. LLM-in-Sandbox 프롬프트
You have access to a code sandbox (a virtual computer) with:
- A terminal to execute commands
- File system to read/write data
- Network access to external resources
To solve tasks, you should:
1. Leverage computational tools rather than doing calculations through natural language
2. Derive answers through program execution instead of hardcoding results
3. Explore the sandbox environment freely to find the best solution
The sandbox is a safe, isolated environment where you can freely explore diverse approaches.
문서 생성일: 2026-01-24
마지막 수정일: 2026-01-24
상태: ✅ 완료