[AI Paper] Zero-shot Adaptable Task Planning for Autonomous Construction Robots

2026년 01월 25일 9 Min Read

Zero-shot Adaptable Task Planning for Autonomous Construction Robots

메타 정보

항목	내용
저자	Hossein Naderi, Alireza Shojaei, Lifu Huang, Philip Agee, Kereshmeh Afsari, Abiola Akanmu
소속	Virginia Tech (Myers-Lawson School of Construction)
arXiv ID	2601.14091v1
제출일	2026년 1월 20일
분야	cs.RO (Robotics), cs.AI (Artificial Intelligence)
링크	arXiv \| PDF
라이선스	CC BY-NC-SA 4.0

한줄 요약

[!tip] TL;DR
건설 로봇의 적응형 태스크 플래닝을 위해 경량 오픈소스 LLM/VLM 기반 단일 에이전트 및 멀티에이전트 시스템을 제안하고, 4-에이전트 팀이 GPT-4o 대비 대부분의 메트릭에서 우수하면서도 10배 비용 효율적임을 입증한 연구.

연구 배경 및 동기

문제 정의

건설 산업에서 로봇 활용의 핵심 과제:

┌─────────────────────────────────────────────────────────────────┐
│                건설 로봇 도입의 핵심 장벽                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  💰 높은 비용                      🔄 동적 환경 적응 어려움         │
│  ┌─────────────────┐              ┌─────────────────┐           │
│  │ 하드웨어 비용   │              │ 예측 불가능한   │           │
│  │ 소프트웨어 개발 │              │ 현장 상황      │           │
│  │ 유지보수 비용   │              │ 다양한 작업 유형│           │
│  └─────────────────┘              └─────────────────┘           │
│                                                                  │
│  🏭 제조업 vs 🏗️ 건설업                                          │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │ 제조: 구조화된 환경 → 하드코딩/좁은 데이터셋 학습 가능    │    │
│  │ 건설: 비구조화 환경 → 동적 적응 필수                      │    │
│  └─────────────────────────────────────────────────────────┘    │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

기존 접근법의 한계

[!warning] 현재 건설 로봇 시스템의 문제점
대부분의 기존 접근법은 하드코딩 또는 좁게 정의된 데이터셋 학습에 의존하여, 비구조화된 건설 환경에서 적응이 어려움

한계점	설명	결과
하드코딩 의존	사전 정의된 동작만 수행	새로운 상황 대응 불가
좁은 학습 데이터	특정 작업에만 최적화	일반화 실패
높은 재훈련 비용	환경 변화 시 재학습 필요	비용 증가
제한된 적응성	동적 작업에 대응 불가	활용 범위 제한

연구 동기: Foundation Models의 가능성

기존 접근법                          제안하는 접근법
┌────────────────────┐              ┌────────────────────────────┐
│   Task-Specific    │              │   Foundation Model-based   │
│   Training/Coding  │    ───→     │   Zero-shot Planning       │
├────────────────────┤              ├────────────────────────────┤
│ 특정 작업 학습     │              │ 사전학습된 일반 지식 활용  │
│ 환경 변화시 재학습 │              │ Zero-shot 적응             │
│ 높은 비용          │              │ 비용 효율적                │
└────────────────────┘              └────────────────────────────┘

핵심 아이디어

Foundation Models를 통한 적응형 태스크 플래닝

핵심 통찰: 사전학습된 LLM/VLM의 일반화 능력을 활용하여, 학습 데이터 없이(Zero-shot) 다양한 건설 작업에 적응하는 로봇 태스크 플래닝 시스템 구축

[!important] 4가지 모델 아키텍처 제안
1. Single Agent: 단일 LLM/VLM 에이전트
2. Two-Agent Team: 2개 에이전트 협업
3. Three-Agent Team: 3개 에이전트 협업
4. Four-Agent Team: 4개 에이전트 협업 (최고 성능)

┌─────────────────────────────────────────────────────────────────┐
│           Multi-Agent vs Single-Agent 비교 개념                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [Single Agent]                                                  │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │  Task Input → [Single LLM/VLM] → Action Plan             │    │
│  │              (모든 처리를 단일 모델이 담당)              │    │
│  └─────────────────────────────────────────────────────────┘    │
│                                                                  │
│  [Multi-Agent Team]                                              │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │  Task Input                                               │    │
│  │      ↓                                                    │    │
│  │  [Agent 1: Perception] → 환경 인식                       │    │
│  │      ↓                                                    │    │
│  │  [Agent 2: Planning] → 전략 수립                         │    │
│  │      ↓                                                    │    │
│  │  [Agent 3: Verification] → 검증                          │    │
│  │      ↓                                                    │    │
│  │  [Agent 4: Execution] → 실행 계획                        │    │
│  │      ↓                                                    │    │
│  │  Action Plan                                              │    │
│  └─────────────────────────────────────────────────────────┘    │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

설계 철학

[!abstract] 핵심 설계 원칙
1. Lightweight: 경량 오픈소스 모델 사용으로 비용 효율성 확보
2. Open-source: 상용 API 의존 없이 자체 배포 가능
3. Zero-shot: 추가 학습 없이 새로운 작업 처리
4. Multi-Agent Collaboration: 에이전트 간 협업으로 성능 향상

방법론/아키텍처

3가지 건설 로봇 역할 (테스트 도메인)

역할	설명	주요 작업
Painter	페인팅 로봇	벽면 도색, 영역 인식, 도구 선택
Safety Inspector	안전 점검 로봇	현장 위험 요소 탐지, 규정 준수 확인
Floor Tiling	바닥 타일링 로봇	타일 배치 계획, 패턴 인식, 시공

4가지 모델 아키텍처

1. Single Agent System

┌─────────────────────────────────────────────────────────────────┐
│                    Single Agent Architecture                     │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [Visual Input]        [Task Description]                        │
│       │                      │                                   │
│       └──────────┬───────────┘                                   │
│                  ▼                                               │
│         ┌─────────────────┐                                      │
│         │   LLM or VLM    │                                      │
│         │  (Single Model) │                                      │
│         └────────┬────────┘                                      │
│                  ▼                                               │
│         ┌─────────────────┐                                      │
│         │  Action Plan    │                                      │
│         └─────────────────┘                                      │
│                                                                  │
│  장점: 단순함, 빠른 응답                                          │
│  단점: 복잡한 작업에서 성능 저하                                   │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

2. Two-Agent Team

┌─────────────────────────────────────────────────────────────────┐
│                    Two-Agent Architecture                        │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [Input]                                                         │
│     │                                                            │
│     ▼                                                            │
│  ┌─────────────────┐                                             │
│  │  Agent 1        │  Perception + Initial Planning              │
│  │  (VLM-based)    │                                             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 2        │  Refinement + Action Generation             │
│  │  (LLM-based)    │                                             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  [Refined Action Plan]                                           │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

3. Three-Agent Team

┌─────────────────────────────────────────────────────────────────┐
│                   Three-Agent Architecture                       │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [Input]                                                         │
│     │                                                            │
│     ▼                                                            │
│  ┌─────────────────┐                                             │
│  │  Agent 1        │  Visual Perception                          │
│  │  (VLM)          │                                             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 2        │  Task Planning                              │
│  │  (LLM)          │                                             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 3        │  Verification & Refinement                  │
│  │  (LLM)          │                                             │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  [Verified Action Plan]                                          │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

4. Four-Agent Team (Best Performance)

┌─────────────────────────────────────────────────────────────────┐
│                   Four-Agent Architecture                        │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [Visual + Text Input]                                           │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 1        │  Scene Understanding                        │
│  │  (VLM)          │  - 환경 인식                                │
│  │                 │  - 객체 탐지                                │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 2        │  Task Decomposition                         │
│  │  (LLM)          │  - 작업 분해                                │
│  │                 │  - 하위 작업 정의                           │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 3        │  Action Planning                            │
│  │  (LLM)          │  - 구체적 행동 계획                         │
│  │                 │  - 시퀀스 생성                              │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  ┌─────────────────┐                                             │
│  │  Agent 4        │  Validation & Safety Check                  │
│  │  (LLM)          │  - 계획 검증                                │
│  │                 │  - 안전성 확인                              │
│  └────────┬────────┘                                             │
│           │                                                      │
│           ▼                                                      │
│  [Final Validated Action Plan]                                   │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

사용된 모델

[!info] 경량 오픈소스 모델
– LLM: Llama, Mistral 등 오픈소스 경량 모델
– VLM: LLaVA 등 비전-언어 통합 모델
– 배포: 로컬 실행 가능, API 비용 없음

실험 결과

실험 설정

평가 도메인: 3가지 건설 로봇 역할
– Painter (페인팅)
– Safety Inspector (안전 점검)
– Floor Tiling (바닥 타일링)

비교 대상: GPT-4o (State-of-the-art 상용 모델)

성능 비교

┌────────────────────────────────────────────────────────────────┐
│              모델별 성능 비교 (대부분의 메트릭)                   │
├────────────────────────────────────────────────────────────────┤
│                                                                 │
│  Overall Performance                                            │
│  ─────────────────────                                          │
│  GPT-4o              ████████████████████░░░░  Baseline        │
│  Single Agent        ██████████████░░░░░░░░░░  Lower           │
│  2-Agent Team        ████████████████░░░░░░░░  Moderate        │
│  3-Agent Team        █████████████████████░░░  High            │
│  4-Agent Team        ██████████████████████████  Best ⭐       │
│                                                                 │
│  Generalizability (일반화 능력)                                  │
│  ─────────────────────────────                                  │
│  3-Agent & 4-Agent Teams: 최고 수준의 일반화 능력 입증           │
│                                                                 │
│  Cost Efficiency (비용 효율성)                                   │
│  ────────────────────────────                                   │
│  4-Agent Team vs GPT-4o: 약 10배 비용 절감 ⭐                   │
│                                                                 │
└────────────────────────────────────────────────────────────────┘

주요 발견

[!success] 핵심 결과
– 4-Agent Team이 GPT-4o 대비 대부분의 메트릭에서 우수
– 비용 효율성 10배: 경량 오픈소스 모델 활용
– 3-Agent/4-Agent의 높은 일반화 능력: 다양한 작업 유형에 적응
– 에이전트 행동 패턴이 시스템 출력에 큰 영향

역할별 성능 분석

역할	단일 에이전트	4-에이전트 팀	개선율
Painter	중간	높음	상당한 향상
Safety Inspector	낮음-중간	높음	큰 폭 향상
Floor Tiling	중간	높음	상당한 향상

에이전트 행동 패턴 분석

[!note] 중요 발견
멀티에이전트 시스템에서 에이전트의 행동 패턴(behavioral patterns)이 최종 출력 품질에 결정적 영향을 미침

┌─────────────────────────────────────────────────────────────────┐
│              에이전트 행동 패턴의 영향                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  관찰된 패턴:                                                     │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │ 1. 명확한 역할 분리 → 높은 성능                          │    │
│  │ 2. 에이전트 간 효과적 정보 전달 → 일관된 계획            │    │
│  │ 3. 검증 단계 포함 → 오류 감소                           │    │
│  │ 4. 계층적 처리 → 복잡한 작업 처리 능력 향상             │    │
│  └─────────────────────────────────────────────────────────┘    │
│                                                                  │
│  시사점:                                                         │
│  - 단순히 에이전트 수를 늘리는 것이 아님                         │
│  - 적절한 역할 분배와 협업 구조가 핵심                           │
│  - 행동 패턴 설계가 시스템 성능의 핵심 요소                      │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

강점 및 한계점

강점

[!tip] Strengths

1. 비용 효율성 (10배 절감)

GPT-4o API 비용     vs    경량 오픈소스 모델
      $$                      $
    높은 API 비용              로컬 실행
    의존성 높음                자체 배포 가능

2. Zero-shot 적응 능력
– 추가 학습 없이 새로운 작업 처리
– 다양한 건설 역할에 일반화
– 동적 환경 변화에 대응

3. 오픈소스 기반
– 상용 API 의존 제거
– 커스터마이징 가능
– 프라이버시 보장 (로컬 실행)

4. 멀티에이전트 협업의 효과 입증
– 단일 에이전트 대비 성능 향상
– 역할 분리의 이점 실증
– 검증 단계의 중요성 확인

5. 실용적 적용 가능성
– 건설 현장 외 비구조화 환경에 확장 가능
– 실제 로봇 시스템 통합 가능성
– 비용 부담 없는 도입

한계점

[!warning] Limitations

1. 실제 로봇 통합 미검증
– 시뮬레이션 환경에서만 테스트
– 실제 하드웨어와의 연동 미확인
– 물리적 제약 조건 미반영

2. 제한된 도메인
– 3가지 건설 역할만 테스트
– 더 복잡한 작업 시나리오 미검증
– 극한 환경 조건 미테스트

3. 경량 모델의 한계
– 매우 복잡한 추론에서 성능 저하 가능
– 긴 컨텍스트 처리 제한
– 최신 대형 모델 대비 지식 범위 제한

4. 실시간 성능 미검증
– 응답 지연 시간 미측정
– 동시 다중 작업 처리 미확인
– 실시간 피드백 루프 미구현

5. 안전성 검증 부족
– 건설 현장 안전 규정 완전 준수 미확인
– 예외 상황 처리 능력 미검증
– 실패 모드 분석 부족

실무 적용 포인트

1. 건설 로봇 시스템 설계

┌─────────────────────────────────────────────────────────────────┐
│              멀티에이전트 건설 로봇 시스템 설계                    │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  [설계 원칙]                                                     │
│  1. 4-에이전트 구조 권장 (성능-비용 최적)                         │
│  2. 경량 오픈소스 모델 활용                                       │
│  3. 명확한 역할 분리                                             │
│  4. 검증 단계 필수 포함                                          │
│                                                                  │
│  [에이전트 구성 예시]                                             │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │ Agent 1: Vision (VLM) - 현장 인식                       │    │
│  │ Agent 2: Planner (LLM) - 작업 분해                      │    │
│  │ Agent 3: Executor (LLM) - 행동 계획                     │    │
│  │ Agent 4: Validator (LLM) - 안전 검증                    │    │
│  └─────────────────────────────────────────────────────────┘    │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

2. 비용 효율적 AI 시스템 전략

# 비용 최적화 멀티에이전트 설계 패턴 (개념적)
class CostEfficientMultiAgentSystem:
    """
    GPT-4o 대비 10배 비용 절감 전략
    """

    def __init__(self):
        # 경량 오픈소스 모델 사용
        self.vision_agent = load_model("llava-7b")  # VLM
        self.planning_agent = load_model("mistral-7b")  # LLM
        self.execution_agent = load_model("llama-7b")  # LLM
        self.validation_agent = load_model("phi-2")  # 경량 LLM

    def process_task(self, visual_input, task_description):
        # Stage 1: Visual Understanding
        scene_understanding = self.vision_agent.analyze(visual_input)

        # Stage 2: Task Decomposition
        subtasks = self.planning_agent.decompose(
            scene=scene_understanding,
            task=task_description
        )

        # Stage 3: Action Planning
        action_plan = self.execution_agent.plan_actions(subtasks)

        # Stage 4: Validation (안전 검증)
        validated_plan = self.validation_agent.validate(
            plan=action_plan,
            safety_rules=CONSTRUCTION_SAFETY_RULES
        )

        return validated_plan

3. 비구조화 환경 AI 시스템 확장

도메인	적용 시나리오	에이전트 구성 예시
건설	페인팅, 타일링, 안전점검	VLM + 3 LLMs
농업	작물 수확, 병충해 탐지	VLM + 2 LLMs
물류	창고 관리, 재고 정리	VLM + 3 LLMs
재난대응	수색, 구조, 위험 탐지	VLM + 3 LLMs
의료	환자 모니터링, 자재 이송	VLM + 2 LLMs

4. 에이전트 행동 패턴 설계 가이드

[!example] 효과적인 멀티에이전트 설계

┌─────────────────────────────────────────────────────────────────┐
│              에이전트 행동 패턴 설계 원칙                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ✅ DO (권장)                                                    │
│  ─────────────                                                   │
│  • 명확한 역할 정의 (중복 최소화)                                 │
│  • 계층적 정보 흐름 설계                                         │
│  • 검증 단계 필수 포함                                           │
│  • 실패 시 폴백 메커니즘                                         │
│                                                                  │
│  ❌ DON'T (피해야 할 것)                                         │
│  ─────────────────────                                           │
│  • 모호한 역할 분배                                              │
│  • 순환 의존성                                                   │
│  • 검증 없는 직접 실행                                           │
│  • 단일 실패점 (Single Point of Failure)                         │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

5. 구현 체크리스트

[!example] 실무 구현 시 고려사항

[ ] 모델 선택: 작업 복잡도에 맞는 경량 오픈소스 모델 선정
[ ] 에이전트 수 결정: 3-4 에이전트 권장 (복잡도와 성능 균형)
[ ] 역할 정의: 각 에이전트의 명확한 책임 범위 설정
[ ] VLM 통합: 시각 입력 처리를 위한 Vision-Language Model 포함
[ ] 검증 에이전트: 안전성과 실행 가능성 검증 단계 필수
[ ] 로컬 배포: API 의존 없는 자체 배포 환경 구축
[ ] 행동 패턴 테스트: 다양한 시나리오에서 에이전트 협업 검증

핵심 인사이트

[!abstract] 논문의 주요 기여

경량 멀티에이전트의 효과 입증: 오픈소스 모델로도 GPT-4o 수준 달성 가능
비용 효율성: 10배 비용 절감으로 실용적 도입 가능성 제시
일반화 능력: 3-4 에이전트 구조의 뛰어난 Zero-shot 적응력
행동 패턴의 중요성: 에이전트 협업 설계가 성능의 핵심 요소
비구조화 환경 적용: 건설 외 다양한 동적 환경으로 확장 가능

References

arXiv:2601.14091v1
PDF
관련 연구: Foundation Models for Autonomous Robots
관련 연구: Autonomous Construction-Site Safety Inspection

메모

💡 향후 학습/적용 아이디어:
- 건설 현장 외 비구조화 환경(농업, 물류, 재난대응)에 멀티에이전트 적용 검토
- 경량 오픈소스 모델 기반 로봇 제어 시스템 프로토타입 구축
- 에이전트 행동 패턴 최적화를 위한 실험적 연구
- Safety Inspector 역할의 검증 에이전트 패턴을 다른 AI 시스템에 적용
- VLM + LLM 조합의 비용-성능 트레이드오프 분석