AI 에이전트를 위한 효과적인 컨텍스트 엔지니어링 \ Anthropic
요약: 컨텍스트 엔지니어링은 프롬프트 엔지니어링의 자연스러운 발전으로, LLM의 제한된 주의 예산 내에서 최적의 결과를 얻기 위해 어떤 정보를 어떻게 제공할지 체계적으로 관리하는 기술입니다. LLM은 컨텍스트 길이가 길어질수록 정보 회수 능력이 저하되는 ‘컨텍스트 로트’ 현상을 겪으므로, 시스템 프롬프트, 도구, 예제, 메시지 기록 등 모든 컨텍스트 구성 요소를 신중하게 설계해야 합니다. 장기 작업을 위해서는 압축, 구조화된 메모…
Claude Agent SDK로 에이전트 구축하기 \ Anthropic
요약: Anthropic은 Claude Code SDK를 Claude Agent SDK로 개명하고 더 넓은 비전을 반영합니다. 이 SDK는 개발자가 다양한 유형의 자율형 에이전트를 구축할 수 있도록 Claude에게 컴퓨터 접근 권한을 부여합니다. 에이전트 루프(컨텍스트 수집 → 작업 수행 → 작업 검증 → 반복)를 따라 개발자는 재무, 개인 비서, 고객 지원, 심층 연구 등 다양한 에이전트를 만들 수 있습니다. 작년에…
실제 세계에서 에이전트를 활용할 수 있도록 Agent Skills로 무장하기
요약: Anthropic이 Agent Skills를 소개합니다. Agent Skills는 에이전트가 동적으로 발견하고 로드할 수 있는 지침, 스크립트, 리소스로 구성된 정리된 폴더입니다. 이를 통해 일반적인 에이전트를 전문화된 에이전트로 변환할 수 있습니다. 점진적 공개(progressive disclosure) 원칙을 통해 필요할 때만 정보를 로드하여 효율성을 높입니다. 업데이트: Agent Skills를 크로스 플랫폼 호환성을 위한 개방형 표준으로…
샌드박싱으로 Claude Code 더 안전하고 자율적으로 만들기
요약: Anthropic은 Claude Code에 샌드박싱을 도입하여 보안을 강화하고 권한 프롬프트를 84% 감소시켰습니다. 파일시스템 격리와 네트워크 격리를 통해 프롬프트 인젝션 같은 보안 위협을 방지하고, Claude가 더 자율적으로 작업할 수 있게 합니다. 새로운 샌드박싱된 bash 도구와 클라우드 기반 웹 버전을 통해 개발자는 더 안전하고 생산적인 환경에서 작업할 수 있습니다. Claude Code에서 Claude는 코드베이스를 탐색하고, 여러…
AI에 저항하는 기술적 평가 설계 \ Anthropic
요약: AI의 능력이 향상됨에 따라 기술적 후보자 평가가 어려워지고 있습니다. Anthropic은 성능 엔지니어 채용을 위해 가정 연산기 시뮬레이터를 최적화하는 테이크홈 테스트를 설계했지만, Claude Opus 4와 Opus 4.5의 등장으로 인해 테스트를 세 번이나 재설계해야 했습니다. 무제한 시간을 주면 여전히 인간 전문가가 모델보다 우수한 성능을 보이지만, 제한된 시간 내에서는 최상위 후보자와 최상위 모델을 구별할 방법이 필요합니다.…
[AI Paper] Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
📄 Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories 📌 1단계: 기본 정보 제목 Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual…
[AI Paper] Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub
📄 Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub 📌 1단계: 기본 정보 논문 정보 제목 (Title): Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub 저자 (Authors): Ramtin Ehsani (Drexel…
[AI Paper] Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats
📄 에이전트 평가 방법론 개선: 민감정보 유출, 사기, 사이버보안 위협 Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats 📌 1단계: 기본 정보 논문 정보 제목: Improving Methodologies for Agentic Evaluations Across…
[AI Paper] Agentic Confidence Calibration
Agentic Confidence Calibration 📌 1단계: 기본 정보 논문 정보 제목: Agentic Confidence Calibration 저자: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu 소속: Salesforce AI Research arXiv ID: 2601.15778v1 발행일: 2026년 1월 22일 분야: Computer Science > Artificial Intelligence,…
[AI Paper] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
📄 EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience 📌 1단계: 기본 정보 항목 내용 제목 EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience 저자 Taofeng Xue*,†, Chong Peng*,†, Mianqiu Huang*, Linsen…