
OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.

OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.
구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

최근 ETH 취리히 연구에서, AI의 ‘Context Engineering’이 중요한데 AGENTS.md 파일이 너무 상세해서 코딩 에이전트가 실패하는 것으로 밝혀졌다. 산업 리더들은 AGENTS.md를 코딩 에이전트의 최종 설정 지점으로 손꼽았는데, 이 파일이 복잡한 코드베이스를 안내하는데 있어 중요한 역할을 한다.

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.
GitHub이 Copilot CLI를 구동하는 내부 에이전트 실행 환경을 공개하고 프로그래밍 가능한 SDK로 제공했다. Copilot-SDK를 통해 다른 앱에도 동일한 실행 환경을 임베드하여 에이전트가 도구를 실행하고 파일 편집, 명령 실행이 가능해졌다.

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.

2025년, 주요 모델은 실제 GitHub 문제를 해결하고 다중 저장소 백엔드를 리팩터링하며 테스트를 작성하고 긴 컨텍스트 창 위에서 에이전트로 실행해야 합니다. 팀들에게 중요한 질문은 “코딩이 가능한가”가 아니라 어떤 모델이 어떤 제약 조건에 적합한가입니다.
AutoCode는 LLM이 경쟁 프로그래밍 문제를 만들고 검증할 수 있는 새로운 AI 프레임워크로, UCSD, NYU, University of Washington, 등 다수의 연구진이 개발했다. 이 프레임워크는 인간의 문제 제작자의 작업 흐름을 본떠 LLM이 문제를 생성하고 검증할 수 있게 한다.
구글 클라우드가 최근에 개발자 작업을 간소화하고 수동 노력을 줄이며 분석 가속화하고 고급 데이터 및 코드 자동화의 진입 장벽을 낮추기 위해 설계된 다섯 가지 특화된 AI 에이전트를 공개했다. 각 에이전트는 데이터 파이프라인 조정부터 기업급 GitHub 관리까지 각각의 개발자 과제를 다룬다.

Together AI가 최신 기술인 강화학습을 통해 완전히 오픈소스로 훈련된 소프트웨어 공학 에이전트인 DeepSWE를 출시했다. Qwen3-32B 언어 모델을 기반으로 한 DeepSWE는 SWEBench-Verified 벤치마크에서 59% 정확도와 42.2% Pass@1을 달성하여 오픈 웨이트 모델 중 최고의 성과를 거뒀다.

AI-주도 개발이 소프트웨어 제작을 재정의함에 따라, “vibe 코딩”이 개발자가 원하는 대로 말하면 에이전트가 구축하는 패러다임 전환적 방법으로 등장했다. Andrej Karpathy가 만든 용어는 코드 중심적 워크플로우에서 자연어 기반 소프트웨어 프로토타이핑으로의 전환을 반영한다. 신뢰할만한 vibe 코딩 도구 목록을 소개한다.

Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.