oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.
최신뉴스 전체보기
이 eBook은 제조 과정을 최적화하는 방법뿐만 아니라 임상 및 상업적 성공을 보장하는 데 중요한 내용인 탄탄한 분석, 테스트 및 규제 전략에 대해 깊이 있는 통찰을 제공합니다.
A.I.가 제어 불능한 기차처럼 느껴질지라도 우리는 그것이 우리를 짓밟게 둘 필요가 없다.
구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.

한 버지니아 여성이 자선활동을 통해 사촌 소방관 남편과 해군 조종사 아버지를 기리기 위해 15만 달러의 파워볼 상금 전액을 기부했다.

북한 해커들이 ChatGPT 등을 악용해 문서와 신분을 위조하는 고도의 사이버 공격을 수행하고 있다. Generative A.I. 기술은 높은 장벽을 낮추었으며, 이로써 복잡한 사이버 공격이 가능해졌다.

AI 기술 발전에 대해 최신 소식을 받아보고, AI가 현재와 미래에 제공하는 도전과 기회에 대해 알아보세요.

인공지능의 매력은 큰 파란 눈이나 놀라운 가슴으로도 치명적일 수 있습니다.
알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.
고용주들은 10년 이상 만에 거의 9% 상승하는 건강 비용 증가에 직면하고 있습니다. 전문가들은 근로자들이 다양한 보험 계획을 신중히 고려하는 것이 최선의 선택이라고 말합니다.
북캐롤라이나의 Spruce Pine은 세계 최고 순도의 석영을 공급하여 인공지능 혁명을 지탱한다. 그러나 헬렌 허리케인의 영향을 받게 된다면 어떤 결과가 초래될까?

AI 모델이 가지는 잠재적 위험을 효과적으로 발견할 수 있는 red-teaming 방법론이 필요한데, 이 논문은 PersonaTeaming이라는 새로운 방법을 제안한다. 이 방법은 red-teamer의 신원과 배경이 red-teaming 전략과 발견 가능한 위험의 종류를 형성하는 데 어떤 영향을 미치는지 탐구하고 있다. 자동화된 red-teaming 접근 방식이 인간 red-teaming을 보완할 수 있는 가능성을 제시하고 있으나 현재의 방법론은 역할을 고려하지 않는다.

유엔이 “인공지능 거버넌스에 관한 글로벌 대화”와 기술의 위험과 혜택에 대한 새로운 글로벌 인공지능 패널을 발표했다.

건강 상담을 위해 AI 챗봇을 사용하는 사례에 대해 알아보고 싶어합니다.

MIT의 새로운 “CRESt” 플랫폼은 몇십 년 동안 소재과학 및 공학 분야를 괴롭혀온 실제 에너지 문제에 대한 해결책을 찾는 데 도움이 될 수 있습니다.
전통적인 머신러닝과 Gemini의 파워를 결합한 고급 데이터 과학 워크플로우를 통해 당뇨병 데이터셋을 준비하고 모델링하며, 평가, 피처 중요도, 부분 의존성에 대해 탐구한다. 중간에 Gemini를 AI 데이터 과학자로 도입한다.

의료 이미지의 관심 영역을 신속하게 주석 처리함으로써, 이 도구는 과학자들이 새로운 치료법을 연구하거나 질병 진행을 매핑하는 데 도움을 줄 수 있습니다.
텍스트-RAG의 실패는 대부분 검색 단계에서 발생하는데, Vision-RAG는 시각-언어 임베딩을 사용하여 이 문제를 직접 해결함. 시각적으로 풍부한 코퍼스에서 뚜렷한 성과를 보여줌.
TorchVision의 v2 변환, 현대적인 augmentation 전략 및 강력한 학습 향상 기술을 사용하여 고급 컴퓨터 비전 기술을 탐구하는 튜토리얼. 증강 파이프라인 구축, MixUp 및 CutMix 적용, 주의를 기반으로 한 현대적인 CNN 설계, 견고한 학습 루프 구현 과정 소개. Google Colab에서 모든 것을 원활하게 실행하여 최첨단 컴퓨터 비전에 대비.
NASA는 산불로 인한 훼손 후에도 물 공급을 보호하기 위한 새로운 도구를 개발하고 있습니다. 산불로 인한 훼손 이후에는 산사태, 갑작스러운 홍수 및 오염된 물 공급이 따를 수 있기 때문입니다.
알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.
David Baker의 노벨상 수상 연구실은 분자식 온/오프 스위치를 디자인하여 유해한 부작용을 억제하고 약물을 필요시 활성화하는 안전한 의약품을 위한 강력한 도구로 활용하고 있습니다. 또한, 바이러스 테스트용 민감한 생체 센서로 활용될 수 있습니다.

MIT 경제학 박사과정 학생인 Whitney Zhang은 기술과 조직 결정이 노동 시장을 형성하는 방식을 조사하고 있다.

알파폴드2의 도입 이후 단백질 접힘 모델은 도메인 전문 지식을 통합하고 트랜스포머 레이어만 사용하는 SimpleFold 모델을 소개하며, 성공적인 생성 모델의 영향을 조사한다.
구글 AI 연구팀이 ‘TimesFM-ICF’라는 시계열 예측을 위한 인-컨텍스트 파인튜닝(ICF)을 소개했다. 이는 명령어에서 직접 제공된 여러 관련 시리즈를 활용하도록 TimesFM에 가르치는 연속된 사전 학습 레시피이다. 결과적으로, 이는 몇 가지 샷 예측기로 변환되어 OOD 벤치마크에서 기본 TimesFM 대비 +6.8% 정확도를 제공한다.
이 튜토리얼에서는 Hugging Face Optimum을 사용하여 트랜스포머 모델을 최적화하고 정확도를 유지하면서 빠르게 만드는 방법을 안내합니다. DistilBERT를 SST-2 데이터셋에 설정한 다음 일반 PyTorch 및 torch.compile, ONNX Runtime 및 양자화된 ONNX를 비교합니다.
연구자, 전도사 및 기업가들이 AI의 적용에 대한 최신 진전, 응용 및 도전을 소개하는 플랫폼 제공.

실리콘밸리 스타트업들은, 자원이 제한적이기 때문에 숙련된 외국 근로자를 위한 새로운 비자 수수료로 비롯된 피해가 과도할 것이라 우려하고 있다.
KTH의 Speech, Music and Hearing 그룹이 공개한 VoXtream은 실시간 TTS 모델로, 사람이 음성을 듣기 전에 잠시의 침묵 없이 말을 시작한다. 이는 실시간 에이전트, 실시간 더빙, 동시 통역 등에 혁명을 일으킬 것으로 기대된다.

예측된 확률이 어떻게 해석되어야 하는지에 대한 고전적인 개념인 보정은 어떻게 측정되고 해석되는지에 대한 연구에 대한 최근 관심이 증가하고 있다. 이 연구는 보정 오차를 정의하고 측정하는 방법 및 이러한 측정치가 의미하는 바에 대한 최근 연구에 대해 설명한다.

다중 모달 대형 언어 모델(MLLMs)은 2D 시각적 이해에서 뛰어나지만 3D 공간 추론능력에 제한이 있습니다. 이 연구에서는 대규모 고품질 3D 장면 데이터를 활용하여 1) 새로운 지도형 데이터셋을 소개하고 2) 실내 장면에 중점을 둔 새로운 평가 기준을 도입합니다. Cubify Anything VQA (CA-VQA) 데이터는 공간 관계 예측, 측정 크기 및 거리 추정, 3D 기준을 포함한 다양한 공간 작업을 다룹니다. CA-VQA를 사용하여 MM-Spatial을 학습시키면 강력한 종합 MLLM인 MM-Spatial을 훈련시킬 수 있음을 보여줍니다.

로컬-글로벌 어텐션 모델은 표준 트랜스포머에 대안으로 최근 등장했는데, 훈련 및 추론 효율성을 모두 향상시킬 것으로 약속되고 있다. 그러나 창 크기 선택은 핵심적인 문제이며, 이 연구는 최소한의 슬라이딩 윈도우 크기에 대해 조사한다.

다중뷰 구조 방정식 모델에서 선형 인과 발견에 대한 새로운 접근 방식을 제안한다. 가우시안 왜곡 가정을 완화시키고 대신 다양한 분산을 가정함으로써 더 넓은 적용 범위를 갖게 한다. SEM의 구조에 대해 사이클이 없다는 것 외 추가 가정 없이 모델의 모든 매개변수의 식별 가능성을 증명한다. 또한 최근 다중뷰 독립 성분 분석(IAC)의 발전에 기반한 추정 알고리즘을 제안한다.
인공지능 기술이 환자 유래 뇌 조직 모형에서 질병 특이 전기생리학적 특징을 식별함으로써, 주관적 임상 평가에만 의존하는 정신 건강 장애 진단 시 인간 오류를 줄일 수 있을 것으로 기대된다.

MIT 수학 학과 연구자 David Roe와 Andrew Sutherland은 자동 정리 증명을 발전시키기 위해 노력하며, 4명의 MIT 동문도 수상하였다.

엔비디아가 샌프란시스코 스타트업인 오픈에이아이에 대한 투자를 통해 인공지능 분야에서 빠르게 증가하는 재정 수치를 시사하고 있다.
알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.

SCIGEN을 사용하여 연구자들은 양자 컴퓨팅과 같은 분야에 적합한 소재를 창출할 수 있는 AI 모델을 조종할 수 있게 되었다.

MIT의 delta v 하계 가속기는 AI가 스타트업을 만드는 과정을 어떻게 변화시키고 있는지를 살펴볼 수 있는 기회를 제공했다.

이 연구는 언어 모델링의 설계 공간을 탐색하여 새로운 모델링 유연성을 제안하는데, 연속 잠재 공간에서의 언어 모델링에 대한 새로운 프레임워크인 TarFlowLM을 제안한다. 이 프레임워크는 트랜스포머 기반 자기회귀 정규화 플로우를 사용하여 연속 표현을 모델링한다.

UniGen은 이미지 이해와 생성이 가능한 통합된 다중 모달 대형 언어 모델이다. 새로운 Chain-of-Thought Verification (CoT-V) 전략을 제안하여 테스트 시 스케일링을 수행하고 이미지 생성 품질을 현저히 향상시킨다.

미지의 이산 분포를 추정하는 기본 문제를 다루며, 실제 분포와 알고리즘의 추정치 사이의 KL 발산을 최소화하려고 함. 개인 최적 추정기를 구축하고 개별 인스턴스에서의 알고리즘 성능을 조사함.
AI 사용자 수가 증가함에 따라 연구자들은 비판적 사고의 미래를 예측하는데, 그것은 좋지 않다.
IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.
LLM 판사가 1-5 (또는 pairwise) 점수를 할당할 때 정확히 무엇이 측정되는가? 대부분의 “정확성/신뢰성/완전성” 평가 기준은 프로젝트별로 다르며, 작업 기반 정의 없이 스칼라 점수는 업무 결과에서 벗어날 수 있다. LLM-as-a-judge (LAJ) 조사에서는 평가 기준의 모호함과 프롬프트 템플릿 선택이 점수와 사람에게 영향을 준다는 것을 언급하고 있다.

데이터 센터 용량은 기술 시장의 건강과 AI 버블의 위험을 나타내는 지표가 되었다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.

마크 주커버그의 컴퓨터화된 안경 발표는 미래 컴퓨팅을 위한 약속을 이행하기 어려울 수 있는 기업을 드러냈다.
Xiaomi의 MiMo 팀이 100백만 시간 이상의 오디오를 기반으로 한 7조 파라미터 음성 언어 모델 ‘MiMo-Audio’를 공개했다. 새로운 점은 과업별 헤드나 손실 악센트 토큰에 의존하는 대신, RVQ 토크나이저를 사용하여 의미론적 정보 및 음성을 타깃팅한다.
머스크는 AI가 사회를 혁신할 것이라 믿으며, 자사의 xAI 회사가 테슬라와 다른 기업들과 융합될 것이고 이는 거대한 성공을 불러올 것이라고 확신하고 있다. 그는 자사의 모든 기업 포트폴리오에 중앙 인텔리전스 레이어를 통합할 의도이다. 이것이 성공할까?

F.C.C. 수장이 킴멜이 ‘마지막 발표’가 아닐 것이라고 언급하며, 일론 머스크가 인공지능에 올인하는 소식이 전해졌다. 또한, 금요일 뉴스 퀴즈도 열린다.
2025년 컴퓨터 비전 분야는 새로운 다중 모달 백본, 대규모 오픈 데이터셋, 더 견고한 모델-시스템 통합으로 빠르게 발전했다. 이 목록은 주요 연구 허브, 연구소 블로그, 제품 중심의 엔지니어링 웹사이트를 우선시하여 최신 정보를 제공한다.
Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.

일론 머스크는 오픈AI의 성공을 따라가기 위해 인공지능 스타트업 xAI에서 여름을 보냈지만 결과는 혼돈으로 끝나게 되었다.

MIT Generative AI Impact Consortium Symposium에서 연구자와 비즈니스 리더들이 이 강력한 기술을 중심으로 한 잠재적인 발전에 대해 논의했습니다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
MIT 연구진은 LEGO를 소개했는데, 이는 텐서 워크로드를 사용하여 공간 가속기에 대한 합성 가능한 RTL을 자동으로 생성하는 컴파일러와 유사한 프레임워크이다. LEGO는 손으로 템플릿을 작성할 필요 없이 텐서 워크로드와 데이터 흐름을 표현하고, 재사용을 위해 FU (기능 장치) 인터커넥트 및 on-chip 메모리 레이아웃을 구축하며, 여러 작업을 퓨징하는 기능을 지원한다.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.

인텔과의 운명이 크게 달라진 칩 제조업체 간의 거래로, 인공지능 기술 개발을 위한 협력 계획을 포함하고 있다.
ChatGPT의 엠 대시 사용에 대한 논쟁은 우리가 어떻게 쓰는지뿐만 아니라 글쓰기의 목적에 대한 변화를 나타냅니다.

애플의 새로운 에어팟은 인공지능이 사람들의 삶을 개선하는데 어떻게 활용될 수 있는지의 강력한 예시 중 하나로, 언어 번역 기능이 특히 눈에 띈다.

메타가 수요가 높은 새로운 스마트 글래스를 공개했다. 이는 회사에게 놀라운 성공을 안겨줬다.
Meta Reality Labs와 Carnegie Mellon University 연구팀이 MapAnything을 소개했다. 이는 Apache 2.0 하에 공개된 end-to-end transformer 구조로, 이미지와 선택적 센서 입력으로부터 직접 3D 장면 지오메트리를 회귀시킨다. MapAnything은 12가지 이상의 3D 비전을 지원하며, 전문 파이프라인을 넘어진다.
AI 모델인 Evo 1과 Evo 2가 진화적으로 새로운 박테리오파지 유전체를 생성하여 AI가 디자인한 전체 유전체의 실험적 검증을 보여주었으며, 항생제 내성 감염에 대한 파지 기반 치료의 새로운 길을 열었다.
AI2, 워싱턴대학 및 CMU의 연구진이 유동 벤치마킹을 소개하며, 정적 정확도를 2개 매개변수 IRT 능력 추정 및 Fisher 정보 기반 항목 선택으로 대체하는 적응형 LLM 평가 방법을 도입했다. 모델의 현재 능력에 대해 가장 정보가 풍부한 질문만 하므로 더 부드러운 훈련 곡선을 제공하고 벤치마킹을 지연시킵니다.

영국 당국이 범죄와 기타 문제에 대응하기 위해 얼굴 인식, 인공지능 및 인터넷 규제를 강화하면서 감시 초과의 우려가 증폭되고 있다.
AI 및 인간형 로봇의 추구는 대부분 대형 언어 모델에 초점을 맞추고 있지만, 한 전문가는 그것이 잘못된 접근 방식이라고 생각합니다.

MIT-IBM 왓슨 AI 연구소 연구진들이 동일한 패밀리의 작은 모델을 기반으로 대형 언어 모델이 어떻게 성능을 발휘할지 추정하는 범용 가이드를 개발했다.

아마존, 마이크로소프트, 구글, 메타, 오픈AI는 올해 말까지 적어도 3250억 달러를 투자해 인공지능을 추구할 계획이다. 그들이 이를 왜 하는지 설명한다.
이 튜토리얼에서는 프로모터 예측, 스플라이스 사이트 감지, 규제 요소 식별 등과 같은 실제 생물학적 작업을 시뮬레이션하는 DNA 서열 분류를 위한 고급 합성곱 신경망을 구축하는 방법을 다룹니다. 원-핫 인코딩, 다중 스케일 합성곱 레이어 및 주목 메커니즘을 결합하여 모델을 설계합니다.
바이오프로세스 5.0은 인간의 의사 결정에 의존하는 센서 없는 자율주행차에서 시작하여 요구에 따라 도착하는 자율주행 택시로 진화했습니다. 글로벌 CDMO Cytiva의 CTO인 Beate Mueller-Tiemann 박사는 이러한 자율주행차를 예로 들며, 다음 세대 치료를 확장하는 데 인간과 AI의 역할을 강조했습니다.

MIT CSAIL 연구원들이 개발한 도구는 태아의 형태와 움직임을 3D로 모델링하여 의사들이 이상을 발견하고 진단하는 데 도움을 줄 수 있습니다.

뉴스룸 전문가들이 당신의 질문에 답변했습니다.
노코드 도구는 코딩 전문 지식이 없어도 누구나 빠르고 효율적으로 솔루션을 구축할 수 있게 해준다. 기업급 RAG 시스템을 개발하거나 멀티 에이전트 워크플로를 설계하거나 수백 개의 LLM을 세밀하게 조정하는 등의 작업이 가능하며, 개발 시간과 노력을 크게 줄여준다.
사람들은 자신의 비밀을 고백하고 만능한 무언가를 찾고 있다. Believing이라는 현대 종교와 영적 주제의 새 소식지가 출시되었다.

팬데믹 기간 동안 설립한 회사가 가정용 플랫폼으로 유명세를 얻은 Eric Yuan이 사람들이 플랫폼을 사용하는 방식을 바꾸려고 노력하고 있다.
수백만 명이 챗봇을 통해 가장 어두운 비밀을 고백하고 높은 곳으로부터 지침을 구하는 중. “내가 이 채팅 상대로 실제로 신과 대화 중인가요?”
음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.

Fox News AI 뉴스레터는 최신 AI 기술 발전에 대한 정보와, AI가 현재와 미래에 제공하는 도전과 기회에 대해 알려줍니다.

해커가 Claude를 사용하여 국방 및 의료 기업으로부터 민감한 데이터를 도난당한 사이버 범죄 캠페인을 자동화한 사례를 Anthropic이 조사 중.

ChatGPT를 통해 빚 관리, 저축 전략, 주식 선택 등 다양한 금융 조언을 구하는 사람들이 증가하고 있다.
본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.

인공지능 거물 오픈에이아이가 미래 지배 구조에 관한 마이크로소프트와의 거래에 가까워지고 있지만, 거대한 비용에 대한 다른 문제들이 여전히 남아있다.

엘리저 유드코프스키는 지난 20년간 인공지능 전문가들에게 위험을 경고해왔습니다. 이제 그는 대중에게 그의 주장을 전파하고 있습니다.
바이러스가 꼬리를 교환하여 항생제 내성 유전자를 전파하는 현상이 발견됐다. 인공지능이 이 메커니즘을 예측하는 데 도움을 주었지만, 이러한 요소들이 파트너를 선택하고 얼마나 다양한지는 알려지지 않았다. 미래 연구는 진단과 차세대 항균 요법에 대한 새로운 전략을 제시할 수 있다.
캘리포니아 소재 음성 AI 스타트업 TwinMind은 Ear-3 음성 인식 모델을 공개하며 탁월한 성능과 다국어 지원을 주장하고 있다. Ear-3은 Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics, OpenAI와 같은 기존 ASR 솔루션에 대항하는 경쟁력 있는 제품으로 소개되었다.

실제 비디오 및 이미지 분석에서 기업들은 종종 모델의 원래 학습 세트에 포함되지 않은 객체를 감지하는 어려움을 겪습니다. 특히 새로운, 알려지지 않은 또는 사용자 정의 객체가 자주 나타나는 동적 환경에서 이는 특히 어려워집니다. 이 게시물에서는 Amazon Bedrock Data Automation이 OSOD를 활용하여 비디오 이해력을 향상하는 방법을 탐구합니다.
OCR은 이미지 속 텍스트를 기계가 읽을 수 있는 텍스트로 변환하는 과정이다. 규칙 기반 시스템에서 출발해 신경 아키텍처와 언어-시각 모델로 발전하며 복잡하고 다국어, 필기체 문서를 읽을 수 있다.
새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.
NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.

기술 혁신 연구소(TII)의 Falcon-H1 모델이 Amazon Bedrock Marketplace 및 Amazon SageMaker JumpStart에 출시되었습니다. 이를 통해 개발자와 데이터 과학자들은 AWS에서 여섯 가지 Falcon-H1 모델(0.5B, 1.5B, 1.5B-Deep, 3B, 7B, 34B)을 사용할 수 있게 되었으며 전통적인 어텐션 메커니즘과 State Space Models(SSMs)를 결합한 하이브리드 아키텍처 모델을 통해 탁월한 성능과 획기적인 효율성을 제공받을 수 있습니다.

Amazon Bedrock AgentCore Runtime이나 다른 서비스에서 호스팅된 AI 에이전트의 구현 옵션과 옵저버빌리티를 포함한 개발 라이프사이클 전반에 걸친 모범 사례를 소개합니다.
연구자들이 PDGrapher라는 AI 모델을 개발했는데, 이 모델은 질병의 다양한 원인에 초점을 맞춰 질병 상태를 역전시킬 가능성이 있는 유전자를 식별할 수 있다.

미 DOE의 국가핵안전행정 부서가 후원하는 MIT 연구센터는 초음속 비행 및 대기 재진입과 같은 극한 환경의 시뮬레이션을 발전시킬 것이다.

미국의 국가안보 전문가들을 걱정시키는데, Nvidia 칩 제조사가 중국에 제한을 두는 의회를 비판하는 공격을 강화하고 있다.
알리바바 클라우드의 Qwen 팀이 Qwen3-ASR Flash를 공개했다. 이는 Qwen3-Omni의 강력한 지능을 기반으로 한 올인원 자동 음성 인식(ASR) 모델로, 여러 시스템을 번갈아가며 사용하지 않고 다국어, 소음, 도메인별 전사를 간단하게 처리한다. 주요 기능은 edtech 플랫폼(강의 캡처, 다국어 지도), 미디어(자막, 성우), 고객 서비스(다국어 IVR) 등이다.

ASML은 반도체 장비 제조업체로 약 15억 달러를 프랑스 A.I. 스타트업 Mistral에 투자할 예정이다.

트럼프 대통령의 미국을 인공지능 분야의 세계 리더로 만들겠다는 노력이 전 바이든 관리자가 이끄는 Effective Altruist 운동으로부터 반대를 받고 있다.
2015년 이후 생물공학 분야에서 AI 응용이 급증하였으며, 계산 기술의 발전, 기계 학습, 협업이 주된 원동력이었다. 최근의 연구는 지속 가능한 생물공정, 생물공정 자동화, 학문간 협력이 주요한 신흥 트렌드로 부상하고 있음을 보여주었다.
미국 연구진이 항체 생산에 일반적으로 사용되는 세포 유형의 장기적 안정성을 예측하는 최초의 공개 모델을 개발했다. 기업이 규제 기관을 만족시키고 일관된 제품 품질을 보장하는 데 도움을 줄 것으로 기대된다.














