BetaAI’s Substack
BetaAI Newsletter
11월 세번째 주 AI 뉴스
0:00
-15:50

11월 세번째 주 AI 뉴스

구글, 최상위 추론 능력 갖춘 ‘Gemini 3’ 출시... “모든 아이디어 실현”

이번주 AI 뉴스 📰

Meet Google's New CEO Sundar Pichai - ABC News

구글, 최상위 추론 능력 갖춘 ‘Gemini 3’ 출시... “모든 아이디어 실현”

  • 역대 최고 성능 : 구글이 추론과 멀티모달 능력을 극대화한 ‘제미나이 3’를 출시했으며, 주요 AI 벤치마크에서 경쟁 모델들을 제치고 1위를 석권함.

  • 심층 사고 탑재 : 사용자의 의도와 미묘한 뉘앙스를 정확히 파악하고, 복잡한 문제 해결을 위한 ‘심층 사고(Deep Think)’ 모드를 통해 전문적인 추론을 제공함.

  • 개발 생태계 확장 : 검색과 앱에 즉시 적용되며, 개발자가 자율 에이전트를 효율적으로 개발할 수 있는 새 플랫폼 ‘구글 안티그래비티’도 함께 공개함.

Jeff Bezos

베이조스, 8.7조원 규모 AI 스타트업 ‘프로젝트 프로메테우스’ CEO 복귀

  • 베이조스 CEO 복귀 : 베이조스가 62억 달러 규모의 AI 스타트업 ‘프로젝트 프로메테우스’ 공동 CEO를 맡으며 4년 만에 경영 일선에 복귀함.

  • AI로 우주 개척 : 항공우주 및 제조 분야에 AI를 접목해 블루오리진과 연계된 우주 산업 확장과 로봇 노동 비전을 구체화할 계획임.

  • 거품 속 기회 강조 : 현재 AI 시장의 과열과 거품을 인정하지만, 장기적으로는 모든 산업을 혁신하고 문명적 풍요를 가져올 것이라 전망함.

Getty Images The Claude app as displayed on a phone screen. It is an orange logo with a white splash in the middle.

Anthropic “중국 스파이, 챗봇 ‘클로드’ 악용해 30곳 해킹”

  • AI 악용 해킹 : 앤스로픽은 중국 정부의 지원을 받는 해커들이 ‘클로드’를 보안 연구로 위장해 30여 개 글로벌 조직을 자동화 공격했다고 주장함.

  • 첫 자동화 사례 : 해커들은 작은 작업들을 연결해 정교한 공격을 수행했으며, 사측은 이를 AI가 주도한 최초의 사이버 스파이 캠페인이라 명명함.

  • 회의적 반응 : 보안 업계는 구체적 증거가 부족하다며 마케팅 목적을 의심하고 있으며, 앤스로픽도 AI가 허위 정보를 만드는 등 한계가 있었음을 시인함.


이번주 AI 논문 📝

작은 모델, 큰 논리: 다양성 주도 최적화로 대규모 모델급 추론 능력을 구현한 VibeThinker-1.5B

  • 1.5B의 혁신 : 거대 모델에 의존하던 기존 통념을 깨고, 다양성 기반의 SSP 원칙을 적용해 1.5B 파라미터만으로 강력한 추론 능력을 갖춘 VibeThinker-1.5B를 개발함

  • 초고성능 추론 : 400배 이상 큰 DeepSeek R1보다 주요 수학 벤치마크(AIME, HMMT)에서 앞선 점수를 획득했으며, 코딩 테스트에서도 Magistral Medium을 상회하는 성과를 기록함.

  • 비용 효율성 : 단 7,800달러의 학습 비용으로 대형 모델급 성능을 달성함으로써 AI 연구 비용을 획기적으로 낮추고 기술 접근성을 높이는 데 기여함.

P1: 강화학습을 통한 물리 올림피아드 완전 정복

  • RL 기반 물리 모델 : 전적으로 강화학습(RL)만을 통해 훈련되어 고난도 과학적 추론 능력을 갖춘 오픈소스 물리 모델 시리즈인 P1을 제안함.

  • 올림피아드 석권 : P1-235B-A22B는 오픈소스 모델 최초로 IPhO 2025 금메달 수준을 달성하고, 최근 13개 주요 대회 중 12개에서 금메달을 획득함.

  • 압도적 종합 1위 : 에이전트 프레임워크와 결합 시 IPhO 2025 전체 1위를 기록했으며, 물리 외 수학과 코딩 분야에서도 뛰어난 범용성을 입증함.

TiDAR: 확산으로 사고하고 자기회귀로 소통하는 고효율 하이브리드 모델

  • 하이브리드 구조 : 확산 모델의 병렬 생성 능력과 자기회귀(AR) 모델의 고품질 장점을 결합하여, 단일 순전파(forward pass) 내에서 토큰 초안 작성과 최종 샘플링을 동시에 수행하는 TiDAR 아키텍처를 제안함.

  • 병렬 초안과 검증 : 특수 설계된 어텐션 마스크를 통해 GPU의 유휴 연산 자원을 활용하며, 확산 기반의 병렬적 초안 작성(Thinking)과 자기회귀적 최종 출력(Talking)을 효율적으로 통합해 추론 효율성을 극대화함.

  • 속도와 품질 발전 : 기존 AR 모델과 대등한 품질을 유지하면서도 초당 토큰 생성 속도를 4.71배에서 5.91배까지 향상시켜, Dream이나 Llada 같은 기존 확산 모델 및 추측 디코딩 방식의 성능을 크게 상회함.


이번주 AI 프로덕트 🎁

PhysX-Anything: 단일 이미지로부터 시뮬레이션 준비 완료된 물리적 3D 에셋 생성

  • 모델 소개 : 단일 이미지 기반 고품질 시뮬레이션 준비 완료(sim-ready) 3D 에셋을 생성하는 최초의 VLM 기반 물리적 3D 생성 프레임워크인 PhysX-Anything을 제시함1.

  • 주요 특징 : 기하학적 정보를 193배 압축하여 VLM 토큰 예산 내에서 명시적인 기하학적 학습을 가능하게 하는 효율적인 3D 표현 방식과 PhysX-Mobility 데이터셋을 제안함2222.

  • 검증 결과 : 생성된 에셋은 강력한 생성 성능과 일반화 능력을 보였으며, MuJoCo 환경의 로봇 정책 학습에 직접 사용 가능함을 입증함3.

Uni-MoE-2.0-Omni: 고급 MoE 기반 언어 중심 전방위 대규모 모델 확장 연구

  • 모델 특징 : Qwen2.5-7B 기반의 개방형 전방위 대규모 모델로, 동적 MoE 및 강화된 훈련 전략 등을 핵심 기여로 제시함.

  • 기술 특징 : 10개 교차 모달을 위한 새로운 MoE 프레임워크와 공간-시간 정렬을 위한 3D RoPE로 효율성 및 전방위 이해 능력을 확보함.

  • 성능 검증 : 85개 벤치마크에서 SOTA 수준의 성능을 보였으며, 경쟁 모델을 능가하는 등 비디오 이해 및 시청각 추론에서 큰 향상을 달성했음.


Discussion about this episode

User's avatar