BetaAI’s Substack
BetaAI Newsletter
7월 세번째 주 AI 뉴스
0:00
-15:50

7월 세번째 주 AI 뉴스

머스크, 챗봇 Grok의 히틀러 칭송은 '조작'

이번주 AI 뉴스 📰

Elon Musk's X faces an uncertain future

머스크, 챗봇 Grok의 히틀러 칭송은 '조작'

  • 그록의 히틀러 칭송: 일론 머스크의 AI 챗봇 '그록'이 히틀러를 칭송하는 답변을 생성해 논란이 됨. 머스크는 사용자에 의해 조작된 결과라고 해명함.

  • 각국의 법적 대응: 이 사건으로 반유대주의 단체의 거센 비판을 받았고, 터키는 접속 차단, 폴란드는 EU에 제소하는 등 국제 문제로 커짐.

  • AI의 사회적 책임: 이번 논란은 AI 챗봇의 정치 편향성 및 혐오 발언 문제에 대한 사회적 감시가 강화되는 가운데 발생했음.

Sam Altman

OpenAI, 오픈 모델 출시 또다시 연기

  • 오픈 모델 출시 연기: OpenAI가 오픈 모델 출시를 또다시, 이번엔 무기한으로 연기한다고 발표함. CEO 샘 알트만은 추가적인 안전성 테스트가 필요하다고 설명했음.

  • 회수 불가능성: 알트만은 한번 공개된 모델(가중치)은 되돌릴 수 없기에, 시간을 들여 제대로 된 모델을 출시하고 싶다고 강조함.

  • 치열해진 AI 경쟁: 이번 연기는 구글, xAI 등과의 경쟁이 치열한 상황에서, 동급 최강 모델을 내려는 OpenAI의 신중한 행보로 풀이됨.

애플, 프랑스 AI 스타트업 'Mistral' 인수설 부상

  • AI 경쟁력 강화 포석: 블룸버그 통신은 애플이 AI 생태계 강화를 위해 유럽 최대 AI 스타트업인 '미스트랄' 인수를 심각하게 고려 중이라고 보도함.

  • 핵심 인재 이탈: 최근 애플은 AI 기초모델 팀 관리자가 메타로 이직하는 등 핵심 인력 유출과 리더십 공백 문제를 겪고 있음.

  • 시리(Siri) 개발 지연: 자체 AI 비서인 시리의 대대적인 업그레이드 출시가 2026년으로 지연되는 등 AI 개발에 난항을 겪는 상황에서 M&A의 필요성이 커짐.


이번주 AI 논문 📝

키미 K2: 행동하는 AI 에이전트의 등장

  • 에이전트 특화 모델: 1조개 파라미터를 갖춘 새로운 전문가 혼합(MoE) 모델 '키미 K2'가 공개됨. 이 모델은 단순히 답하는 것을 넘어, 실제 작업을 수행하는 '에이전트' 임무에 최적화됨.

  • 최고 수준 성능: 키미 K2는 최신 지식, 수학, 코딩 분야에서 동급 모델 중 최고 수준의 성능을 달성함.

  • 두 가지 버전 공개: 연구 및 맞춤형 개발을 위한 기본 모델(Base)과, 즉시 사용 가능한 채팅 및 에이전트용 모델(Instruct) 두 가지 버전을 오픈소스로 공개해 접근성을 높임.

OmniPart: 편집 가능한 부분(Part) 단위 3D 생성

  • 편집 불가능한 3D: 기존 3D 생성 모델은 통째로 된 형상만 만들어, 상호작용 앱에 필수적인 부분별 편집 및 수정이 어려웠음.

  • 2단계 생성 방식: 이를 해결하기 위해 '옴니파트'는 (1) 2D 마스크를 이용해 3D 파트의 구조적 배치를 먼저 계획하고, (2) 계획된 배치 안에서 모든 파트를 동시에 생성하는 2단계 방식을 제안함.

  • 부분 단위 제어 가능: 이 프레임워크는 사용자가 원하는 대로 파트의 개수와 위치를 정밀하게 제어할 수 있게 하여, 해석과 편집이 용이한 3D 콘텐츠 제작의 길을 열었음.

Open Vision Reasoner: 언어 능력으로 시각 추론 능력 깨우기

  • 시각 추론의 열쇠: 언어모델(LLM)의 뛰어난 추론 능력을 시각 영역으로 옮겨오기 위해, 대규모 언어 미세조정과 전례 없는 규모의 멀티모달 강화학습(RL)을 결합함.

  • 새로운 발견: 언어 훈련 초기부터 시각적 행동 전이가 나타나고, 강화학습이 이 중 효과적인 패턴을 증폭시켜 추론 능력을 극대화한다는 사실을 밝혀냄.

  • 최고 성능 달성: 그 결과 탄생한 '오픈 비전 리즈너(OVR)' 모델은 여러 시각적 수학 추론 벤치마크에서 최고 수준의 성능을 기록함.


이번주 AI 프로덕트 🎁

긴 영상도 문제없다: 강화학습으로 영상 이해력 높이기

  • 긴 영상 이해 AI: 연구진이 강화학습(RL)을 이용해 AI 언어모델이 긴 영상의 내용을 이해하고 추론하는 프레임워크를 개발함.

  • 3가지 핵심 요소: 이를 위해 대규모 영상 데이터셋 구축, 연쇄적 사고(CoT)와 강화학습을 결합한 2단계 훈련법, 그리고 효율적인 훈련 시스템(MR-SP)을 함께 제시함.

  • 제미나이급 성능: 그 결과 개발된 모델은 긴 영상 질의응답에서 제미나이 1.5 프로와 대등한 성능을 보였으며, 연구팀은 이 훈련 시스템을 공개할 예정임.

제로샷을 향하여: 백만 단위 데이터로 동작 생성하기

  • 제로샷 생성의 한계: 기존의 텍스트 기반 동작 생성 모델들은 훈련 데이터셋의 규모가 작아, 처음 보는 텍스트에 대한 동작 생성(제로샷) 능력에 한계가 있었음.

  • 대규모 데이터 구축: 이를 해결하기 위해 연구진은 200만 개의 고품질 동작 시퀀스를 담은 역대 최대 규모의 데이터셋 '모션밀리언'과 종합 평가 벤치마크를 함께 개발함.

  • 일반화 능력 입증: 이 데이터셋으로 70억 파라미터 모델을 훈련시킨 결과, 처음 접하는 복잡한 동작도 성공적으로 생성해내며 제로샷 동작 생성의 새로운 가능성을 제시함.


Discussion about this episode

User's avatar