이번주 AI 뉴스 📰
그록의 히틀러 칭송: 일론 머스크의 AI 챗봇 '그록'이 히틀러를 칭송하는 답변을 생성해 논란이 됨. 머스크는 사용자에 의해 조작된 결과라고 해명함.
각국의 법적 대응: 이 사건으로 반유대주의 단체의 거센 비판을 받았고, 터키는 접속 차단, 폴란드는 EU에 제소하는 등 국제 문제로 커짐.
AI의 사회적 책임: 이번 논란은 AI 챗봇의 정치 편향성 및 혐오 발언 문제에 대한 사회적 감시가 강화되는 가운데 발생했음.
오픈 모델 출시 연기: OpenAI가 오픈 모델 출시를 또다시, 이번엔 무기한으로 연기한다고 발표함. CEO 샘 알트만은 추가적인 안전성 테스트가 필요하다고 설명했음.
회수 불가능성: 알트만은 한번 공개된 모델(가중치)은 되돌릴 수 없기에, 시간을 들여 제대로 된 모델을 출시하고 싶다고 강조함.
치열해진 AI 경쟁: 이번 연기는 구글, xAI 등과의 경쟁이 치열한 상황에서, 동급 최강 모델을 내려는 OpenAI의 신중한 행보로 풀이됨.
애플, 프랑스 AI 스타트업 'Mistral' 인수설 부상
AI 경쟁력 강화 포석: 블룸버그 통신은 애플이 AI 생태계 강화를 위해 유럽 최대 AI 스타트업인 '미스트랄' 인수를 심각하게 고려 중이라고 보도함.
핵심 인재 이탈: 최근 애플은 AI 기초모델 팀 관리자가 메타로 이직하는 등 핵심 인력 유출과 리더십 공백 문제를 겪고 있음.
시리(Siri) 개발 지연: 자체 AI 비서인 시리의 대대적인 업그레이드 출시가 2026년으로 지연되는 등 AI 개발에 난항을 겪는 상황에서 M&A의 필요성이 커짐.
이번주 AI 논문 📝
에이전트 특화 모델: 1조개 파라미터를 갖춘 새로운 전문가 혼합(MoE) 모델 '키미 K2'가 공개됨. 이 모델은 단순히 답하는 것을 넘어, 실제 작업을 수행하는 '에이전트' 임무에 최적화됨.
최고 수준 성능: 키미 K2는 최신 지식, 수학, 코딩 분야에서 동급 모델 중 최고 수준의 성능을 달성함.
두 가지 버전 공개: 연구 및 맞춤형 개발을 위한 기본 모델(Base)과, 즉시 사용 가능한 채팅 및 에이전트용 모델(Instruct) 두 가지 버전을 오픈소스로 공개해 접근성을 높임.
OmniPart: 편집 가능한 부분(Part) 단위 3D 생성
편집 불가능한 3D: 기존 3D 생성 모델은 통째로 된 형상만 만들어, 상호작용 앱에 필수적인 부분별 편집 및 수정이 어려웠음.
2단계 생성 방식: 이를 해결하기 위해 '옴니파트'는 (1) 2D 마스크를 이용해 3D 파트의 구조적 배치를 먼저 계획하고, (2) 계획된 배치 안에서 모든 파트를 동시에 생성하는 2단계 방식을 제안함.
부분 단위 제어 가능: 이 프레임워크는 사용자가 원하는 대로 파트의 개수와 위치를 정밀하게 제어할 수 있게 하여, 해석과 편집이 용이한 3D 콘텐츠 제작의 길을 열었음.
Open Vision Reasoner: 언어 능력으로 시각 추론 능력 깨우기
시각 추론의 열쇠: 언어모델(LLM)의 뛰어난 추론 능력을 시각 영역으로 옮겨오기 위해, 대규모 언어 미세조정과 전례 없는 규모의 멀티모달 강화학습(RL)을 결합함.
새로운 발견: 언어 훈련 초기부터 시각적 행동 전이가 나타나고, 강화학습이 이 중 효과적인 패턴을 증폭시켜 추론 능력을 극대화한다는 사실을 밝혀냄.
최고 성능 달성: 그 결과 탄생한 '오픈 비전 리즈너(OVR)' 모델은 여러 시각적 수학 추론 벤치마크에서 최고 수준의 성능을 기록함.
이번주 AI 프로덕트 🎁
긴 영상 이해 AI: 연구진이 강화학습(RL)을 이용해 AI 언어모델이 긴 영상의 내용을 이해하고 추론하는 프레임워크를 개발함.
3가지 핵심 요소: 이를 위해 대규모 영상 데이터셋 구축, 연쇄적 사고(CoT)와 강화학습을 결합한 2단계 훈련법, 그리고 효율적인 훈련 시스템(MR-SP)을 함께 제시함.
제미나이급 성능: 그 결과 개발된 모델은 긴 영상 질의응답에서 제미나이 1.5 프로와 대등한 성능을 보였으며, 연구팀은 이 훈련 시스템을 공개할 예정임.
제로샷 생성의 한계: 기존의 텍스트 기반 동작 생성 모델들은 훈련 데이터셋의 규모가 작아, 처음 보는 텍스트에 대한 동작 생성(제로샷) 능력에 한계가 있었음.
대규모 데이터 구축: 이를 해결하기 위해 연구진은 200만 개의 고품질 동작 시퀀스를 담은 역대 최대 규모의 데이터셋 '모션밀리언'과 종합 평가 벤치마크를 함께 개발함.
일반화 능력 입증: 이 데이터셋으로 70억 파라미터 모델을 훈련시킨 결과, 처음 접하는 복잡한 동작도 성공적으로 생성해내며 제로샷 동작 생성의 새로운 가능성을 제시함.
Share this post