이번주 AI 뉴스 📰
OpenAI, 고급 음성 모드 (Advanced Voice Mode) 기능 확대 출시
기능 개선 및 확장 : OpenAI, ChatGPT 유료 사용자 대상 고급 음성 모드(AVM) 출시. 새로운 디자인과 5개 음성 추가.
맞춤형 상호작용 : 사용자 지정 명령과 기억 기능 도입으로 개인화된 대화 경험 제공.
지역별 차등 적용 : EU 등 일부 지역 제외. 기업 및 교육 고객은 다음 주부터 이용 가능.
애플 전 CDO Jony Ive, OpenAI와 AI 기기 개발 착수
협업 확인 : 조니 아이브, OpenAI와 AI 하드웨어 프로젝트 협력 공식 확인.
개발 현황 : 해당 프로젝트에서 10명 규모 팀 구성, 아이폰 개발 핵심 인력 참여 중.
프로젝트 전망 : 연말까지 10억 달러 투자 유치 예상. 구체적 제품 미정.
영화계 거장의 선택 : 제임스 캐머런 감독, AI 이미지 생성 기업 Stability AI 이사회 새 멤버로 합류.
AI와 영화의 융합 : 캐머런, AI와 CGI 결합이 영화 제작의 새로운 제작 방법을 가져올 것으로 전망.
산업계 반응 주목 : 할리우드의 AI 도입 확대 추세 속, 저작권 논란 있는 기업과 캐머런의 행보에 귀추가 주목됨.
이번주 AI 논문 📝
자가수정 한계 : 기존 대형 AI 언어 모델들이 자신의 실수를 찾아 고치는 능력이 부족한 문제점 발견.
새 접근법 개발 : 딥마인드 연구팀은 AI의 반복 학습 및 개선 방식인 SCoRe를 개발해 LLM의 자가 수정 능력을 크게 향상.
성능 향상 확인 : Gemini 모델에 SCoRe 적용 결과, MATH와 HumanEval 벤치마크에서 각각 15.6%와 9.1%의 성능 향상 달성.
성능 개선 : NVDIA 연구팀이 개발한 NVLM 1.0 모델이 시청각 이해 능력에서 최고 수준의 성능을 달성.
새 구조 제안 : 기존 모델들의 장단점을 분석해 효율적인 학습과 더 나은 시청각 추론이 가능한 새로운 AI 구조 개발.
데이터 중요성 : 대규모보다는 질 높고 다양한 학습 데이터가 AI 성능 향상에 더 중요하다는 점 확인.
AI의 수학 추론 능력 향상을 위한 멀티모달 학습 데이터
데이터셋 소개 : ByteDance 연구팀에서 AI의 수학 능력 향상을 위한 대규모 멀티모달 학습 데이터셋 'InfiMM-WebMath-40B' 개발.
데이터 구성 : 2400만 개의 웹 페이지, 8500만 개의 이미지 링크, 400억 개의 텍스트 토큰으로 구성된 고품질 데이터셋 제작.
성능 향상 확인 : 새 데이터셋으로 학습한 AI 모델이 기존 모델 대비 텍스트 및 멀티모달 수학 문제 해결 능력 크게 향상.
이번주 AI 프로덕트 📦
Qwen2-VL: 다양한 해상도에 대응하는 고급 시각-언어 AI 모델
유연한 이미지 처리 : '순진한 동적 해상도' 기술로 다양한 크기의 이미지를 효율적으로 분석하는 능력 갖춤.
정보 통합 기술 : 텍스트, 이미지, 동영상의 위치 정보를 효과적으로 결합하는 새로운 임베딩 방식 도입.
성능 향상 확인 : 대규모 모델(72B 파라미터)이 GPT-4 등 최고 수준의 AI와 비슷한 성능 달성, 다양한 시각-언어 작업에서 우수성 입증.
통합 기능 : 텍스트로 이미지 생성뿐 아니라 이미지 편집, 주제 기반 생성 등 다양한 작업을 하나의 모델로 수행 가능.
단순한 구조 : 추가 모듈 없이 복잡한 이미지 생성 작업을 수행하며, 사용자 친화적인 인터페이스로 작업 과정 간소화.
범용성 향상 : 다양한 이미지 관련 작업을 통합 학습하여, 새로운 종류의 이미지 생성 요청에도 유연하게 대응 가능.









