BetaAI’s Substack
BetaAI Newsletter
5월 두번째 주 AI 뉴스
0:00
-16:04

5월 두번째 주 AI 뉴스

오픈AI 수석 과학자, “AI는 독창적 연구 수행 가능”

이번주 AI 뉴스 📰

Portrait of Jakub Pachocki.

오픈AI 수석 과학자, “AI는 독창적 연구 수행 가능”

  • 연구 수행 능력 : OpenAI 수석 과학자 Pachocki는 AI가 일정 수준의 자율성을 갖고 과학 연구, 소프트웨어 개발 등에서 실질적인 성과를 낼 수 있다고 전망함.

  • 강화학습의 진화 : AI는 사전학습과 인간 피드백 기반의 강화학습을 통해 독자적인 사고 방식에 가까운 추론 능력을 발달시키고 있음.

  • 개방과 AGI 전망 : 오픈AI는 연구용 공개 모델을 계획 중이며, AGI는 수년 내 경제적·지적 성과를 창출하는 현실적 목표로 가까워지고 있음.

A photo of Google Deepmind CEO Demis Hassabis in a blazer and sweater in front of a blue background

딥마인드 CEO, “변화에 대비하라”

  • 학습의 기술 : 딥마인드 CEO 데미스 하사비스는 학생들에게 스스로를 이해하고 빠르게 배우는 능력, 즉 ‘배우는 법을 배우라’고 조언함.

  • 기초와 열정 : 유행에 흔들리지 말고 정보이론 등 기초를 탄탄히 다지되, 개인의 열정을 실험하며 최신 기술에도 익숙해질 필요가 있음.

  • 융합의 시대 : AI·VR·양자컴퓨팅 등 신기술 시대에선 융합적 사고가 핵심이며, 문제를 잘 고르는 직관이 향후 돌파구가 될 수 있음.

Getty / Futurism

AI로 학생 평가하는 교사들, 교육의 가치를 버리고 있다?

  • AI 채택 현실 : 학생들이 대규모로 AI를 사용하자 일부 교사들도 AI로 과제를 채점하며 반응하고 있음.

  • 낮은 정확도 : 조지아대 연구에 따르면 AI 채점 정확도는 최대 50%에 불과하며, 논리적 사고 없이 빠른 결과만 내놓는 경향이 있음.

  • 교사의 역할 : AI는 사람 교사를 대체할 수 없으며, 오히려 학생 교육의 질을 떨어뜨릴 위험이 있다는 우려가 커지고 있음.


이번주 AI 논문 📝

멀티모달 이해와 생성의 통합: 진전, 도전 과제, 그리고 기회

  • 분리된 발전 경로 : 멀티모달 이해는 오토리그레시브, 이미지 생성은 디퓨전 기반으로 발전해왔으며, 이 둘의 구조적 차이가 통합의 걸림돌이 되고 있음.

  • 통합 모델 분류 : 최근 연구들은 이 두 접근을 결합한 하이브리드 방식까지 포함해 세 가지 구조적 틀로 통합 모델을 제시하고 있음.

  • 도전과 미래 전망 : 토크나이징, 크로스모달 어텐션, 데이터 문제 등이 핵심 과제로 꼽히며, 이 분야는 빠르게 진화할 초기 단계에 있음.

gradio_case.png

UnifiedReward-Think: Chain-Of-Thought 기반 멀티모달 보상 모델의 진화

  • 깊이 있는 추론 도입 : 기존 멀티모달 보상 모델은 얕은 추론에 머물렀지만, 본 연구는 CoT(Chain-of-Thought) 추론을 통해 신뢰성과 정확도를 높임.

  • 강화학습 기반 튜닝 : GPT-4o의 추론 구조를 초기 학습에 활용하고, 이후 다양한 비전 과제에 대한 선호 데이터를 활용해 단계별 강화 튜닝을 진행함.

  • 우수한 성능 입증 : 다양한 시각 보상 과제에서 높은 정확도와 견고한 추론 성능을 입증하며, 복합적인 멀티모달 평가 기준에 부합함을 보여줌.

멀티모달 제너럴리스트를 향해: General-Level과 General-Bench의 제안

  • 제너럴리스트 지향 : 기존 MLLM이 특화형에서 벗어나 다양한 모달리티를 이해하고 생성할 수 있는 범용 AI로 진화하고 있음.

  • 평가 프레임 구축 : General-Level은 모델의 범용성과 성능을 5단계로 정의하고, 일관된 이해·생성 능력을 ‘시너지’ 개념으로 측정함.

  • 대규모 벤치마크 : 700개 과제, 32만 개 샘플을 포함한 General-Bench를 통해 100여 개 최첨단 MLLM의 역량을 비교 분석함.


이번주 AI 프로덕트 🎁

Absolute Zero: 외부 데이터 없이 스스로 진화하는 AI 추론 시스템

  • 데이터 독립 학습 : Absolute Zero는 인간이 만든 질문이나 정답 없이, AI가 스스로 과제를 만들고 해결하며 추론 능력을 키우는 새로운 강화학습 패러다임.

  • 검증 기반 보상 : 코드 실행기를 통해 과제와 정답을 검증하며, 외부 도움 없이도 신뢰할 수 있는 학습 보상을 제공함.

  • SOTA 성과 달성 : 외부 데이터 없이 훈련되었음에도 수학과 코딩 추론에서 최고 성능을 기록하며 다양한 모델 구조에 적용 가능함을 입증함.

model.jpg

ZeroSearch: 실제 검색 없이 LLM의 정보 탐색 능력을 강화하는 방법

  • 검색 없는 강화학습 : ZeroSearch는 실제 검색 엔진과 상호작용 없이도 LLM의 정보 탐색 능력을 강화하는 RL 프레임워크를 제안함.

  • 문서 품질 조절 전략 : 점진적으로 노이즈를 추가한 문서를 생성해 모델이 어려운 상황에서도 추론 능력을 발휘하도록 유도함.

  • 검색 엔진 능가 : 14B 모델은 실제 검색 엔진을 능가하는 성능을 보였으며, 다양한 모델 구조와 강화학습 알고리즘에 유연하게 적용 가능함.


Discussion about this episode

User's avatar