이번주 AI 뉴스 📰
GenAI 영상 도입 : 넷플릭스가 아르헨티나 쇼 '엘 에테르나우타'의 건물 붕괴 장면에 생성형 AI를 사용, 최초로 최종 영상물에 적용했음.
제작 효율성 증대 : AI 활용으로 기존 시각 효과 도구보다 10배 빠르고 저렴하게 장면을 완성, 이를 창작자를 돕는 좋은 기회로 보고 있음.
AI 기술 활용 확대 : 콘텐츠 제작 외에도 개인화, 검색, 하반기 출시 예정인 대화형 광고 등 다양한 분야로 AI 활용을 확대 중임.
OpenAI, 스스로 작업하는 'ChatGPT 에이전트' 공개
복잡한 작업 수행 : ChatGPT가 가상 컴퓨터를 사용해 웹사이트 탐색, 코드 실행, 문서 분석 및 슬라이드 생성까지 복잡한 작업을 처음부터 끝까지 처리하는 '에이전트' 기능을 도입함.
사용자 제어/안전 : 중요 작업을 실행하기 전 항상 사용자 허가를 요청하며, 사용자는 언제든 작업을 중단시키는 등 강력한 제어 및 안전 기능이 포함됨.
통합 시스템 출시 : 기존 '오퍼레이터'와 '딥 리서치' 기능이 통합된 시스템으로, Pro, Plus, Team 등 유료 사용자부터 순차적으로 이용 가능하게 됨.
서명 거부 선언 : 메타는 EU의 AI 실천 규약이 법적 불확실성을 만들고 AI법의 범위를 넘어선다며 서명하지 않겠다고 공식적으로 밝힘.
규제와 혁신 갈등 : 오픈AI 등은 서명 의사를 밝힌 반면, 메타는 해당 규약이 유럽의 AI 모델 개발과 혁신을 저해할 것이라는 우려를 표함.
미국과의 입장 차 : 이번 결정은 EU의 강력한 규제와 미국의 완화된 규제 사이의 철학 차이를 보여주며, 기술 규제를 둘러싼 양측의 대립을 부각시킴.
이번주 AI 논문 📝
컨텍스트 엔지니어링: LLM 성능을 극대화하는 새로운 방법론
컨텍스트 엔지니어링 정의 : 단순한 프롬프트 설계를 넘어, LLM에 제공되는 정보를 체계적으로 최적화하는 '컨텍스트 엔지니어링'이라는 공식적인 학문 분야를 제안함.
기술적 분류 제시 : 컨텍스트 엔지니어링을 정보 검색·처리·관리 등 기본 요소와 RAG, 메모리, 멀티 에이전트 등 정교한 시스템 구현으로 나누어 포괄적인 기술 체계를 제시함.
이해/생성 비대칭성 : 1300편 이상의 논문 분석 결과, LLM이 복잡한 맥락의 이해는 뛰어나지만 그에 상응하는 정교하고 긴 결과물을 생성하는 데는 명백한 한계가 있음을 핵심 연구 과제로 지적함.
마인드저니: VLM에 3D 공간 추론 능력을 부여하는 법
VLM의 한계와 해법 : 기존 비전-언어 모델(VLM)이 3D 공간 동역학 모델이 부재하여 공간 추론에 취약한 한계를 극복하기 위해, 월드 모델과 결합하는 '마인드저니' 프레임워크를 제안함.
상호작용적 탐색 : VLM이 가상 카메라 경로를 계획하면 월드 모델이 각 단계의 시야를 생성하고, VLM은 이 다중 시점 증거를 바탕으로 공간에 대해 추론하는 상호작용 방식을 사용함.
플러그 앤 플레이 : 별도의 미세조정(fine-tuning) 없이 대표적인 공간 추론 벤치마크에서 8% 이상의 성능 향상을 보였으며, 이는 간단한 '플러그 앤 플레이' 방식으로 3D 추론 능력을 강화할 수 있음을 시사함.
튜링 머신에서 답을 찾다: LLM의 추론 한계를 넘어서는 TAIL
튜링 머신 접근법 : LLM이 훈련 데이터보다 긴 문제에 취약한 '길이 일반화' 문제를 해결하기 위해, 모든 계산 가능한 문제를 풀 수 있는 튜링 머신의 작동 원리에서 해법을 찾음.
TAIL 학습 방법론 : 튜링 머신의 실행 과정을 모방하는 'TAIL' 학습법을 제안, 복잡한 추론을 원자 단위의 선형적 상태로 분해하는 합성 데이터를 생성하여 모델을 훈련시킴.
핵심 원리의 학습 : 실험 결과, 모델이 단순히 사고 과정을 흉내 내는 것을 넘어 튜링 머신의 '읽기/쓰기'와 같은 핵심 개념을 어텐션 계층에서 학습하며 길이 일반화 능력이 크게 향상됨을 확인함.
이번주 AI 프로덕트 🎁
가면 뒤의 악마: 확산 LLM(dLLM)의 새로운 안전 취약점
dLLM의 안전 결함 : 빠른 추론 속도를 지닌 새로운 확산 기반 LLM(dLLM)에서, 기존의 안전장치가 작동하지 않는 근본적인 안전 취약점이 존재함을 처음으로 발견함.
DIJA 공격 원리 : 마스크된 텍스트를 활용하는 'DIJA' 탈옥 프레임워크를 제시, dLLM의 양방향 모델링과 병렬 디코딩 특성을 역이용하여 유해 콘텐츠 생성을 유도함.
탈옥 성공과 과제 : 실험 결과 기존 탈옥 기법들을 압도하는 높은 성공률을 보였으며, 이는 dLLM에 대한 새로운 안전성 강화 방안 연구가 시급함을 시사함.
VisionThink: 강화학습으로 똑똑하고 효율적인 VLM 만들기
VLM의 비효율성 : 기존 VLM이 모든 작업에 불필요하게 많은 시각 토큰(고해상도)을 사용하여 비효율적이며, 해상도를 낮추면 OCR 등 일부 중요 작업 성능이 급락하는 문제를 지적함.
동적 해상도 조절 : 이를 해결하기 위해 '비전씽크'를 제안, 먼저 저해상도 이미지로 작업을 시도한 뒤, 필요하다고 판단될 경우에만 고해상도 이미지를 요청하도록 동적으로 해상도를 조절함.
강화학습 기반 훈련 : 강화학습(RL)과 'LLM-as-Judge' 전략을 도입해 이 판단 능력을 훈련시켰으며, 그 결과 간단한 작업에서는 계산량을 절약하고 세밀한 작업에서는 높은 성능을 유지함.
Share this post