이번주 AI 뉴스 📰
AI 윤리 강화 : OpenAI는 AI 모델의 행동 지침을 담은 '모델 사양서'를 187페이지 분량으로 발표.
민감한 주제 대응 : AI가 논쟁적인 주제를 다루는 방식과 투명성을 강화하는 내용을 포함.
맞춤형 AI 추진 : 사용자 맞춤화와 윤리적 기준을 고려한 AI 시스템 개발에 집중.
AI 연구 경쟁 심화 : Perplexity가 OpenAI, Google과 경쟁하며 전문가 수준의 연구 도구 ‘딥 리서치’를 발표.
빠른 속도와 무료 제공 : Perplexity의 딥 리서치는 OpenAI보다 빠르고 무료 사용이 가능해 접근성이 높음.
연구 도구의 한계 : AI 리서치 도구는 신뢰할 수 있는 출처 위주로 정보를 수집하지만 창의적 해석에는 한계가 있음.
협상 지연과 중단 : 법원 제출 문서에 따르면 메타는 출판사와의 AI 훈련 데이터 라이선스 협상을 중단한 것으로 확인됨.
출판사와의 난항 : 출판사들이 저작권 문제로 협상에 소극적이었으며, 일부는 라이선스 권한이 없었음.
저작권 침해 논란 : 소송에서는 메타가 무단으로 도서를 활용하고 '쉐도우 라이브러리'를 이용해 AI를 훈련했다는 의혹이 제기됨.
이번주 AI 논문 📝
개념 이해 실험 : 연구진은 물리 개념 이해도를 평가하는 ‘PHYSICO’ 실험을 설계해 LLM의 진정한 이해 능력을 검증.
인간보다 낮은 성능 : GPT-4o, Gemini 2.0 등 최신 LLM이 실험에서 인간보다 약 40% 낮은 성능을 보이며 개념적 이해 부족이 확인됨.
기계적 반복 학습 한계 : LLM은 텍스트로 개념을 설명할 수 있지만, 비언어적 추론 과제에서는 실패하며 ‘확률적 앵무새’ 현상이 존재함이 입증됨.
LLM, 초장문 이해 가능할까? ‘InfiniteHiP’의 혁신적 해법
긴 문맥의 한계 극복 : 기존 LLM은 너무 긴 입력을 처리할 때 속도 저하와 메모리 문제를 겪지만, InfiniteHiP는 불필요한 정보를 동적으로 제거하는 방식으로 이를 해결.
GPU 자원 최적화 : 모델이 필요한 정보만 유지하고, 나머지 데이터를 GPU 외부로 저장해 최대 3백만 개 토큰을 단일 GPU에서 처리 가능.
속도 향상과 확장성 : 추가 훈련 없이도 최대 18.95배 빠른 속도를 제공하며, 기존 LLM이 학습하지 않은 긴 문장도 이해 가능하도록 최적화됨.
금융 AI, 정말 안전할까? ‘FailSafeQA’의 새로운 평가 기준
금융 AI의 한계 검증 : 연구진은 금융 분야의 AI 질문-응답 시스템이 다양한 입력 오류에 얼마나 견고한지 평가하는 FailSafeQA 벤치마크를 개발.
AI의 오류와 환각 문제 : 테스트 결과, 일부 AI 모델은 입력 변형에 잘 대응하지만, 최대 41%의 경우 잘못된 정보를 생성하는 문제가 확인됨.
신뢰할 수 있는 금융 AI 필요 : 연구는 AI가 신뢰성을 유지하면서도 오류를 줄이는 방향으로 발전해야 함을 강조하며, FailSafeQA가 금융 AI 평가의 새로운 기준이 될 것이라고 제시.
이번주 AI 프로덕트 🎁
구조가 중요한 학습 요소 : 연구진은 대형 언어 모델(LLM)이 긴 사고 과정(Long CoT)을 구조적으로 학습할 수 있음을 발견.
적은 데이터로도 강력한 성능 : Qwen2.5-32B 모델은 단 1만 7천 개의 학습 샘플로 수학 및 코딩 성능을 대폭 향상, OpenAI 모델과 경쟁할 수준 도달.
논리적 일관성이 핵심 : 개별 내용보다 사고 과정의 구조가 학습에 더 중요하며, 논리 순서를 바꾸면 성능이 크게 저하됨이 확인됨.
Overthinking: AI의 ‘과도한 사고’ 해결을 위한 프레임워크
깊은 사고에 빠지는 AI : 연구진은 대형 추론 모델(LRM)이 문제 해결보다 불필요하게 긴 사고 과정에 집중하는 ‘과도한 사고(overthinking)’ 문제를 분석.
성능 저하와 비효율적 연산 : 분석 결과, 과도한 사고를 줄이면 성능이 30% 향상되고, 계산 비용이 43% 절감됨을 확인.
오픈소스 솔루션 제공 : 연구팀은 과도한 사고를 평가하고 개선할 수 있는 프레임워크와 데이터셋을 공개하여, AI의 실용성을 높이는 연구를 지원.