이번주 AI 뉴스 📰
OpenAI, 애플과 협력해 연말까지 10억 사용자 목표 설정
10억 사용자 목표: OpenAI는 새로운 제품, 데이터 센터, 애플과의 협력을 통해 2025년까지 전 세계적으로 10억 명의 사용자를 목표로 하고 있음.
대규모 투자와 성장: 10억 달러 규모의 유동성을 확보하며 성장에 박차를 가하고 있으며, 모델 개발을 위한 막대한 투자 필요성을 강조함.
AI 인프라 확장: 미국 중서부와 남서부에 데이터 센터를 구축해 AI 레이스에서 선두를 유지하려는 계획을 추진 중.
아마존, 영상 AI 모델 개발… Anthropic 의존도 낮춘다
새로운 AI 모델 개발: 아마존은 텍스트 외에도 이미지와 영상을 처리할 수 있는 생성형 AI 모델 Olympus를 개발 중.
Anthropic 의존도 감소: Olympus 개발로 인해 아마존은 Anthropic의 Claude 챗봇 의존도를 줄이고 AWS 서비스를 강화할 계획.
발표 예정: 이 모델은 AWS re:Invent 고객 컨퍼런스에서 다음 주에 발표될 가능성이 있음.
A16z, AI 이미지 스타트업 블랙 포레스트 랩스에 2억 달러 투자 논의 중
2억 달러 투자 협의: 블랙 포레스트 랩스는 안드레센 호로위츠(A16z)가 주도하는 2억 달러 투자 유치를 논의 중이며, 이로 인해 기업 가치는 10억 달러를 초과할 것으로 예상됨.
AI 이미지 생성 선도: 회사는 엘론 머스크의 Grok 챗봇 이미지 생성 기능에 기술을 제공하며, 설립 초기부터 주목받고 있음.
확장 압박 우려: 과도한 자금 조달과 높은 기업 가치가 빠른 확장을 강요할 수 있다는 우려 속에서 신중히 접근하고 있음.
이번주 AI 논문 📝
단일 영상으로 4D 생성: CAT4D는 한개의 비디오를 사용해 동적 3D(4D) 장면을 생성하며, 다양한 데이터셋으로 훈련된 다중 시점 비디오 확산 모델을 활용함.
새로운 시점 및 타임스탬프 지원: 지정된 카메라 위치와 시간에서 새로운 시점 생성이 가능하며, 3D 가우시안 변형 표현을 통해 강력한 4D 재구성을 제공함.
창의적 활용: 실제 또는 생성된 비디오에서 4D 장면 생성의 창의적 가능성을 강조하며, 최신 벤치마크에서 경쟁력 있는 성능을 입증함.
ROICtrl: 정밀한 영역 제어로 시각적 생성 성능 향상
ROICtrl 개요: ROICtrl은 각 객체에 경계 상자와 캡션을 결합한 지역별 인스턴스 제어를 도입하여, 기존 텍스트 기반 시각 생성 모델의 다중 객체 처리 한계를 극복함.
효율적인 ROI 조작: ROI-Align과 새롭게 제안된 ROI-Unpool 기법을 통해 고해상도 특징 맵에서 정확하고 효율적인 영역 제어를 구현함.
호환성과 성능: ROICtrl은 다양한 사전 학습된 확산 모델과 통합 가능하며, 실험 결과 지역별 제어 성능을 높이면서 계산 비용을 크게 줄이는 데 성공함.
Star Attention: 긴 시퀀스에서 효율적인 LLM 추론 기술
Star Attention 소개: Star Attention은 긴 시퀀스 처리의 비용과 속도 문제를 해결하기 위해 2단계 블록 희소 근사를 도입한 기술로, 주의 계산을 여러 호스트에 분산하여 효율성을 개선함.
효율성과 정확성: 메모리 요구량과 추론 시간을 최대 11배 줄이면서도 95-100%의 정확성을 유지.
적용 가능성: 대부분의 글로벌 주의가 적용된 Transformer 기반 LLM과 원활히 통합할 수 있어 광범위한 모델에 적용이 가능함.
이번주 AI 프로덕트 📦
HunyuanVideo: 대규모 비디오 생성 모델의 공개형 프레임워크
HunyuanVideo 발표: HunyuanVideo는 기존 폐쇄형 비디오 생성 모델과 동등하거나 더 뛰어난 성능을 보이는 새로운 오픈소스 비디오 생성 프레임워크.
모델 특징과 성능: 130억 개 이상의 매개변수를 갖춘 이 모델은 고품질 시각적 표현, 동작 역학, 텍스트-비디오 정렬, 고급 촬영 기술에서 최고 성능을 입증함.
오픈소스의 가치: 코드 공개를 통해 폐쇄형과 오픈소스 간의 격차를 줄이고, 커뮤니티가 혁신적인 아이디어를 실험하며 비디오 생성 생태계를 활성화할 수 있도록 지원함.
FaceLock: 악의적 초상화 편집에 대한 개인 생체 정보 방어
FaceLock 소개: FaceLock은 초상화의 생체 정보를 변형하거나 제거하여 악의적 편집 시 원본을 인식할 수 없게 만드는 생체 정보 보호 기술을 제공함.
강력한 편집 방어: 얼굴 인식 및 시각적 인식을 통합해 다양한 편집 시도에 대해 강력한 방어를 제공하며, 기존 평가 지표의 취약성을 지적하고 신뢰할 수 있는 보호 평가의 필요성을 강조함.
개인 정보 보호 강화: FaceLock은 생체 정보 방어를 향상시키며, 이미지 편집의 윤리적 문제를 해결하기 위한 기초를 마련합니다. 코드가 오픈소스로 제공되어 커뮤니티에서 활용 가능함.