Apple 연구원들은 텍스트와 시각 정보를 원활하게 통합하는 새로운 대규모 언어 모델(LLM) 학습 방법을 개발했습니다.
이 회사의 연구 결과는 "MM1: 멀티모달 LLM 사전 학습의 방법, 분석 및 인사이트"라는 제목의 이 논문은 보다 지능적이고 유연한 AI 시스템을 구축하기 위한 새로운 접근 방식을 보여줍니다.
Apple은 이미지-캡션 쌍, 이미지-텍스트 문서, 텍스트 전용 데이터로 구성된 다양한 데이터 세트를 활용함으로써 MM1 모델이 이미지 캡션, 시각적 질문 답변, 자연어 추론 등의 작업을 높은 정확도로 수행하는 AI의 능력에 새로운 기준을 제시한다고 주장합니다.Apple의 연구는 다양한 유형의 학습 데이터와 모델 아키텍처의 조합에 초점을 맞추고 있으며, 이를 통해 AI가 시각적 및 언어적 단서를 혼합하여 언어를 이해하고 생성할 수 있도록 합니다. 이 기능은 복잡한 이미지를 해석하거나 시각적 요소가 포함된 질문에 답하는 등 세상을 미묘하게 이해해야 하는 작업에 필수적입니다.
이 논문에서는 특히 300억 개에 달하는 최대 규모의 파라미터 구성에서 MM1 모델의 뛰어난 상황 내 학습 능력을 강조합니다. 이 버전은 AI가 최소한의 예제를 기반으로 복잡하고 개방적인 문제 해결을 수행할 수 있도록 하는 기술인 '생각의 사슬' 프롬프트를 사용하여 여러 이미지에 대한 다단계 추론에 뛰어난 능력을 보이는 것으로 나타났습니다.
이 연구는 경쟁이 치열해지는 가운데 AI 역량을 강화하기 위한 Apple의 광범위한 이니셔티브의 일환으로 진행되었습니다. 오늘 블룸버그의 마크 거먼은 애플이 iOS 18의 일부로 아이폰에 탑재될 새로운 기능을 구동하기 위해 구글의 제미니 대용량 언어 생성 모델에 대한 라이선스를 구글과 논의 중이라고 보도했습니다.
(IP보기클릭)133.106.***.***
제미나이든 지피티든 Al를 쓰면 쓸 수록 느끼는게 다른 무엇보다도 결과 검증 실력이 중요하다는걸 깨닫습니다..
(IP보기클릭)175.196.***.***
(IP보기클릭)133.106.***.***
제미나이든 지피티든 Al를 쓰면 쓸 수록 느끼는게 다른 무엇보다도 결과 검증 실력이 중요하다는걸 깨닫습니다..
(IP보기클릭)142.188.***.***
(IP보기클릭)119.203.***.***
(IP보기클릭)221.163.***.***
(IP보기클릭)108.29.***.***