LMM VS VLM 를 알고 싶으신가요?
LMM(Large Multimodal Model)과 VLM(Vision-Language Model)은 멀티모달 AI의 핵심 구성 요소로, 텍스트와 시각 정보(이미지, 비디오 등)를 동시에 이해하고 생성하는 데 특화된 모델입니다. 두 용어는 종종 혼용되지만, 목적과 적용 범위에서 차이가 있습니다. 아래에서 각각의 작동 원리를 소프트웨어 아키텍처 관점에서 상세히 설명합니다. 1. LMM (Large Multimodal Model) 1.1 정의 및 목적 1.2 아키텍처 구성 구성 요소 역할 멀티모달 인코더 각 모달리티(텍스트, … 더 읽기