LMM VS VLM 를 알고 싶으신가요?

LMM(Large Multimodal Model)과 VLM(Vision-Language Model)은 멀티모달 AI의 핵심 구성 요소로, 텍스트와 시각 정보(이미지, 비디오 등)를 동시에 이해하고 생성하는 데 특화된 모델입니다. 두 용어는 종종 혼용되지만, 목적과 적용 범위에서 차이가 있습니다. 아래에서 각각의 작동 원리를 소프트웨어 아키텍처 관점에서 상세히 설명합니다.

1. LMM (Large Multimodal Model)

1.1 정의 및 목적

LMM은 텍스트 외에도 음성, 이미지, 비디오, 센서 데이터 등 다양한 모달리티(modality)를 통합 처리하는 대규모 멀티모달 모델입니다.
주로 자동차, 의료, 로보틱스, 스마트 팩토리 등에서 상황 인식(context awareness), 의사결정 지원, 자연어 인터페이스를 구현하는 데 사용됩니다.
예: Cockpit에서 운전자 상태, 차량 주변 환경, 내비게이션 정보를 종합해 “피로해 보이시네요. 휴게소에 들르실래요?”라고 제안.

1.2 아키텍처 구성

구성 요소	역할
멀티모달 인코더	각 모달리티(텍스트, 이미지, 음성 등)를 임베딩 벡터로 변환
크로스 어텐션(Cross-Attention)	서로 다른 모달리티 간 정보를 교환하고 통합
공유 디코더	통합된 표현을 기반으로 자연어 응답 생성
모듈형 어댑터(Adapters)	특정 도메인(예: 자동차, 의료)에 맞게 경량 파인튜닝

1.3 작동 흐름 (LMM)

입력 수집
- 텍스트: 사용자 음성 → ASR → 텍스트
- 이미지: 카메라 → 전처리 → 토큰화
- 센서: CAN 버스, GPS, IMU 등
모달리티별 인코딩
- 텍스트: 토크나이저 → 임베딩 → Transformer 인코더
- 이미지: CNN 또는 Vision Transformer → 이미지 토큰 생성
- 음성: 음성 인식 모델 → 텍스트 또는 음향 임베딩
멀티모달 융합
- 각 모달리티의 출력을 크로스 어텐션을 통해 결합
- 예: “비가 오고 있다”는 텍스트 + “도로가 젖어 있다”는 이미지 → “운전 주의 필요”라는 통합 의미 생성
디코딩 및 응답 생성
- 통합된 표현을 기반으로 자연어 응답 생성
- 예: “비가 오고 있고 도로가 미끄러우니 속도를 줄이세요.”
후처리 및 HMI 통합
- 응답을 음성(TTS), 텍스트, 그래픽으로 변환
- Cockpit UI에 표시

1.4 장점

확장성: 새로운 모달리티(예: 레이더, 라이다)를 쉽게 추가 가능
도메인 적응성: 어댑터 모듈로 자동차, 의료 등 다양한 분야에 적용 가능
지능형 의사결정: 단순 응답을 넘어 상황 기반 제안 가능

2. VLM (Vision-Language Model)

2.1 정의 및 목적

VLM은 이미지(또는 비디오)와 텍스트를 결합해 이해하고 생성하는 모델입니다.
주로 이미지 설명 생성, 시각적 질문 응답(VQA), 이미지 기반 명령 수행에 사용됩니다.
예: “이 화면에서 차선이 어디로 가는지 알려줘” → VLM이 이미지를 분석해 “차선은 오른쪽으로 굽어 있습니다”라고 응답.

2.2 아키텍처 구성

구성 요소	역할
비전 인코더	이미지를 토큰화 (예: CLIP, ViT)
언어 인코더	텍스트를 토큰화 (예: LLaMA, GPT)
크로스 모달 어텐션	이미지 토큰과 텍스트 토큰 간 상호 작용
디코더	자연어 응답 생성

2.3 작동 흐름 (VLM)

이미지 입력
- 카메라 또는 센서에서 이미지 수신
- 전처리(리사이즈, 정규화)
이미지 토큰화
- 비전 인코더(예: CLIP)가 이미지를 576개 이미지 토큰으로 변환
- 각 토큰은 객체, 위치, 색상 등 시각적 특징을 포함
텍스트 입력
- 사용자 질문 또는 프롬프트 수신
- 토크나이저를 통해 텍스트 토큰 생성4. 크로스 어텐션 기반 융합
- 텍스트 토큰이 이미지 토큰을 참조하거나, 이미지 토큰이 텍스트를 해석
- 예: “이 물체는 무엇인가요?” → 텍스트 토큰이 이미지 내 객체 토큰에 어텐션
응답 생성
- 디코더가 통합된 표현을 기반으로 자연어 응답 생성
- 예: “이 물체는 신호등입니다.”
후처리
- 응답을 음성 또는 텍스트로 출력
- 필요 시 이미지에 주석(annotation) 추가

2.4 장점

시각-언어 이해: 단순 분류를 넘어 “왜 그렇게 보이는지” 설명 가능
명령 기반 상호작용: “이 버튼을 눌러줘” → 화면에서 버튼 위치 인식 후 안내
3D 공간 이해: 최신 VLM(VLM-3R 등)은3D 재구성까지 가능[6][7]

3. LMM vs VLM: 핵심 차이점

항목	LMM	VLM
모달리티 수	2개 이상 (텍스트 + 이미지 + 음성 + 센서 등)	주로 2개 (텍스트 + 이미지)
목적	복합 상황 인식, 의사결정, 멀티태스킹	시각-언어 이해, 설명, 질문 응답
적용 분야	자동차, 의료, 로보틱스, 스마트 팩토리	이미지 설명, VQA, 시각적 인터페이스
확장성	매우 높음 (모듈 추가 용이)	중간 (주로 시각-언어에 집중)
복잡도	높음 (멀티모달 융합 필요)	상대적으로 낮음

4. Cockpit에서의 LMM/VLM 활용 시나리오

4.1LMM 기반 AI 에이전트

입력: 운전자 얼굴(피로도), 음성 명령, 내비게이션 경로, 날씨 정보
출력: “피곤해 보이시네요. 휴게소에 들르실래요?”
장점: 단순 응답을 넘어 상황 기반 제안 가능

4.2 VLM 기반 시각 보조

입력: 계기판 화면, 도로 이미지
출력: “차선이 오른쪽으로 굽어 있습니다. 속도를 줄이세요.”
장점: 운전자에게 시각 정보를 자연어로 설명

5. 요약

LMM은 다양한 모달리티를 통합해 복합적인 상황 인식과 의사결정을 수행하는 대규모 모델입니다.
VLM은 이미지와 텍스트를 결합해 시각적 질문 응답과 설명 생성에 특화된 모델입니다.
두 모델 모두 크로스 어텐션, 토큰화, 스트리밍 아키텍처를 기반으로 하며, Cockpit과 같은 임베디드 환경에서는 경량화, 전력 효율, 실시간성이 핵심 고려사항입니다.