"LLM(Large Language Model)"에 이어 앞으로는 "LMM(Large MultiModal Model)"이라는 용어가 보편화될 것으로 보인다. 기존에는 "Multi-Modal LLM"으로 불렀으나, 미국의 일부 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 용어를 밀고 있다.
Open AI의 "GPT-4V(비전)"에 이어 출시 예정인 구글의 차세대 모델 "제미니" 역시 LMM이며, 최근에는 오픈 소스 LMM "라바(LLaVA) 1.5"까지 개발자 사이에서 인기를 누리고 있기 때문이다. 기존의 '언어' 학습을 뛰어넘어 '이미지' 학습까지 더한 LMM이 떠오르고 있다. 벤처비트는 오픈 소스 커뮤니티에서 LLaVA 1.5가 GPT-4V의 대안으로 떠오르며 인기를 얻고 있다고 소개했다. LMM은 이미지를 학습했기 때문에 사용자가 텍스트 대신 이미지를 입력해도 이해하고 답을 낼 수 있다.
이 기능은 Open AI가 출시한 GPT-4부터 상용화 되었고, Open AI 는 이미 지난해 GPT-4의 이미지 학습을 마친 것으로 알려졌다. 이후 이미지 입력은 AI 모델 개발의 표준이 됐다. 빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 매달렸다. 최근 META가 발표한 "META AI"도 멀티모달 기능을 갖췄다.
(1) LLM (Large Language Model) 정의
방대한 양의 텍스트 데이터를 학습하여 다양한 종류의 텍스트를 생성할 수 있는 능력을 갖춘 모델이다.
예를 들어, 시, 코드, 대본, 음악 작품, 이메일, 편지 등과 같은 다양한 종류의 텍스트를 생성할 수 있다. 또한, 텍스트를 번역하거나, 요약하거나, 질문에 답하는 등의 작업에도 사용할 수 있다.
[ LLM의 동작원리 ]
(2) LMM (Large Multimodal Model) 정의
텍스트 데이터 외에도 이미지, 오디오 등 여러 가지 유형의 데이터를 통합하여 처리할 수 있는 능력을 갖춘 모델이다. 예를 들어, 영화, 음악, 뉴스 등 다양한 미디어 콘텐츠 요약 및 생성, 음성 인식, 이미지 인식, 감정 분석 등 여러가지 유형의 데이터를 처리하는 작업에 사용될 수 있다.
LMM은 시각적 입력으로 주어진 Query에 대한 출력을 생성하도록 설계된 대형 멀티모달 모델 이다. LMM은 기존의 LLM과 비전 인코더(이미지를 텍스트로 변환시켜주는 모델)를 연결하는 비전 언어 교차 모델 커넥터(Vision-Language Cross-modal Connector)등의 아키텍처를 활용한다.
GPT-4V는 LMM을 활용한 대형 멀티모달 모델 챗봇이다. GPT-4V는 이미지를 분석 및 사용할 수 있으며, 이미지의 수학문제를 풀수 있다. 또한 차트를 이해할 수 있고, 인간의 표정에서 감정을 읽어낼 수 있다.
[알아둘 상식 퀴즈]
01. 태양계에서 가장 큰 행성은?
02. 세계에서 가장 긴 강은?
03. 커피의 원산지는?
04. 올림픽에서 금메달을 만드는 주요 금속은?
05. '피타고라스 정리'는 어떤 수학 분야에 속하는가?
06. 세계 최초의 인쇄된 책은?
07. '사과의 도시'로 유명한 미국의 도시는?
08. 피카소는 어느 나라 사람인가?
09. 세계 3대 미술관은?
10. 인간의 DNA는 몇 쌍의 염색체로 이루어져 있는가?
11. 고대 그리스에서 '민주주의'가 시작된 도시는?
12. 세계에서 가장 큰 사막은?
13. '로마는 하루아침에 이루어지지 않았다'는 말의 의미는?
14. 세계에서 가장 큰 산호초는?
15. 세계 최초의 컴퓨터는?
16. 피아노의 건반 수는 몇 개인가?
17. '아인슈타인'이 제시한 상대성 이론은?
18. '블랙홀'을 처음 예측한 과학자는?
19. '유리천장'이란 무엇을 의미하는가?
20.'노벨상'을 창설한 인물은? 풀내임으로 ...
[주관식]
댓글에 올려 놓고 있습니다.
감사합니다.~~ (--)(__)
[ 퀴즈 ]
(1) Ensemble AI Model 4가지 & 특징 : https://dev-sites.tistory.com/61
(2) Confusion Matrix : Measure(Metric)의 기본
[ ] 양성 | [ ] 음성 | |
[ ] 양성 | ? | ? |
[ ] 음성 | ? | ? |
(3) Precision = ?
(4) Recall = ?
(5) Accuracy = ?
(6) mAP = ?
(7) F1-Score = ?
AI 딥러닝 관련 유투브 강좌
https://dev-sites.tistory.com/51
MLOPS 관련 유투브 강좌
https://dev-sites.tistory.com/89
생성형AI 관련 유투브 강좌
https://dev-sites.tistory.com/95
Human Pose Estimation 기술
https://dev-sites.tistory.com/96
'AI-Study' 카테고리의 다른 글
진화되는 AI 추론방법: 룰베이스 와 기계학습 (11) | 2024.11.14 |
---|---|
시계열 데이터를 위한 LSTM 이해하기 (1) | 2024.10.15 |
Human Pose Estimation(HPE) 개요 및 연구동향 (18) | 2024.03.24 |
생성형 AI 유투브 강의 모음 (26) | 2024.03.18 |
CVAT 설치와 사용법 (66) | 2024.01.30 |