AI/AI 산업 동향

[2024 AI 동향-3] LLM, VFM 그리고 LMM 모델

MasterOfAI 2024. 10. 8. 23:46

요즘은 LLM(Large Language Model : 거대 언어 모델) 에서 LMM(Large Multimodal Model) 로 넘어가는 모양세 이다. 

VFM(Vision Foundation Modle) - 이미지 기반의 초거대 AI foundation model. 

 

LMM = LLM + VFM

 

어떤 AI 모델은 Fundation 모델 자체가 멀티모달을 지원한다. 

 

반면 어떤 AI 모델은 Fundation 모델은 LLM이지만, 이를 추가로 training 한 Fine-Tuning 모델을 만들어 강력한 멀티모달을 지원한다. 

 

LLM 과 LMM의 차이는 아래와 같다. 

LLM   LMM
문자 학습내용 문자+이미지+영상+파일
보고서 작성
문서 검색 및 요약
활용사례 엑스레이 해독, 이물 표정 분석
이미지 및 영상 제작
텍스트로 명령하면 
-> 텍스트로 답한다. 
상호작용 밀가루, 우유, 달걀 사진 업로드
-> 펜케이크, 와플 등 요리법 안내

 

 

 

Open AI 의 GPT-4V

 

Google 의 Gemini

 

MS의 LLaVA-1.5

 

Meta 의 Meta AI
Meta 의 ImageBInd , 오픈소스, 이미지, 사운드, 움직임, 온도 등의 정보를 결합해 학습한 생성형 모델

 

 

Amazon 의 Let`s Chat 이라는 생성 AI 음성 비서를 탑제한 Alexa 스피커

 

 

 

LG 엑사원 2.0 - 화학 및 바이오 분야의 신소재/신물질/신약 관련 탐색에 사용

 

카카오 코GPT

 

카카오 칼로 - 이미지 생성 AI

 

 

 

AI 기술의 발전 방향 

  • 자연어 처리 
    • Google 이 'Transformer' 알고리즘을 내놓은 이후 급격하게 발전 했다. 
  • 비전 분야 (이미지 처리)
    • 트랜스포머 알고리즘을 이미지 분야로 확장한 'ViT' 알고리즘이 등장하면서 성장의 계기를 맞았다. 

  

참조)

[AI 예감]