AI/AI 산업 동향

[2024 AI 동향-2] AI 모델 (LLM -Foundation) 전쟁

MasterOfAI 2024. 10. 5. 13:56

Update on : 2024/10/10

 

AI산업은 크게 두 개의 축으로 나눠 볼수 있습니다. 

 

  • AI 모델을 개발해 초거대 AI 플랫폼을 구축하려는 빅 테크 기업 
  • 그런 AI 모델을 기반으로 하는 AI 응용 서비스를 개발하는 소규모 기업

 

여기서는  AI 모델에 대한 내용을 다루도록 하겠습니다. 

 

AI모델이라 하면 LLM(Large Language Model : 대규모 언어 모델) 을 말합니다. 

LLM도 두가지 범주로 나눌 수 있는데, LLM 자체 엔진을 말하는 파운데이션 모델과 이를 미세 조정해 만든 파인튜닝 모델로 나뉩니다. 파운데이션 모델은 워낙 만들기가 어려워, 세계적으로도 그런 기술력을 지닌 업체가 손에 꼽을 정도입니다. 파운데이션 모델에서 미세조정을 거치면 여러가지 파인튜닝 모델이 만들어지게 되는데, 그 쓰임새가 다양합니다.  (파인튜닝 모델 이란, 파운데이션에 자신만의 파라메터를 더해서 training을 한 것을 말합니다.)

 

파운데이션 모델 개발 업체들과 모델들은 다음과 같습니다. 

OpenAI

 

  • GPT : 언어 생성 모델로, 텍스트 기반 작업에서 뛰어난 성능을 보여줍니다. 이 모델은 방대한 양의 텍스트 데이터를 사전 학습(pre-training)하여 언어의 구조와 패턴을 이해하고, 이후 사용자의 입력에 맞는 텍스트를 생성하거나 예측하는 방식으로 작동합니다.
  • DALL·E :텍스트에서 이미지를 생성하는 인공지능 모델입니다. 
  • Sora :  텍스트-비디오 생성 AI 모델로, 사용자가 입력한 텍스트 프롬프트를 바탕으로 고화질의 비디오를 자동으로 생성할 수 있는 혁신적인 도구입니다. 이 모델은 GPT와 DALL·E와 같은 텍스트 기반 생성 모델을 확장하여 이미지 생성에서 나아가 비디오를 만들 수 있도록 설계되었습니다. (GPT + DALL·E = Sora)

 

버전 출시연도 특징
GPT-1 2018  
GPT-2 2019  
GPT-3 2020  
GPT 3.5 (ChatGPT) 2022 GPT-3.5는 GPT-3의 자연어 처리 능력을 개선하고, 특정 작업에 대해 더 나은 성능을 보일 수 있도록 향상되었습니다
다국어 처리
GPT-4 2023
다국어 처리 성능 강화 
추론 능력이 향상으로 정확한 정보 제공 
GPT-4V 2023 텍스트와 이미지를 통한 이중 모드 입력이 가능해짐 
GPT-4.5 2023 GPT-4 와 GPT-5 사이에서 성능을 개선한 중간 단계 모델로 성능 및 추론 능력을 향상시킨 버젼. 성능과 정밀동 중점 
멀티모달 (텍스트, 이미지) 발전 
더 나은 추론 능력
성능 최적화 
감정 인식 및 반응
더 자연스러운 상호작용 
GPT-4 Turbo 2024 GPT-4 보다 더 빠르고 , 더 저렴한 모델 
멀티모달 (텍스트, 이미지)
긴 문맥 처리 가능 

2023년 10월까지의 데이터로 훈련되었음
GPT-4o
(omni)
2024 GPT-4 Turbo 와 같은 지능 , 하지만 텍스트를 2배더 빠르게 생성하고, 50%더 저렴함 
멀티모달 (텍스트, 이미지)
영어가 아닌 언어에 대한 최고의 비전과 성능을 제공 

2023년 10월까지의 데이터로 훈련되었음
GPT-4o mini
(omni)
2024 소형 모델 범주에서 가장 진보된 모델 
가장 저렴한 모델 
멀티모달 (텍스트, 이미지)
GPT-3.5-turbo 보다 지능이 높지만 속도는 동일

2023년 10월까지의 데이터로 훈련되었음
o1-preview
o1-mini
2024 복잡한 추론을 수행하기 위해 강화 학습으로 훈련된 모델
대답하기 전에 생각하여 사용자에게 응답하기 전에 긴 내부 사고 사슬을 생성 

2023년 10월까지의 데이터로 훈련되었음

 

Google

버전 출시연도 특징
BART 2018 BERT(Bidirectional Encoder Representations from Transformers) 는 Google이 발표한 혁신적이 언어 모델임 
T5 2019 T5(Text-To-Text Transfer Transformer) sms 모든 자연어 처리 작업을 텍스트-텍스트 형식으로 처리하는 모델 
 LaMDA 2021 LaMDA(Language Model for Dialogue Applications) 대화형 AI에 특화된 언어 모델로, 대화를 더 자연스럽고 맥락적으로 이끌어 가는 데 중점을 둔 모델입니다.
MUM 2021 MUM(Multitask Unified Model)은 Google의 다중 작업을 처리할 수 있는 모델로, 여러 언어 및 여러 형식을 동시에 처리할 수 있는 능력을 갖추고 있습니다.
PaLM 2022 PaLM(Pathways Language Model)은 Google이 발표한 초대형 언어 모델로, 5400억 개의 매개변수를 갖추고 있으며, 매우 복잡한 언어 작업을 처리할 수 있습니다.


멀티태스크 학습과 멀티모달 처리 능력.
 Gemini 1 2023 Gemini 1은 Google DeepMind가 발표한 멀티모달 대형 언어 모델로, PaLM의 후속 모델입니다.

멀티 모달 : 텍스트 + 이미지 + 비디오 + 오디오 + File
Multimodal capabilities (files, audio, video, images)


생성 및 추론 능력 : 

3가지 버젼이 있음 

Ultra : 초고성능을 요구하는 작업에 적합한 최상위 모델 
Pro : 균형 잡힌 고성능을 요구하는 상업적 및 전무가용 애플리케이션에 적합 
Nano :  경량화된 AI 모델로, 모바일 장치나 리소스 제한이 있는 환경에서 사용 
Gemini 1.5 2024 2가지 버젼이 있음

Pro  : 향상된 성능. 
Flash :  속도와 효율성에 초점을 맞춘 모델. 고용량, 고빈도 작업에 최적화되어 있어 빠르고 정확한 처리가 필요한 업무에 안성 맞춤 

 

Meta 

버전 출시연도 특징
LLaMA 1 2023 LLaMA(Large Language Model Meta AI) Meta가 연구 목적으로 공개한 첫 번째 대형 언어 모델 시리즈입니다.
LLaMA 2 2023 LLaMA 2는 Meta가 공개한 두 번째 버전으로, 더 개선된 성능과 함께 상업적 사용도 가능하도록 발표되었습니다. LLaMA 2는 연구자뿐만 아니라 상업적인 활용을 위해서도 사용할 수 있습니다. 또한 기본 LLaMA 모델대화형 AI를 위한 LLaMA 2-Chat 모델도 제공됩니다.

LLaMA 2는 오픈 소스 라이선스를 통해 제공되며, 연구자와 기업이 자유롭게 사용할 수 있도록 공개되었습니다.

LLaMA 2-Chat: 대화형 AI 개발을 위해 특별히 튜닝된 버전으로, 자연스러운 대화와 질문 응답에 최적화되었습니다.

LLaMA 3 2024 오픈 소스 라이선스를 통해 제공
3가지 모델 크기를 제공 8B(소형), 70B(중형), 400+B (초대형)

멀티모달 데이터를 이해하는 능력 

추론 가능 


 

Anthropic (앤트로픽)

Anthropic(앤트로픽)은 인공지능 안전과 윤리적인 AI 개발에 중점을 두고 설립된 AI 연구 회사로, Claude라는 이름의 대형 언어 모델 시리즈를 개발했습니다.

 

버전 출시연도 특징
Claude 1 2023 Anthropic이 처음으로 공개한 대형 언어 모델로, 인간의 안전하고 윤리적인 AI 개발이라는 목표 아래 설계됨. 

안전성 중점: Claude 1은 Anthropic의 AI 안전 철학을 반영하여, 대화 중에 발생할 수 있는 위험한 콘텐츠나 편향성을 줄이는 데 중점을 두었음. AI가 잘못된 정보나 유해한 발언을 생성하지 않도록 제어 시스템을 강화한 것이 특징

사용자 피드백에 대한 학습: 사용자와의 상호작용을 통해 모델의 성능을 개선하며, 대화를 보다 안전하고 인간 친화적으로 이끌어 가도록 설계됨

직관적인 응답: Claude 1은 사용자에게 직관적이고 친근한 방식으로 응답을 생성하도록 튜닝되었음. 
Claude 2 2023
더 나은 안전성: Claude 2는 모델의 편향성을 줄이고, 유해하거나 잘못된 정보를 생성할 위험성을 최소화하기 위해 더 정교한 제어 메커니즘을 도입

향상된 대화 능력: Claude 2는 더 긴 문맥을 유지하며, 복잡한 질문에 대한 응답 능력이 향상됨. 이는 연구 보고서 요약, 기술적인 질문 응답 등에서도 강력한 성능을 발휘.

고급 텍스트 분석 능력: Claude 2는 긴 문서를 분석하거나 요약하는 능력이 더 강력해졌으며, 대규모 문서를 처리하는 데 최적화


Claude 3 2024 Claude 3.0의 가장 큰 특징은 모델 크기의 다양화

기존의 Claude 1과 2는 하나의 모델로 제공되었던 반면, Claude 3.0은 세 가지 버전으로 출시:
Claude-Opus:  가장 성능이 좋고 완벽한 언어모델

Claude-Sonnet : 중간 모델. GPT-4 보다 능력이 떨어지나 준수한 출력 속도와 합리적인 가격 
Claude Haiku : 가장 가벼운 모델이기 때문에 성능보다 추론 속도에 더 집중한 모델


Claude 3.5 2024 이전 버전인 Claude 3 Opus보다 2배 빠른 성능을 제공하며 비용이 저렴함 
고급 추론, 코딩 능력 그리고 시각적 분석 능력을 갖추고 있으며, 복잡한 작업에 최적화되어 있음. 또한 Artifacts라는 새로운 기능을 통해 실시간으로 생성된 콘텐츠를 편집하고 통합할 수 있음

2024년 4월까지의 데이터로 학습

 

 

Mistral AI(미스트랄) - 프랑스의 스타트업 Mistral AI가 만든 AI 모델

  • Mistral 
    • 유럽판 챗GPT 라고 불린다. 
    • ChatGPT4 에 가까운 성능
    • 민첩함과 가성비를 무기로 한다. 
    • MS 클라우드 서비스 'Azure' 에 LLM 'Mistral Large' 를 탑제함 
    • Le Chat 라는 챗봇까지 출시했다. 
    • 영어, 프랑스어, 스페인어, 독일어 등 유럽 언어를 완벽하게 구사하는데 초점을 맞추고 있음

 

Amazon

  • 오픈 AI의 최대 경쟁사인 앤트로픽에(https://www.anthropic.com/) 40억 달라를 투자하였다. 
  • AI 전문가인 앤드루 응 미국 스탠퍼드대 교수를 (https://namu.wiki/w/%EC%95%A4%EB%93%9C%EB%A5%98%20%EC%9D%91) 이사로 영입 
  • Trainium 2 (트레이니엄 2)
    • 해당 LLM을 기반으로 Amazon Q 챗봇을 선보여 기업들의 업무를 도와줌
    • 또한 Rufus(루퍼스) 라는 챗봇을 제공해 사용자에게 최상의 제품을 추천해 주고 있음 
  • Olympus(올림푸스)
    • 2조 개에 달하는 매개변수를 기반으로 훈련
    • 2024년 하반기 출시 예정 
    • 해당 AI 기술은 AWS를 중심으로 구축될 예정 

 

xAI 

  • 일론 머스크가 2023년 7월에 창립한 회사 
  • Truth GPT
    • AI 챗봇 Grok(그록) 이 연동되어 사용됨 
    • ChatGPT 대안으로서 보다 투명하고 공정한 경험을 제공하는 것을 목적으로 하며, 블록체인 기술의 힘을 활용하는 최첨단 언어 처리 시스템을 통해 검열, 조작 또는 기타 형태의 편견이 없는 플랫폼을 만들 수 있다고 함. 
    • ChatGPT 와 달리 필터링되지 않은 정보를 제공한다. (ChatGPT와 OpenAI가 정치적 이유로 검렬되고 있다고 주장)

 

Apple

  • DarwinAI 를 인수하고, 스위스에 비밀 연구소를 개설한 뒤, 구글 인재를 영입하고 소규모 개발자 팀을 꾸려 Apple GPT라는 AI 챗봇을 개발하고 있음.
  •  Ajax(에이잭스)
    • 구글 클라우드 기반의 LLM 모델
    • Apple 에서 내부적으로 다양한 AI 작업을 처리하기 위해 사용되는 비공개 프로젝트
    • 구체적인 세부 사항은 공개되지 않았으나, Ajax는 Apple의 Siri와 같은 음성 인식 및 대화형 AI 시스템을 개선하는 데에도 활용될 가능성이 있습니다.

 

중국의 AI 모델들 

 

바이두 - 문심일언" (文心一言)

  • 중국어 특화: 중국어 언어 처리에 최적화되어 있으며, 중국 내 다양한 산업에서 활용 가능합니다.
  • 멀티모달 지원: 텍스트뿐만 아니라 이미지와 같은 다양한 데이터 형식을 처리할 수 있습니다.
  • 고급 대화 능력: 인간과 유사한 대화 흐름을 유지하며 자연스러운 상호작용이 가능.

알리바바 - 통의 천문 Tongyi Qianwen (通义千问)

  • 다양한 산업 응용: 전자상거래, 고객 지원, 교육 등 다양한 분야에서 활용될 수 있습니다.
  • 멀티모달 지원: 텍스트뿐만 아니라 이미지, 음성 등 다양한 데이터를 처리합니다.
  • 알리바바 생태계 통합: 알리바바의 여러 서비스에 통합되어 AI 기반 솔루션을 제공합니다.

 

 

텐센트 - 혼원(Hunyuan, 混元)

  • 다국어 지원: 특히 중국어와 영어에 특화되어 있음.
  • 고성능 AI: 대규모 자연어 처리와 고급 대화 능력을 제공.
  • 멀티태스크: 텍스트 분석, 생성, 번역 등 다양한 작업을 수행.
  • 텐센트 생태계와의 통합: 텐센트 클라우드와 연계해 기업 및 산업 전반에 적용 가능.

 

화웨이 - 반야(Pangu, 盘古)

  • 대규모 학습 데이터: 방대한 중국어 데이터셋을 학습하여 높은 정확도의 응답 생성.
  • 다목적 활용: 금융, 의료, 에너지 등 다양한 산업에 적용 가능.
  • 화웨이 클라우드와 통합: 화웨이 클라우드 서비스를 통해 상업적 응용 지원.

 

센스타임 - 상투(SenseNova, 商汤)

이 모델은 인공지능과 자연어 처리 기술을 기반으로 하여 멀티모달 작업을 수행할 수 있는 고성능 AI 모델로 설계되었습니다. 중국어와 다양한 언어를 지원하며, 텍스트 생성, 분석, 이미지 처리, 대화형 AI 등에서 활용됨 상투는 센스타임의 AI 생태계와 통합되어 산업용 AI 솔루션을 제공하며, 특히 스마트 도시, 자동차, 교육 등 다양한 분야에 적용되고 있음

 

 

한국의 AI 모델

네이버 하이클로버X

자연어 처리(NLP) 기술을 기반으로 다양한 AI 작업을 수행할 수 있음. 이 모델은 대화형 AI, 콘텐츠 생성, 텍스트 분석 등에 활용되며, 네이버의 AI 생태계와 밀접하게 통합되어 있음.  특히 한국어에 특화된 성능을 제공하여, 한국어 대화 시스템, 검색 최적화, 번역 등의 응용 분야에서 뛰어난 성능을 발휘