본문 바로가기
AI/LLM

EXAONE 3.0 7.8B Instruction Tuned Language Model 요약

by 니나노뭉 2024. 8. 12.

 


1. 개요

  • EXAONE 3.0은 LG AI 연구소에서 개발한 대형 언어 모델(LLM) 시리즈의 첫 번째 공개 모델입니다.
  • 이 모델은 7.8B 파라미터를 가지고 있으며, 영어와 한국어를 지원하는 이중 언어 모델입니다.
  • EXAONE 3.0은 광범위한 벤치마크에서 뛰어난 성능을 보였으며, 특히 한국어에서 탁월한 성능을 보였습니다.

2. 모델 아키텍처

  • EXAONE 3.0은 디코더-온리 트랜스포머 아키텍처를 기반으로 하며, 최대 컨텍스트 길이는 4,096 토큰입니다.
  • RoPE(Rotary Position Embeddings)와 GQA(Grouped Query Attention) 기법을 사용했습니다.
  • 모델의 비선형 활성화 함수로 SwiGLU를 사용하고, 피드포워드 차원은 14,336입니다.

3. 토크나이저

  • EXAONE 3.0은 영어와 한국어의 이중 언어 지원을 위해 설계된 BBPE(바이트 레벨 바이트 페어 인코딩) 토크나이저를 사용합니다.
  • 특히 한국어의 교착어적 특성을 고려해 MeCab을 사용하여 한국어 코퍼스를 사전 토크나이즈한 후, BBPE 토크나이저를 학습시켰습니다.

4. 사전 학습

  • EXAONE 3.0은 8조 개의 토큰을 사용하여 학습되었으며, 데이터 품질을 향상시키고 법적 문제를 인지한 데이터 큐레이션 전략을 적용했습니다.
  • 학습 데이터는 대규모 웹 크롤링 데이터, 공개된 데이터, 내부 구축된 코퍼스로 구성되었습니다.

5. 사후 학습

  • 모델의 인스트럭션 팔로우 능력을 향상시키기 위해 두 단계의 사후 학습이 진행되었습니다: 감독된 미세 조정(SFT)과 직접 선호 최적화(DPO).
  • 다양한 주제와 명령 유형을 정의하여 높은 품질의 인스트럭션 튜닝 데이터를 생성했습니다.

6. 데이터 준수

  • LG AI 연구소는 데이터 수집과 모델 학습 과정에서 법적 문제를 최소화하기 위해 AI 컴플라이언스 검토를 실시했습니다.

7. 평가

  • EXAONE 3.0은 영어와 한국어 벤치마크에서 경쟁 모델들에 비해 우수한 성능을 보였습니다.
  • 특히, 실세계 활용 사례, 수학, 코딩, 추론 등에서 뛰어난 성과를 거두었으며, 한국어에서는 모든 비교 모델을 능가하는 성능을 보였습니다.

이 논문은 EXAONE 3.0 모델의 구조와 학습 과정, 성능 평가 등을 상세히 설명하며, 이 모델이 한국어와 영어에서 모두 강력한 성능을 발휘하는 것을 강조하고 있습니다.


 

EXAONE 3.0 7.8B Instruction Tuned Language Model