본문 바로가기

AI/LLM

EXAONE 3.0 7.8B Instruction Tuned Language Model 요약

by 니나노뭉 2024. 8. 12.

1. 개요

EXAONE 3.0은 LG AI 연구소에서 개발한 대형 언어 모델(LLM) 시리즈의 첫 번째 공개 모델입니다.
이 모델은 7.8B 파라미터를 가지고 있으며, 영어와 한국어를 지원하는 이중 언어 모델입니다.
EXAONE 3.0은 광범위한 벤치마크에서 뛰어난 성능을 보였으며, 특히 한국어에서 탁월한 성능을 보였습니다.

2. 모델 아키텍처

EXAONE 3.0은 디코더-온리 트랜스포머 아키텍처를 기반으로 하며, 최대 컨텍스트 길이는 4,096 토큰입니다.
RoPE(Rotary Position Embeddings)와 GQA(Grouped Query Attention) 기법을 사용했습니다.
모델의 비선형 활성화 함수로 SwiGLU를 사용하고, 피드포워드 차원은 14,336입니다.

3. 토크나이저

EXAONE 3.0은 영어와 한국어의 이중 언어 지원을 위해 설계된 BBPE(바이트 레벨 바이트 페어 인코딩) 토크나이저를 사용합니다.
특히 한국어의 교착어적 특성을 고려해 MeCab을 사용하여 한국어 코퍼스를 사전 토크나이즈한 후, BBPE 토크나이저를 학습시켰습니다.

4. 사전 학습

EXAONE 3.0은 8조 개의 토큰을 사용하여 학습되었으며, 데이터 품질을 향상시키고 법적 문제를 인지한 데이터 큐레이션 전략을 적용했습니다.
학습 데이터는 대규모 웹 크롤링 데이터, 공개된 데이터, 내부 구축된 코퍼스로 구성되었습니다.

5. 사후 학습

모델의 인스트럭션 팔로우 능력을 향상시키기 위해 두 단계의 사후 학습이 진행되었습니다: 감독된 미세 조정(SFT)과 직접 선호 최적화(DPO).
다양한 주제와 명령 유형을 정의하여 높은 품질의 인스트럭션 튜닝 데이터를 생성했습니다.

6. 데이터 준수

LG AI 연구소는 데이터 수집과 모델 학습 과정에서 법적 문제를 최소화하기 위해 AI 컴플라이언스 검토를 실시했습니다.

7. 평가

EXAONE 3.0은 영어와 한국어 벤치마크에서 경쟁 모델들에 비해 우수한 성능을 보였습니다.
특히, 실세계 활용 사례, 수학, 코딩, 추론 등에서 뛰어난 성과를 거두었으며, 한국어에서는 모든 비교 모델을 능가하는 성능을 보였습니다.

이 논문은 EXAONE 3.0 모델의 구조와 학습 과정, 성능 평가 등을 상세히 설명하며, 이 모델이 한국어와 영어에서 모두 강력한 성능을 발휘하는 것을 강조하고 있습니다.

EXAONE 3.0 7.8B Instruction Tuned Language Model

'AI > LLM' 카테고리의 다른 글

GPT-4o, 4o-mini 간략 설명 (0)	2024.08.20
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(COT 요약) (2)	2024.08.14
MMLU(Measuring Massive Multitask Language Understanding)요약 (0)	2024.08.13
SELF-INSTRUCT: Aligning Language Modelswith Self-Generated Instructions 요약 (1)	2024.08.13
LGAI-EXAONE/EXAONE-3.0 사용 후기 (1)	2024.08.12

티스토리툴바