1. 개요
- EXAONE 3.0은 LG AI 연구소에서 개발한 대형 언어 모델(LLM) 시리즈의 첫 번째 공개 모델입니다.
- 이 모델은 7.8B 파라미터를 가지고 있으며, 영어와 한국어를 지원하는 이중 언어 모델입니다.
- EXAONE 3.0은 광범위한 벤치마크에서 뛰어난 성능을 보였으며, 특히 한국어에서 탁월한 성능을 보였습니다.
2. 모델 아키텍처
- EXAONE 3.0은 디코더-온리 트랜스포머 아키텍처를 기반으로 하며, 최대 컨텍스트 길이는 4,096 토큰입니다.
- RoPE(Rotary Position Embeddings)와 GQA(Grouped Query Attention) 기법을 사용했습니다.
- 모델의 비선형 활성화 함수로 SwiGLU를 사용하고, 피드포워드 차원은 14,336입니다.
3. 토크나이저
- EXAONE 3.0은 영어와 한국어의 이중 언어 지원을 위해 설계된 BBPE(바이트 레벨 바이트 페어 인코딩) 토크나이저를 사용합니다.
- 특히 한국어의 교착어적 특성을 고려해 MeCab을 사용하여 한국어 코퍼스를 사전 토크나이즈한 후, BBPE 토크나이저를 학습시켰습니다.
4. 사전 학습
- EXAONE 3.0은 8조 개의 토큰을 사용하여 학습되었으며, 데이터 품질을 향상시키고 법적 문제를 인지한 데이터 큐레이션 전략을 적용했습니다.
- 학습 데이터는 대규모 웹 크롤링 데이터, 공개된 데이터, 내부 구축된 코퍼스로 구성되었습니다.
5. 사후 학습
- 모델의 인스트럭션 팔로우 능력을 향상시키기 위해 두 단계의 사후 학습이 진행되었습니다: 감독된 미세 조정(SFT)과 직접 선호 최적화(DPO).
- 다양한 주제와 명령 유형을 정의하여 높은 품질의 인스트럭션 튜닝 데이터를 생성했습니다.
6. 데이터 준수
- LG AI 연구소는 데이터 수집과 모델 학습 과정에서 법적 문제를 최소화하기 위해 AI 컴플라이언스 검토를 실시했습니다.
7. 평가
- EXAONE 3.0은 영어와 한국어 벤치마크에서 경쟁 모델들에 비해 우수한 성능을 보였습니다.
- 특히, 실세계 활용 사례, 수학, 코딩, 추론 등에서 뛰어난 성과를 거두었으며, 한국어에서는 모든 비교 모델을 능가하는 성능을 보였습니다.
이 논문은 EXAONE 3.0 모델의 구조와 학습 과정, 성능 평가 등을 상세히 설명하며, 이 모델이 한국어와 영어에서 모두 강력한 성능을 발휘하는 것을 강조하고 있습니다.
EXAONE 3.0 7.8B Instruction Tuned Language Model
'AI > LLM' 카테고리의 다른 글
GPT-4o, 4o-mini 간략 설명 (0) | 2024.08.20 |
---|---|
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(COT 요약) (2) | 2024.08.14 |
MMLU(Measuring Massive Multitask Language Understanding)요약 (0) | 2024.08.13 |
SELF-INSTRUCT: Aligning Language Modelswith Self-Generated Instructions 요약 (1) | 2024.08.13 |
LGAI-EXAONE/EXAONE-3.0 사용 후기 (1) | 2024.08.12 |