본문 바로가기
AI/LLM

DOCLAYOUT-YOLO: 빠르고 정확한 문서 레이아웃 분석의 새로운 패러다임

by 니나노뭉 2024. 11. 7.

 

초록
문서 레이아웃 분석(Document Layout Analysis)은 실제 문서 이해 시스템에서 매우 중요하지만, 속도와 정확성 간의 어려운 균형을 맞추어야 하는 과제가 있습니다. 텍스트와 시각적 특징을 모두 활용하는 멀티모달(multimodal) 방식은 높은 정확성을 달성할 수 있지만 상당한 지연 시간이 발생하는 반면, 시각적 특징만 사용하는 단일 모달(unimodal) 방식은 빠른 처리 속도를 제공하지만 정확성이 떨어집니다. 이 문제를 해결하기 위해, 우리는 사전 학습과 모델 설계에서 문서 특화 최적화를 통해 정확성을 높이면서 속도 우위를 유지하는 새로운 접근 방식인 DocLayout-YOLO를 제안합니다. 강력한 문서 사전 학습을 위해, 우리는 문서 합성을 2차원 빈 패킹 문제로 정의하는 Mesh-candidate BestFit 알고리즘을 도입하여 대규모의 다양한 DocSynth-300K 데이터셋을 생성합니다. 결과적으로 만들어진 DocSynth-300K 데이터셋으로 사전 학습하면 다양한 문서 유형에서 미세 조정 성능이 크게 향상됩니다. 모델 최적화 측면에서는 문서 요소의 다양한 규모 변화를 더 잘 처리할 수 있는 Global-to-Local Controllable Receptive Module을 제안합니다. 또한, 서로 다른 문서 유형에서 성능을 검증하기 위해 DocStructBench라는 복잡하고 도전적인 벤치마크를 도입했습니다. 다운스트림 데이터셋에 대한 광범위한 실험 결과, DocLayout-YOLO가 속도와 정확성 모두에서 뛰어난 성과를 보여주었습니다.

서론
DocLayout-YOLO는 문서 레이아웃 분석(DLA)에서 속도와 정확성의 균형을 맞추기 위해 설계된 모델입니다. 기존 DLA 방식은 시각적 정보만 사용하는 단일 모달(unimodal) 방식과 텍스트 및 시각 정보를 모두 사용하는 멀티모달(multimodal) 방식으로 나뉩니다. 이 모델은 새로운 학습 데이터셋 DocSynth-300K와 메쉬-후보 적합 알고리즘(Mesh-candidate BestFit)을 이용하여 다양한 문서 형식에 대한 분석 정확성을 높이고, 모델 구조의 최적화를 통해 속도도 개선했습니다.

관련 연구
기존의 DLA 방식 및 사용된 데이터셋의 한계를 설명합니다. 예를 들어, LayoutLMv3와 같은 멀티모달 모델은 큰 규모의 데이터로 학습해 일반화 성능이 뛰어나지만, 속도가 느린 문제가 있습니다. 단일 모달 방식은 상대적으로 속도는 빠르지만 정확성이 떨어지는 문제가 있습니다.

DocSynth-300K 데이터셋 구성
이 항목에서는 DocSynth-300K라는 새로운 데이터셋을 구축하는 과정이 설명됩니다. 문서 요소(예: 텍스트, 이미지, 표)의 다양성과 레이아웃의 다양성을 고려하여 메쉬-후보 적합 알고리즘을 사용해 현실에 가까운 문서 레이아웃을 자동으로 생성합니다. 이를 통해 다양한 문서에 대해 더 나은 모델 학습이 가능하게 합니다.

글로벌-로컬 모델 아키텍처(Global-to-Local Model Architecture)
DocLayout-YOLO의 모델 구조는 다양한 크기의 문서 요소를 효과적으로 감지하기 위해 GL-CRM(Global-to-Local Controllable Receptive Module)을 포함합니다. 이 모듈은 전역에서 지역으로 정보가 흐르도록 설계되어, 문서 전반의 큰 요소부터 작은 지역 요소까지 다양한 규모의 특징을 감지합니다.

실험 및 성능 평가
DocLayout-YOLO의 성능을 평가하기 위해 다양한 실험이 진행되었습니다. DocLayout-YOLO는 기존 모델에 비해 속도와 정확성에서 우수한 성과를 보였으며, 특히 DocStructBench라는 복잡한 문서 평가 데이터셋에서 뛰어난 성능을 나타냈습니다.

비교 및 분석
DocLayout-YOLO는 기존의 다양한 DLA 방식과 비교한 결과, 대부분의 경우 더 높은 정확성과 속도를 기록했습니다. 또한, 여러 문서 형식에서 기존의 데이터셋과 비교해 DocSynth-300K가 더 뛰어난 일반화 성능을 보였습니다.

추가 실험 및 데이터셋 비교
데이터셋의 크기와 구성이 모델 성능에 미치는 영향을 조사한 실험 결과, DocSynth-300K는 다른 생성 방법이나 공공 데이터셋에 비해 더 나은 성능 향상을 보여줬습니다.

결론
이 논문에서는 속도와 정확성에서 뛰어난 DocLayout-YOLO를 제안합니다. DocLayout-YOLO는 사전 학습과 모델 최적화 측면에서 개선된 기술을 포함하고 있습니다. 사전 학습을 위해서는 고품질의 다양한 DLA(DocLayout Analysis) 사전 학습 데이터셋인 DocSynth-300K를 합성하는 Mesh-candidate BestFit 방법론을 제안하고, 모델 최적화 측면에서는 계층적 글로벌-블록-로컬 방식으로 문서 이미지를 인식하는 GL-CRM(Global-to-Local Controllable Receptive Module)을 도입했습니다. 광범위한 다운스트림 데이터셋에 대한 실험 결과, DocLayout-YOLO는 기존의 DLA 방법들에 비해 속도와 정확성 모두에서 현저히 우수한 성능을 보여줍니다.

 

 


 

아래 이미지는 DocLayout YOLO demo 페이지에서 확인한 결과입니다.

 

[2410.12628] DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

 

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from sig

arxiv.org

 

DocLayout YOLO - a Hugging Face Space by opendatalab

 

DocLayout YOLO - a Hugging Face Space by opendatalab

Running on Zero

huggingface.co

 

GitHub - opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

 

GitHub - opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Globa

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception - opendatalab/DocLayout-YOLO

github.com