데브로그

프로그래밍 팁 그리고 프로그램 사용 방법 등을 공유 합니다.

Github

OpenDataLoader PDF 설치 및 사용방법

OpenDataLoader PDF 설치 및 사용방법
OpenDataLoader PDF 설치 및 사용방법

PDF 데이터를 AI에서 활용하려고 할 때 가장 큰 문제는 구조가 깨진 텍스트입니다.
표는 망가지고, 문단 순서도 뒤섞이고, 좌표 정보도 없습니다.

이 문제를 해결하는 오픈소스가 바로 OpenDataLoader PDF 입니다.

GitHub: https://github.com/opendataloader-project/opendataloader-pdf


1. OpenDataLoader PDF란?

OpenDataLoader PDF는 PDF를 AI에서 활용 가능한 구조화 데이터로 변환해주는 오픈소스 도구입니다.

핵심 특징은 다음과 같습니다.

  • PDF → Markdown / JSON / HTML 변환
  • 모든 요소에 bounding box (좌표) 제공
  • 테이블, 이미지, 수식까지 인식
  • OCR 지원 (스캔 PDF 가능)
  • RAG 최적화 구조 출력
  • 로컬 실행 (데이터 외부 전송 없음)

한마디로 “AI 학습용 PDF 파서” 입니다.


💡 왜 중요한가?

기존 PDF 파서는 이런 문제가 있습니다.

  • ❌ 읽기 순서 깨짐
  • ❌ 표 구조 붕괴
  • ❌ 좌표 없음 (출처 추적 불가)
  • ❌ RAG 활용 어려움

OpenDataLoader는 이걸 해결합니다.

  • ✅ 문서 구조 유지
  • ✅ 표 정확도 높음 (0.93)
  • ✅ 위치 기반 인용 가능
  • ✅ AI 친화적 데이터 생성

🧠 주요 기능

1. 구조화된 데이터 추출

  • Heading, Paragraph, Table, Image 구분
  • JSON으로 상세 구조 제공

2. Bounding Box 제공

{
  "type": "heading",
  "page number": 1,
  "bounding box": [72, 700, 540, 730]
}

RAG에서 “이 문장은 PDF 어디에서 왔는가?” 추적 가능합니다.


3. Hybrid AI 모드

  • 일반 페이지 → 빠른 로컬 처리
  • 복잡한 페이지 → AI 처리
opendataloader-pdf-hybrid --port 5002 --force-ocr

정확도가 90% 이상입니다.


4. OCR 지원

  • 스캔 PDF 처리 가능
  • 한국어 포함 다국어 지원
opendataloader-pdf-hybrid --port 5002 --force-ocr --ocr-lang "ko,en"

5. 수식 & 이미지 설명

  • 수식 → LaTeX 변환
  • 이미지 → AI 설명 생성
opendataloader-pdf-hybrid --enrich-formula

⚙️ 설치 방법

1. 사전 준비

  • Java 11 이상
  • Python 3.10 이상

확인:

java -version
python --version

2. 설치

pip install -U opendataloader-pdf

🚀 기본 사용법 (Python)

가장 간단한 예제

import opendataloader_pdf

opendataloader_pdf.convert(
    input_path=["file1.pdf"],
    output_dir="output/",
    format="markdown,json"
)

👉 결과:

  • Markdown 파일
  • JSON 파일 생성

⚡ CLI 사용법

opendataloader-pdf file1.pdf file2.pdf folder/

🔥 Hybrid 모드 (고급)

복잡한 PDF (표, 스캔 등) 처리할 때 사용합니다.

1. 설치

pip install "opendataloader-pdf[hybrid]"

2. 서버 실행

opendataloader-pdf-hybrid --port 5002

3. PDF 처리

opendataloader-pdf --hybrid docling-fast file1.pdf

🧾 OCR 사용 (스캔 PDF)

opendataloader-pdf-hybrid --force-ocr --ocr-lang "ko,en"

🧪 수식 추출 (LaTeX)

opendataloader-pdf-hybrid --enrich-formula

출력 예시:

{
  "type": "formula",
  "content": "\\frac{f(x+h)-f(x)}{h}"
}

📊 언제 어떤 모드를 써야 할까?

상황추천 모드
일반 PDF기본 모드
표 많음Hybrid
스캔 PDFHybrid + OCR
수식 있음Hybrid + formula

🤖 RAG에서 활용 방법

OpenDataLoader는 RAG에 최적화되어 있습니다.

1. Markdown 사용

  • LLM 입력용

2. JSON 사용

  • 구조 기반 검색
  • 좌표 기반 인용

👉 예:

  • 답변 → PDF 위치 하이라이트
  • 표 → 정확한 데이터 추출

🔐 보안 특징

  • 로컬 실행
  • 외부 API 없음
  • Prompt Injection 필터링 지원

👉 기업 환경에서도 사용 가능합니다.


📈 성능 (벤치마크)

엔진정확도
OpenDataLoader0.90 (1위)
docling0.86
marker0.83

정확도 0.93를 보여주고 있습니다.


🧩 활용 사례

  • 📚 RAG 검색 시스템
  • 📊 PDF 데이터 분석
  • 🧾 문서 자동 요약
  • 🏥 의료 문서 처리
  • 📑 논문 분석

⚠️ 주의사항

  • convert()는 JVM 실행 → 반복 호출 느림
    👉 여러 파일 한번에 처리 권장합니다.

🎯 결론

OpenDataLoader PDF는 단순한 PDF 파서가 아닙니다.

👉 AI 시대를 위한 PDF 데이터 변환 엔진입니다.

특히 이런 사람에게 추천드립니다.:

  • RAG 시스템 만들고 있는 개발자
  • PDF 데이터 분석하는 사람
  • OCR + 구조화 동시에 필요한 경우

한줄 요약

PDF를 “AI가 이해할 수 있는 데이터”로 바꿔주는 최고의 오픈소스입니다.

Leave a Reply