[Plugin] markitdown-hwp — HWP (Korean document format) support #1667
chiang
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
🇰🇷 HWP plugin for MarkItDown — convert Korean government & academic documents
Hi everyone! I'd like to share a MarkItDown plugin I built for HWP files.
HWP is the document format used by Hancom Office — the dominant word processor in South Korea. It's everywhere in Korean government, legal, education, and academic contexts. If you're building RAG pipelines or LLM applications that need to process Korean documents, you've almost certainly run into HWP files.
Install
Usage
No extra configuration needed — just
enable_plugins=Trueand HWP files are recognized automatically.How it works
The plugin is powered by Docpler, a HWP parser built on a Rust core. The Rust engine handles the binary HWP 5.0 format (OLE2 compound file structure) and produces clean Markdown output, including tables and text boxes.
Try it without installing
You can try it directly in your browser on Hugging Face:
👉 https://huggingface.co/spaces/rightstack/docpler
Links
Happy to answer any questions. Feedback and issues very welcome!
🇰🇷 HWP 파일을 위한 MarkItDown 플러그인
안녕하세요! HWP 문서 변환을 위한 MarkItDown 플러그인을 만들어 공유합니다.
HWP는 한컴오피스의 문서 형식으로, 한국 정부·법률·교육·학술 문서에서 사실상 표준으로 쓰이고 있습니다. 한국 문서를 처리하는 RAG 파이프라인이나 LLM 애플리케이션을 만든다면 HWP 파일을 반드시 마주치게 됩니다.
설치
사용법
enable_plugins=True만 설정하면 HWP 파일이 자동으로 인식됩니다. 별도 설정 불필요.동작 방식
Rust 코어 기반의 Docpler 라이브러리를 사용합니다. HWP 5.0의 OLE2 바이너리 구조를 파싱해 표, 텍스트 상자를 포함한 Markdown을 출력합니다.
설치 없이 바로 체험
브라우저에서 직접 변환해볼 수 있습니다:
👉 https://huggingface.co/spaces/rightstack/docpler
링크
질문이나 피드백은 언제든 환영합니다!
Beta Was this translation helpful? Give feedback.
All reactions