Chuyển mọi file sang Markdown để dùng với AI
TL;DR
Tool Python của Microsoft, chuyển đổi PDF, Word, Excel, PowerPoint, ảnh, audio, YouTube… sang định dạng Markdown. Dùng khi bạn cần feed tài liệu vào LLM hoặc build pipeline xử lý text tự động.
Nói đơn giản: Choáng choáng gì cũng chuyển được thành text chuẩn Markdown để AI đọc được.
Bài này dành cho ai?
1. Người muốn AI đọc được tài liệu
Vấn đề: PDF, Word, Excel toàn là binary, LLM không đọc trực tiếp được Khi nào cần: Khi muốn prompt AI phân tích hợp đồng, báo cáo, slide presentation Được gì: Tài liệu được chuẩn hóa sang Markdown, giữ nguyên cấu trúc heading, table, list
2. Người build automation workflow
Vấn đề: Mỗi loại file lại cần thư viện khác nhau để parse Khi nào cần: Khi cần xây dựng pipeline xử lý tài liệu tự động Được gì: Một tool xử lý tất cả, không cần viết code riêng cho từng định dạng
3. Developer cần chuẩn bị data cho LLM
Vấn đề: Dữ liệu nằm rải rác nhiều format, không thống nhất Khi nào cần: Khi fine-tune model hoặc build RAG system Được gì: Input统一, giảm token waste vì Markdown hiệu quả về mặt token
Các điểm chính
-
Markdown là định dạng LLM hiểu tốt nhất LLM như GPT-4o được train trên khối lượng lớn Markdown, hiểu cấu trúc heading, list, table rất tốt. Markdown cũng tiết kiệm token hơn HTML. → Làm gì: Dùng MarkItDown thay vì chỉ extract raw text khi feed document vào LLM
-
Hỗ trợ cả chục loại file PDF, PowerPoint, Word, Excel, ảnh (OCR + metadata), audio (transcribe + metadata), HTML, CSV, JSON, XML, ZIP, YouTube, EPUB. Đủ mọi thứ. → Làm gì: Thử
markitdown file.pdfxem kết quả trước khi tự việt code parse -
Cài đặt theo module Mỗi định dạng là một optional dependency. Cài tất cả:
pip install 'markitdown[all]'. Hoặc chỉ cài cái cần:pip install 'markitdown[pdf,docx,pptx]'. → Làm gì: Nếu server có giới hạn, cài đúng module mình xài, đừng cài thừa -
Tích hợp LLM để mô tả ảnh Cung cấp
llm_clientvàllm_model(hiện chỉ hỗ trợ pptx và image), AI sẽ describe ảnh thay vì chỉ extract text thuần. → Làm gì: Khi có slide chứa biểu đồ, đồ thị, dùng feature này để LLM hiểu nội dung -
Có MCP server cho Claude Desktop MarkItDown có MCP server, cho phép tích hợp trực tiếp với Claude Desktop hoặc các LLM app khác hỗ trợ MCP. → Làm gì: Search “markitdown-mcp” trên GitHub để xem hướng dẫn tích hợp
-
Dùng Azure Document Intelligence để tăng độ chính xác Với file phức tạp (PDF scan, form), có thể dùng Azure Document Intelligence endpoint để improve quality. Tính năng này optional. → Làm gì: Nếu file có bảng phức tạp, thử thêm
-d -e "\<endpoint>"xem có better không -
Hỗ trợ plugin MarkItDown cho phép viết plugin để hỗ trợ thêm format mới. Search hashtag
#markitdown-plugintrên GitHub để tìm plugin cộng đồng. → Làm gì: Nếu cần format đặc biệt, có thể tự viết plugin theo sample trong repo
Quick Start
- Cài đặt ngay:
pip install 'markitdown[all]' - Chạy thử với file bất kỳ:
markitdown baocao.pdf -o output.md - Xem kết quả, nếu ưng thì tích hợp vào workflow
Đang tải nội dung...
Xây phần mềm không cần UI
Agent-first development: 3 buổi từ CLI commerce engine → MCP server → website trên Cloudflare.
Xem chi tiết & đăng ký →
Công ty một người: Present, Bán & Vận hành
3-pack cohort cho công ty một người: Skill làm slide, bán & vận hành workshop tự động, vault giữ tri thức compound.
Xem chi tiết & đăng ký →