Khám phá Learn Stream About Jokes
INSIDER Tony's Friends — Insider — ~2 playbook/tuần, Discord riêng, tài nguyên dựng sẵn Tham gia →
Stream
Liên kết

Chuyển mọi file sang Markdown để dùng với AI

· github

TL;DR

Tool Python của Microsoft, chuyển đổi PDF, Word, Excel, PowerPoint, ảnh, audio, YouTube… sang định dạng Markdown. Dùng khi bạn cần feed tài liệu vào LLM hoặc build pipeline xử lý text tự động.

Nói đơn giản: Choáng choáng gì cũng chuyển được thành text chuẩn Markdown để AI đọc được.

Bài này dành cho ai?

1. Người muốn AI đọc được tài liệu

Vấn đề: PDF, Word, Excel toàn là binary, LLM không đọc trực tiếp được Khi nào cần: Khi muốn prompt AI phân tích hợp đồng, báo cáo, slide presentation Được gì: Tài liệu được chuẩn hóa sang Markdown, giữ nguyên cấu trúc heading, table, list

2. Người build automation workflow

Vấn đề: Mỗi loại file lại cần thư viện khác nhau để parse Khi nào cần: Khi cần xây dựng pipeline xử lý tài liệu tự động Được gì: Một tool xử lý tất cả, không cần viết code riêng cho từng định dạng

3. Developer cần chuẩn bị data cho LLM

Vấn đề: Dữ liệu nằm rải rác nhiều format, không thống nhất Khi nào cần: Khi fine-tune model hoặc build RAG system Được gì: Input统一, giảm token waste vì Markdown hiệu quả về mặt token

Các điểm chính

  1. Markdown là định dạng LLM hiểu tốt nhất LLM như GPT-4o được train trên khối lượng lớn Markdown, hiểu cấu trúc heading, list, table rất tốt. Markdown cũng tiết kiệm token hơn HTML. → Làm gì: Dùng MarkItDown thay vì chỉ extract raw text khi feed document vào LLM

  2. Hỗ trợ cả chục loại file PDF, PowerPoint, Word, Excel, ảnh (OCR + metadata), audio (transcribe + metadata), HTML, CSV, JSON, XML, ZIP, YouTube, EPUB. Đủ mọi thứ. → Làm gì: Thử markitdown file.pdf xem kết quả trước khi tự việt code parse

  3. Cài đặt theo module Mỗi định dạng là một optional dependency. Cài tất cả: pip install 'markitdown[all]'. Hoặc chỉ cài cái cần: pip install 'markitdown[pdf,docx,pptx]'. → Làm gì: Nếu server có giới hạn, cài đúng module mình xài, đừng cài thừa

  4. Tích hợp LLM để mô tả ảnh Cung cấp llm_clientllm_model (hiện chỉ hỗ trợ pptx và image), AI sẽ describe ảnh thay vì chỉ extract text thuần. → Làm gì: Khi có slide chứa biểu đồ, đồ thị, dùng feature này để LLM hiểu nội dung

  5. Có MCP server cho Claude Desktop MarkItDown có MCP server, cho phép tích hợp trực tiếp với Claude Desktop hoặc các LLM app khác hỗ trợ MCP. → Làm gì: Search “markitdown-mcp” trên GitHub để xem hướng dẫn tích hợp

  6. Dùng Azure Document Intelligence để tăng độ chính xác Với file phức tạp (PDF scan, form), có thể dùng Azure Document Intelligence endpoint để improve quality. Tính năng này optional. → Làm gì: Nếu file có bảng phức tạp, thử thêm -d -e "\<endpoint>" xem có better không

  7. Hỗ trợ plugin MarkItDown cho phép viết plugin để hỗ trợ thêm format mới. Search hashtag #markitdown-plugin trên GitHub để tìm plugin cộng đồng. → Làm gì: Nếu cần format đặc biệt, có thể tự viết plugin theo sample trong repo

Quick Start

  1. Cài đặt ngay: pip install 'markitdown[all]'
  2. Chạy thử với file bất kỳ: markitdown baocao.pdf -o output.md
  3. Xem kết quả, nếu ưng thì tích hợp vào workflow
#python #markdown #document-conversion #automation #llm-tools #microsoft
0:00

Chia sẻ ảnh

Bắt đầu gõ để tìm kiếm...