Dữ liệu Sạch, RAG Tốt hơn: Làm chủ Microsoft MarkItDown cho Pipeline Python

Table of Contents

Tại sao Markdown Sạch là Xương sống của Chiến lược RAG

Nạp dữ liệu (Data ingestion) thường là nơi các dự án RAG thất bại. Sau nhiều năm vật lộn với các pipeline nạp dữ liệu lộn xộn, tôi nhận ra một sự thật hiển nhiên: LLM chỉ hiệu quả khi cấu trúc dữ liệu mà nó tiêu thụ được tối ưu.

Trong khi giới công nghệ đang mải mê với các cơ sở dữ liệu vector hoặc mô hình embedding mới nhất, nguyên liệu thô — chính là các tài liệu — thường bị bỏ qua. Phần lớn tri thức doanh nghiệp bị khóa chặt trong các tệp PDF dài hàng trăm trang, bảng tính Excel phức tạp và các tệp Word cũ. Trích xuất dữ liệu đó mà không làm mất đi ý nghĩa ngữ nghĩa là một trở ngại lớn.

Việc chuyển đổi từ một bản thử nghiệm (PoC) cục bộ sang một hệ thống cấp độ production đòi hỏi dữ liệu có độ trung thực cao. Nếu bạn đổ văn bản thô, không cấu trúc vào kho lưu trữ vector, bạn sẽ mất đi các ngữ cảnh quan trọng được cung cấp bởi tiêu đề và mối quan hệ bảng biểu. Microsoft MarkItDown giải quyết vấn đề này bằng cách cung cấp một phương pháp thống nhất để chuẩn hóa các định dạng này thành Markdown sạch. LLM rất ưa chuộng Markdown. Nó sử dụng ít token hơn HTML và bảo toàn cấu trúc phân cấp tài liệu thông qua cú pháp đơn giản, dễ dự đoán.

Thiết lập Microsoft MarkItDown

Lợi thế thực sự của MarkItDown là sự hợp nhất. Thay vì phải quản lý một bộ thư viện rời rạc như python-docx, openpyxl, và PyPDF2, bạn có một giao diện duy nhất để xử lý tất cả. Bạn sẽ cần Python 3.10 trở lên. Tôi thực sự khuyên bạn nên sử dụng môi trường ảo (virtual environment) để giữ cho các package hệ thống luôn sạch sẽ.

# Thiết lập môi trường mới
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# Cài đặt package cốt lõi
pip install markitdown

Package cốt lõi có thể hoạt động ngay lập tức với các tệp văn bản. Nếu bạn cần xử lý hình ảnh bằng OCR hoặc tạo mô tả thông qua LLM, bạn có thể cài đặt thư viện openai như một thành phần mở rộng. Sau khi cài đặt, bạn có thể sử dụng công cụ dòng lệnh để kiểm tra nhanh hoặc dùng Python API để tự động hóa.

Điều phối chuyển đổi với Python

CLI rất tiện lợi cho các tác vụ đơn lẻ, nhưng các pipeline production yêu cầu sự tự động hóa. Nếu bạn đang xử lý một thư viện gồm 5.000 tài liệu hướng dẫn kỹ thuật, bạn cần một script. Python API của công cụ này cực kỳ ngắn gọn: khởi tạo đối tượng MarkItDown và trỏ nó vào tệp của bạn.

Chuyển đổi tệp đơn lẻ cơ bản

Đoạn mã này minh họa một quá trình chuyển đổi tiêu chuẩn. Nó lấy một tài liệu cục bộ và xuất trực tiếp nội dung Markdown.

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("architecture_spec.pdf")

print(result.text_content)

Đối tượng result không chỉ là một chuỗi thô. Nó bao gồm siêu dữ liệu (metadata) về quá trình chuyển đổi, điều này rất quan trọng cho việc ghi log và kiểm tra khi chạy các tác vụ hàng loạt trên các tập dữ liệu lớn.

Xử lý hàng loạt một thư mục

Trong một quy trình kỹ thuật dữ liệu điển hình, bạn không chỉ xử lý một tệp; bạn đang đối mặt với một núi tài liệu cũ. Tôi sử dụng mô hình sau để quét các thư mục, chuyển đổi các tệp được hỗ trợ và chuẩn bị chúng để lập chỉ mục trong cơ sở dữ liệu vector.

import os
from markitdown import MarkItDown

def batch_convert(input_dir, output_dir):
    md = MarkItDown()
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(input_dir):
        if filename.lower().endswith((".pdf", ".docx", ".xlsx", ".pptx")):
            try:
                print(f"Đang chuyển đổi: {filename}")
                result = md.convert(os.path.join(input_dir, filename))
                
                out_path = os.path.join(output_dir, f"{os.path.splitext(filename)[0]}.md")
                with open(out_path, "w", encoding="utf-8") as f:
                    f.write(result.text_content)
            except Exception as e:
                print(f"Lỗi khi chuyển đổi {filename}: {e}")

batch_convert("./raw_data", "./formatted_markdown")

Xử lý các tệp “nặng ký”: Excel và PDF

Các tệp Excel nổi tiếng là khó nạp dữ liệu. Hầu hết các thư viện đều biến bảng tính thành một mớ hỗn độn các con số trôi nổi. MarkItDown thì khác; nó chuyển đổi các trang tính Excel thành các bảng Markdown được định dạng đúng cách. Điều này bảo toàn logic hàng và cột, cho phép hệ thống RAG của bạn thực sự hiểu rằng ‘Ô B2’ có liên quan đến ‘Tiêu đề B’.

PDF đặt ra một thách thức khác. MarkItDown sử dụng logic thông minh để xác định cấu trúc tiêu đề và danh sách. Mặc dù không phải là một công cụ OCR chuyên dụng theo mặc định, nhưng nó đặc biệt giỏi trong việc trích xuất văn bản từ các tệp PDF có thể tìm kiếm trong khi vẫn duy trì thứ tự đọc chính xác. Điều này ngăn chặn lỗi bố cục ‘nhiều cột’ vốn thường gặp ở các công cụ trích xuất cũ hơn.

Tích hợp AI để nạp dữ liệu đa phương thức

Khi tài liệu chứa các sơ đồ hoặc biểu đồ quan trọng, việc trích xuất chỉ văn bản sẽ khiến hệ thống bị “mù”. Bạn có thể cấu hình MarkItDown để sử dụng một LLM như GPT-4o để mô tả các yếu tố hình ảnh này. Điều này biến một bản trích xuất văn bản đơn thuần thành một nguồn dữ liệu đa phương thức phong phú.

from markitdown import MarkItDown
from openai import OpenAI

# Cấu hình với LLM để phân tích hình ảnh
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")

result = md.convert("manual_with_diagrams.pdf")
with open("enriched_manual.md", "w") as f:
    f.write(result.text_content)

Xác minh và Giám sát

Đừng chỉ thiết lập pipeline rồi để đó. Bạn phải xác minh chất lượng đầu ra. Tôi sử dụng quy trình xác thực hai bước. Đầu tiên, tôi kiểm tra cấu trúc. Các bảng có còn nguyên vẹn không? Các thẻ H1 và H2 có được phân cấp đúng không? Nếu cấu trúc Markdown bị hỏng, chiến lược chia nhỏ dữ liệu (chunking) của bạn sẽ thất bại và LLM sẽ nhận được các đoạn văn bản thiếu ngữ cảnh.

Thứ hai, hãy để mắt đến hiệu suất và chi phí. MarkItDown rất nhanh, nhưng việc thêm mô tả hình ảnh bằng LLM có thể làm tăng thời gian xử lý từ mili giây lên hàng giây cho mỗi trang. Nó cũng làm tăng chi phí token. Tôi khuyên bạn nên ghi nhật ký thời gian xử lý cho mỗi tệp. Nếu bạn gặp một tệp PDF 500 trang với hàng trăm hình ảnh, bạn có thể muốn chuyển nó sang một hàng đợi xử lý khác.

Chuẩn hóa dữ liệu đầu vào có vẻ như là một công việc tẻ nhạt so với sự hào hứng khi làm prompt engineering. Tuy nhiên, đây là hoạt động có tác động lớn nhất mà bạn có thể thực hiện để cải thiện độ chính xác. Bằng cách sử dụng Microsoft MarkItDown và Python, bạn xây dựng được một nền tảng có thể lặp lại. Bạn đảm bảo hệ thống RAG của mình được cung cấp năng lượng bởi trí tuệ có cấu trúc thay vì những tiếng nhiễu phân mảnh.