Xây dựng công cụ Text-to-SQL với Vanna.ai: Truy vấn dữ liệu bằng ngôn ngữ tự nhiên

Table of Contents

Phá vỡ nút thắt cổ chai SQL

Tôi đã dành nhiều năm chứng kiến các đội ngũ dữ liệu tài năng ngập chìm trong những yêu cầu đơn giản và lặp đi lặp lại. Đây là một điểm gây ma sát điển hình: một giám đốc marketing cần biết: “15 khách hàng nào ở Berlin chi tiêu nhiều nhất cho đồ điện tử trong tháng qua?”, nhưng họ lại chẳng biết sự khác biệt giữa JOIN và GROUP BY. Kết quả là gì? Hàng dài các yêu cầu chờ xử lý và các bên liên quan bực bội vì phải đợi tới ba ngày cho một câu truy vấn mất vỏn vẹn năm phút.

Các mô hình ngôn ngữ lớn (LLM) phổ biến như GPT-4 rất ấn tượng, nhưng chúng thường gặp khó khăn với các schema (sơ đồ dữ liệu) phức tạp trong thực tế. Chúng không biết rằng user_id của bạn tương ứng với legacy_id trong bảng thanh toán, hoặc trạng thái “active” nghĩa là người dùng đã đăng nhập trong vòng 14 ngày qua.

Đây chính là lúc Vanna.ai thay đổi cuộc chơi. Thay vì chỉ gửi một prompt cho AI, Vanna sử dụng khung RAG (Retrieval-Augmented Generation) được xây dựng riêng cho SQL. Nó tìm kiếm các định nghĩa schema thực tế và các câu truy vấn thành công trước đó để cung cấp cho AI ngữ cảnh cần thiết nhằm đảm bảo độ chính xác.

Trong một dự án gần đây cho một nền tảng thương mại điện tử quy mô vừa, chúng tôi đã triển khai hệ thống này và chứng kiến các yêu cầu báo cáo thủ công giảm 58% ngay trong quý đầu tiên. Dưới đây là lộ trình xây dựng hệ thống đó và những bài học kinh nghiệm quý báu mà chúng tôi đã đúc kết được.

Thiết lập môi trường

Vanna có tính mô-đun cao. Bạn có thể sử dụng phiên bản hosted của họ để tạo bản demo trong 10 phút hoặc triển khai hoàn toàn nội bộ (local) để đảm bảo quyền riêng tư dữ liệu nghiêm ngặt. Đối với các dự án chuyên nghiệp, tôi ưu tiên một thiết lập cân bằng để giữ cho mọi thứ gọn gàng và có khả năng tái lập.

Bắt đầu với một môi trường ảo (virtual environment) riêng biệt. Tôi khuyên bạn nên sử dụng Python 3.10 trở lên để xử lý các trình bao bọc (wrappers) LLM bất đồng bộ mới nhất mà không gặp trở ngại nào.

# Thiết lập môi trường tiêu chuẩn
python -m venv vanna-env
source vanna-env/bin/activate  # Windows: `vanna-env\Scripts\activate`

# Các dependency cốt lõi
pip install vanna pandas
# Chọn driver của bạn: sqlite3, psycopg2-binary, hoặc pymysql
pip install sqlite3

Một chi tiết cần lưu ý: Vanna có các phần mở rộng cụ thể cho từng nhà cung cấp LLM khác nhau. Nếu bạn đang hướng tới Claude 3.5 hoặc GPT-4o, hãy đảm bảo cài đặt các gói mở rộng tương ứng được đề cập trong tài liệu của họ để tránh lỗi import khi chạy.

Trung tâm vận hành: Huấn luyện AI

Công việc nặng nhọc nhất trong Vanna diễn ra bên trong cơ sở dữ liệu vector, không phải ở LLM. Đây là nơi bạn lưu trữ DDL (Data Definition Language), tài liệu nghiệp vụ và những gì tôi gọi là “Golden SQL”—những câu truy vấn mà bạn biết chắc chắn là chính xác 100%. Khi người dùng đặt câu hỏi, Vanna sẽ trích xuất các đoạn mã này để xây dựng một prompt chính xác.

Khởi tạo kết nối

Trong bài hướng dẫn này, chúng ta sẽ sử dụng wrapper mặc định của Vanna. Nếu bạn đang làm việc trong môi trường doanh nghiệp, bạn nên thay thế VannaDefault bằng một class tùy chỉnh sử dụng ChromaDB và API key Anthropic hoặc OpenAI của riêng mình.

import vanna as vn
from vanna.remote import VannaDefault

# Lấy key tại vanna.ai/account
vn = VannaDefault(model='itfromzero-demo-v1', api_key='your_vanna_api_key')

# Kết nối tới nguồn dữ liệu của bạn
vn.connect_to_sqlite('ecommerce_data.db')

Cung cấp Metadata chất lượng cao

Độ chính xác không phải tự nhiên mà có. Đó là kết quả của ba lớp huấn luyện:

Khung xương (DDL): Xác định cấu trúc các bảng.
Từ điển (Tài liệu): Xác định các định nghĩa nghiệp vụ.
Ví dụ (Mẫu SQL): Đây là lớp quan trọng nhất. Nó cho AI thấy cách bạn muốn xử lý các logic phức tạp.

# 1. Dạy cho AI cấu trúc bảng
vn.train(ddl="""
CREATE TABLE subscriptions (
    id UUID PRIMARY KEY,
    user_id UUID,
    monthly_price DECIMAL(12, 2),
    tier TEXT,
    is_active BOOLEAN
)
""")

# 2. Thêm ngữ cảnh "con người"
vn.train(documentation="'tier' có thể là 'Basic', 'Pro', hoặc 'Enterprise'. Người dùng đang hoạt động phải có is_active=True.")

# 3. Cung cấp Golden SQL
vn.train(question="Doanh thu định kỳ hàng tháng từ người dùng gói Pro là bao nhiêu?", 
         sql="SELECT SUM(monthly_price) FROM subscriptions WHERE tier = 'Pro' AND is_active = True")

Thay vì nhập thủ công, tôi khuyên bạn nên dùng một script chạy hàng tuần để lấy ra 20 câu truy vấn được sử dụng nhiều nhất trên production và nạp lại chúng vào Vanna. Điều này tạo ra một vòng lặp giúp hệ thống tự cải thiện khi logic kinh doanh của bạn thay đổi.

Bảo mật và Rào chắn kiểm soát

Giao quyền kết nối cơ sở dữ liệu cho AI vốn dĩ tiềm ẩn rủi ro. Đừng bao giờ sử dụng tài khoản admin. Hãy tạo một người dùng chỉ có quyền đọc (read-only) và chỉ được truy cập vào những bảng mà đội ngũ kinh doanh thực sự cần. Nếu bạn không muốn AI nhìn thấy password_hashes hoặc ssn_numbers, thậm chí đừng để người dùng cơ sở dữ liệu đó thấy các cột đó.

Hiện tượng ‘ảo giác’ (hallucinations) có thể xảy ra. AI có thể tự nghĩ ra một cột total_profit không hề tồn tại. Khi điều này xảy ra, đừng cố gắng điều chỉnh prompt—hãy sửa lại phần huấn luyện. Thông thường, điều đó có nghĩa là bạn đã bỏ lỡ một phần tài liệu hoặc một định nghĩa DDL.

# Một wrapper đơn giản để ngăn chặn các câu truy vấn "vượt kiểm soát"
def execute_safely(user_query):
    generated_sql = vn.generate_sql(user_query)
    
    # Kiểm tra an toàn cơ bản
    if not generated_sql.strip().upper().startswith("SELECT"):
        return "Lỗi: Chỉ cho phép các câu lệnh SELECT."
        
    # Bắt buộc giới hạn số lượng kết quả trả về
    if "LIMIT" not in generated_sql.upper():
        generated_sql += " LIMIT 50"
        
    return vn.run_sql(generated_sql)

Lời kết

Triển khai Text-to-SQL thành công không phải là việc làm một lần rồi thôi; nó giống như một khu vườn cần bạn chăm sóc. Nếu cơ sở dữ liệu của bạn có quy ước đặt tên không nhất quán, AI sẽ gặp khó khăn. Tuy nhiên, Vanna.ai cung cấp khung làm việc tốt nhất mà tôi từng thấy để quản lý sự phức tạp đó mà không cần phải xây dựng một hệ thống RAG đồ sộ từ đầu.

Hãy bắt đầu nhỏ thôi. Chọn một bộ phận—ví dụ như Sales hoặc Marketing—và cấp cho họ quyền truy cập vào một giao diện Flask đơn giản (vanna.flask.VannaAdmin). Phản hồi của họ sẽ nhanh chóng chỉ ra những điểm yếu trong tài liệu của bạn, giúp bạn cải thiện dần hướng tới một văn hóa dữ liệu tự phục vụ (self-service) thực thụ.