Tăng tốc Speech-to-Text tiếng Việt: Từ Whisper nguyên bản đến Faster-Whisper trong môi trường Production

Table of Contents

Thách thức của Speech-to-Text bản địa hóa

Vài tháng trước, tôi được giao nhiệm vụ chuyển đổi hàng nghìn giờ họp nội bộ của một doanh nghiệp Việt Nam thành văn bản. Giống như hầu hết các lập trình viên, tôi bắt đầu với mô hình OpenAI Whisper tiêu chuẩn. Đó là một công cụ mạnh mẽ, nhưng kết quả cho tiếng Việt lại khá hên xui. Mô hình này thường xuyên gặp khó khăn với giọng miền Trung (Huế/Nghệ An) và các thuật ngữ kỹ thuật chuyên ngành vốn không có trong dữ liệu huấn luyện ban đầu.

Hiệu suất là rào cản lớn tiếp theo. Trên card đồ họa NVIDIA RTX 3060, việc chuyển đổi một tệp âm thanh dài một giờ mất gần 15 phút. Khi bạn phải xử lý một khối lượng công việc khổng lồ, mức chi phí thời gian đó khiến dự án không thể mở rộng về mặt tài chính. Tôi nhận ra mình cần phải rời bỏ thư viện tiêu chuẩn và tìm kiếm một engine tối ưu hơn.

Tại sao các mô hình tiêu chuẩn gặp khó khăn với tiếng Việt

Vấn đề thường nằm ở mật độ dữ liệu và sự cồng kềnh trong kiến trúc. Tiếng Việt là một ngôn ngữ có thanh điệu với sáu dấu khác nhau. Một sự thay đổi nhỏ về cao độ có thể biến từ “ma” thành “má” hoặc “mạ”. Các mô hình thông dụng thường bỏ lỡ những sắc thái này. Hơn nữa, bản thực thi PyTorch tiêu chuẩn của Whisper được xây dựng để linh hoạt trong nghiên cứu, chứ không phải để tối ưu tốc độ inference (suy luận) thuần túy.

Triển khai các mô hình này trong môi trường production thường dẫn đến “khủng hoảng VRAM”. Chạy mô hình large-v3 trên một server giá rẻ thường xuyên gây ra lỗi out-of-memory (OOM). Ngay cả khi hoạt động, độ trễ cao tạo ra trải nghiệm chậm chạp khiến người dùng cuối khó chịu.

So sánh các giải pháp

Tôi đã đánh giá ba hướng đi chính trước khi quyết định chọn một stack công nghệ:

Standard OpenAI Whisper: Tốt cho các bản prototype nhanh, nhưng quá tốn tài nguyên cho khối lượng công việc lớn.
Whisper.cpp: Tuyệt vời cho các thiết bị edge hoặc hệ thống chỉ có CPU, nhưng rất khó để tích hợp vào một microservice dựa trên Python.
Faster-Whisper: Một bản tái thực thi hoàn chỉnh sử dụng CTranslate2. Nó mang lại tốc độ nhanh gấp 4 lần và cắt giảm đáng kể lượng bộ nhớ sử dụng thông qua kỹ thuật quantization INT8 và FP16.

Đối với hầu hết các môi trường production, Faster-Whisper là lựa chọn chiến thắng rõ rệt. Nó giữ nguyên độ chính xác của mô hình gốc trong khi cung cấp thông lượng (throughput) cần thiết để xử lý nhiều luồng âm thanh đồng thời.

Chiến lược thực chiến: Faster-Whisper + Custom Fine-Tuning

Để có kết quả tốt nhất, tôi đã kết hợp engine của Faster-Whisper với một mô hình được fine-tune (tinh chỉnh) cho các phương ngữ địa phương. Sự kết hợp này đã giảm tỷ lệ lỗi từ (Word Error Rate – WER) của chúng tôi xuống 15% so với mô hình gốc. Dưới đây là cách bạn có thể tái lập thiết lập này.

1. Thiết lập môi trường

Bắt đầu bằng cách tạo một môi trường ảo sạch sẽ. Bạn sẽ cần thư viện faster-whisper và một phiên bản PyTorch tương thích với CUDA để xử lý các tác vụ nặng.

pip install faster-whisper
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2. Fine-tuning cho các sắc thái tiếng Việt

Faster-Whisper là một inference engine, vì vậy trước tiên bạn phải fine-tune mô hình của mình bằng thư viện transformers của Hugging Face. Tôi khuyên bạn nên sử dụng Common Voice 13.0 (có hơn 2.500 giờ tiếng Việt) làm cơ sở. Bổ sung thêm 50 giờ âm thanh chuyên biệt cho lĩnh vực của bạn, chẳng hạn như các bản ghi âm pháp lý hoặc y tế.

Tôi đề xuất sử dụng LoRA (Low-Rank Adaptation) để fine-tune. Nó cho phép bạn cập nhật trọng số mô hình mà không cần một cụm GPU đắt đỏ. Khi mô hình PyTorch của bạn đã sẵn sàng, hãy chuyển đổi nó sang định dạng CTranslate2.

ct2-transformers-converter --model path_to_your_finetuned_model --output_dir whisper-vietnamese-ct2 --copy_files tokenizer.json --quantization float16

3. Triển khai logic Inference

Việc triển khai khá gọn gàng. Một mẹo quan trọng là sử dụng Voice Activity Detection (VAD). Công cụ này giúp lọc bỏ các khoảng lặng và tiếng ồn nền—như tiếng giao thông trên đường phố Hà Nội—trước khi mô hình bắt đầu chuyển đổi. Bước đơn giản này giúp tiết kiệm một lượng lớn chu kỳ tính toán.

from faster_whisper import WhisperModel

# Tải mô hình - float16 mang lại tỷ lệ tốc độ trên độ chính xác tốt nhất
model_path = "./whisper-vietnamese-ct2"
model = WhisperModel(model_path, device="cuda", compute_type="float16")

# Chuyển đổi với bộ lọc VAD được bật để bỏ qua các đoạn không có tiếng người
segments, info = model.transcribe(
    "audio_sample_vietnamese.mp3", 
    beam_size=5, 
    language="vi",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

print(f"Phát hiện: {info.language} ({info.language_probability:.2f})")

for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

Mở rộng cho thực tế

Chạy một mô hình trên máy tính xách tay là một chuyện; chạy nó cho hàng nghìn người dùng lại là chuyện khác. Dưới đây là ba tối ưu hóa tôi sử dụng trong môi trường production.

Quantization thông minh

Nếu bạn đang sử dụng GPU NVIDIA T4 hoặc A10, hãy chọn int8_float16. Lựa chọn này giúp thu nhỏ kích thước mô hình và tăng tốc các phép toán mà không làm giảm chất lượng rõ rệt. Nếu bạn bắt buộc phải dùng CPU, int8 là lựa chọn khả thi duy nhất.

Worker song song

Faster-Whisper hỗ trợ nhiều worker. Nếu máy chủ của bạn có nhiều nhân CPU và VRAM, hãy tăng num_workers. Theo kinh nghiệm, tôi phân bổ một worker cho mỗi 4GB VRAM đối với mô hình large-v3 để tránh bị treo.

Loại bỏ hiện tượng “ảo giác”

Các mô hình Whisper đôi khi bị “ảo giác” (hallucinate) bằng cách lặp lại các cụm từ trong những khoảng lặng dài. Bạn có thể khắc phục điều này bằng cách điều chỉnh no_speech_threshold và sử dụng vad_filter. Tôi cũng thấy rằng một chút repetition_penalty sẽ giúp ích khi xử lý các bản ghi âm chất lượng thấp từ môi trường ồn ào.

Lời kết

Xây dựng một hệ thống STT tiếng Việt đáng tin cậy không chỉ đơn thuần là chọn mô hình lớn nhất hiện có. Nó đòi hỏi việc tối ưu hóa engine inference và điều chỉnh từ vựng phù hợp với vùng miền cụ thể. Bằng cách chuyển sang Faster-Whisper và áp dụng fine-tuning có mục tiêu, bạn có thể xây dựng một hệ thống vừa chính xác hơn vừa tiết kiệm chi phí vận hành đáng kể. Nếu bạn đang bắt đầu một dự án mới, hãy bỏ qua bản thực thi PyTorch tiêu chuẩn và tiến thẳng tới CTranslate2. Ngân sách server của bạn sẽ thầm cảm ơn bạn đấy.