vLLM Archives - ITNotes

Tăng tốc độ LLM cục bộ: Hướng dẫn thực hành Speculative Decoding

Tháng 5 6, 2026

Tăng tốc độ LLM cục bộ của bạn lên gấp 2 lần hoặc hơn. Hướng dẫn này bao gồm cách thiết lập thực tế cho Speculative Decoding bằng llama.cpp và vLLM trên GPU dân dụng.

Inference LLM Hiệu Năng Cao: Mở Rộng vLLM và Docker Cho Môi Trường Production

Tháng 4 27, 2026

Tăng cường hiệu năng AI với vLLM và Docker. Tìm hiểu cách sử dụng PagedAttention, Tensor Parallelism và quantization để mở rộng LLM cho hàng trăm người dùng đồng thời.