Chạy mô hình AI trên GPU AMD với ROCm: Hướng dẫn triển khai thực tế

Table of Contents

Phá vỡ sự độc quyền của CUDA

Trong nhiều năm, sự thống trị của NVIDIA trong không gian AI dường như là không thể lay chuyển. Nền tảng CUDA của họ đã trở thành ngôn ngữ mặc định của ngành, khiến người dùng AMD và các nhà phát triển có ngân sách hạn hẹp bị gạt sang một bên. Tuy nhiên, sự ra đời của dòng Radeon 7000 và sự trưởng thành của ROCm (Radeon Open Compute) cuối cùng đã mang đến một giải pháp thay thế cạnh tranh. Chúng ta không còn bị buộc phải lựa chọn giữa chi phí cao và hiệu suất cao nữa.

Tôi đã chuyển máy chủ suy luận (inference) cục bộ của mình sang phần cứng AMD cách đây sáu tháng. Phép toán rất đơn giản: một chiếc RTX 4090 có giá khoảng 1.700 USD, trong khi Radeon RX 7900 XTX cung cấp cùng mức 24GB VRAM với giá chỉ khoảng 930 USD. Mặc dù NVIDIA vẫn dẫn đầu về tốc độ thô, nhưng tỷ lệ giá trên VRAM đó là một yếu tố thay đổi cuộc chơi cho việc lưu trữ các Mô hình Ngôn ngữ Lớn (LLM) cục bộ. Hướng dẫn này chi tiết các bước chính xác mà tôi đã sử dụng để triển khai PyTorch và Stable Diffusion trên môi trường sản xuất dựa trên AMD.

Cách thức hoạt động thực sự của ROCm Stack

ROCm là câu trả lời mã nguồn mở của AMD dành cho CUDA. Nếu bạn đang chuyển từ hệ sinh thái NVIDIA, thành phần cốt lõi cần hiểu là HIP (Heterogeneous-compute Interface for Portability). HIP đóng vai trò như một lớp chuyển đổi. Nó cho phép các nhà phát triển viết mã C++ có thể chạy trên cả phần cứng AMD và NVIDIA với những thay đổi tối thiểu.

Các khung làm việc AI hiện đại như PyTorch và TensorFlow hiện coi ROCm là một đối tượng được hỗ trợ chính thức. Bạn không cần phải viết lại mạng thần kinh hay thay đổi logic của mình. Thông thường, sự khác biệt duy nhất là trỏ trình quản lý gói của bạn đến một kho lưu trữ thư viện khác. Đó là một trải nghiệm liền mạch sau khi môi trường ban đầu được cấu hình xong.

Thiết lập môi trường Linux của bạn

Mặc dù hỗ trợ ROCm đang mở rộng sang Windows thông qua WSL2, Linux vẫn là tiêu chuẩn vàng về sự ổn định. Tôi khuyên dùng Ubuntu 24.04 LTS để có khả năng tương thích driver tốt nhất. Trong các thử nghiệm của tôi, việc sử dụng một kernel ổn định như 6.8 giúp ngăn ngừa các lỗi ‘mất GPU’ không liên tục thường thấy ở các bản phân phối mới nhất (bleeding-edge).

1. Cài đặt Driver và ROCm

Bắt đầu bằng cách cập nhật hệ thống và tải tập lệnh amdgpu-install từ kho lưu trữ chính thức của AMD. Công cụ này xử lý tác vụ phức tạp là ánh xạ phần cứng của bạn với ngăn xếp phần mềm.

# Cập nhật hệ thống và tải bộ cài đặt
sudo apt update && sudo apt upgrade -y
wget https://repo.radeon.com/amdgpu-install/6.1.2/ubuntu/jammy/amdgpu-install_6.1.60102-1_all.deb
sudo apt install ./amdgpu-install_6.1.60102-1_all.deb

# Triển khai driver và các thư viện ROCm
sudo amdgpu-install --usecase=rocm,hiplibsdk,dkms

Quyền truy cập là một trở ngại phổ biến. Bạn phải thêm tài khoản người dùng của mình vào nhóm render và video để tương tác trực tiếp với phần cứng GPU.

sudo usermod -aG render $USER
sudo usermod -aG video $USER

Sau khi khởi động lại nhanh, hãy xác minh thiết lập của bạn bằng cách chạy rocm-smi. Bạn sẽ thấy kiểu GPU, nhiệt độ hiện tại và mức sử dụng VRAM được hiển thị trong terminal.

2. Cài đặt PyTorch cho AMD

Các lệnh pip install torch tiêu chuẩn sẽ mặc định tải về các bản dựng CUDA, vốn sẽ không hoạt động ở đây. Bạn cần chỉ định kho lưu trữ wheel dành riêng cho AMD. Tôi thực sự khuyên bạn nên sử dụng một môi trường ảo sạch để tránh xung đột thư viện.

# Tạo và kích hoạt môi trường ảo
python3 -m venv venv-rocm
source venv-rocm/bin/activate

# Cài đặt PyTorch được xây dựng cho ROCm 6.1
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.1

Để xác nhận mọi thứ đang hoạt động, hãy chạy một kiểm tra nhanh trong Python. Thú vị là PyTorch vẫn giữ quy ước đặt tên torch.cuda ngay cả trên phần cứng AMD để đảm bảo các tập lệnh hiện có không bị lỗi. Nếu torch.cuda.is_available() trả về True, card AMD của bạn đã sẵn sàng để tính toán.

Chạy LLM: Llama 3 và xa hơn nữa

Triển khai các mô hình như Llama 3 8B hoặc Mistral 7B trên AMD giờ đây là một nhiệm vụ đơn giản. Các công cụ như Ollama đã tích hợp hỗ trợ ROCm ngay từ đầu. Nếu bạn thích sử dụng thư viện Hugging Face Transformers, mã của bạn vẫn giống 99% so với quy trình làm việc trên NVIDIA.

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)

# Mô hình tải vào VRAM giống hệt như trên 3090
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

inputs = tokenizer("Tại sao bầu trời có màu xanh?", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Thực tế hiệu năng: AMD vs. NVIDIA

Trong các bài kiểm tra hiệu năng thực tế của tôi bằng Llama 3 8B (FP16), Radeon 7900 XTX liên tục đạt mức từ 90 đến 105 token mỗi giây. Điều này đặt nó nằm giữa RTX 3090 và RTX 4080. Mặc dù RTX 4090 vẫn nhanh hơn 20-30%, nhưng giá trị mà AMD mang lại là rất khó để bỏ qua.

Lợi thế VRAM: Bạn có thể sở hữu 16GB VRAM trên Radeon 7800 XT với giá dưới 500 USD. Điều này cho phép bạn chạy các mô hình 7B không lượng tử hóa hoặc các mô hình 30B được lượng tử hóa mạnh mà đơn giản là sẽ không vừa trên RTX 4070.
Sự ổn định: ROCm 6.0+ đã giải quyết các vấn đề ‘driver timeout’ từng gây khó khăn cho các phiên bản trước. Thời gian hoạt động liên tục (uptime) hiện tại của tôi trên máy chủ suy luận dựa trên AMD là hơn 45 ngày mà không gặp một lỗi crash nào.
Hỗ trợ thư viện: Hầu hết các công cụ phổ biến đều hoạt động hoàn hảo. Tuy nhiên, nếu bạn phụ thuộc vào các công cụ độc quyền của NVIDIA như TensorRT hoặc các kernel bitsandbytes cụ thể, bạn có thể cần sử dụng các bản fork ROCm do cộng đồng duy trì.

Những bài học đắt giá từ thực tế

Chuyển đổi kiến trúc không phải lúc nào cũng suôn sẻ hoàn toàn. Nếu bạn quyết định thực hiện bước nhảy vọt này, hãy ghi nhớ ba mẹo thực tế sau để tiết kiệm hàng giờ gỡ lỗi:

Mẹo ghi đè ID GPU: Một số thư viện chưa nhận diện được các card RDNA3 mới hơn. Bạn thường có thể khắc phục điều này bằng cách đặt export HSA_OVERRIDE_GFX_VERSION=11.0.0 trong tệp .bashrc của mình. Điều này ‘đánh lừa’ phần mềm coi card của bạn là một mô hình được hỗ trợ.
Sử dụng Container chính thức: Đừng vật lộn với các phụ thuộc cục bộ nếu bạn không bắt buộc. Các image Docker rocm/pytorch đã được tối ưu hóa sẵn và thường mang lại hiệu suất tăng 5-10% so với cài đặt thủ công.
Theo dõi mức tiêu thụ điện năng: Các card Radeon cao cấp có thể tăng vọt mức tiêu thụ điện trong quá trình suy luận nặng. Sử dụng rocm-smi --setpoweroverdrive để giới hạn công suất nếu phòng máy chủ của bạn có hệ thống làm mát hoặc nguồn điện hạn chế.

Lời kết

Lập luận rằng “AI chỉ hoạt động trên NVIDIA” đã chính thức đi vào dĩ vãng. Mặc dù NVIDIA vẫn giữ vị trí dẫn đầu trong thị trường doanh nghiệp siêu cao cấp, AMD đã trở thành một đối thủ đáng gờm cho việc lưu trữ và phát triển cục bộ. Nếu bạn cần 24GB VRAM mà không muốn trả mức giá bốn chữ số, ROCm 6.1 trên card Radeon là một giải pháp ổn định, hiệu suất cao. Đã đến lúc ngừng lo lắng về thương hiệu phần cứng và bắt đầu tập trung vào các mô hình bạn đang xây dựng.