Khắc phục hiện tượng nghẽn cổ chai CPU: Hướng dẫn thực tế về Linux Perf

Table of Contents

Bí ẩn về điểm nghẽn trên môi trường Production

Thứ Ba tuần trước, một background worker duy nhất đã ngốn sạch 99% CPU trên một server production của chúng tôi. Thời gian phản hồi API ngay lập tức vọt từ 150ms lên hơn 4 giây. Log hoàn toàn im hơi lặng tiếng, và nhìn bề ngoài, ứng dụng có vẻ vẫn đang hoạt động—chỉ là cực kỳ chậm. Cảm giác như code đã rơi vào một hố đen tính toán vậy.

Phản xạ đầu tiên của hầu hết mọi người là khởi động lại dịch vụ. Mặc dù việc restart giúp bạn có thêm thời gian, nhưng nó không sửa được lỗi. Nếu logic kém hiệu quả, tình trạng spike CPU đó sẽ sớm quay trở lại. Để giải quyết triệt để, tôi cần biết chính xác hàm (function) nào đang ngốn tài nguyên. Các công cụ giám sát thông thường chỉ cho bạn biết rằng một process đang bận; chúng hiếm khi cho bạn biết tại sao.

Tại sao các công cụ truyền thống là chưa đủ

Chúng ta thường tìm đến top hoặc htop đầu tiên. Những công cụ này rất tuyệt để nhìn nhanh, nhưng chúng dừng lại ở cấp độ process. Những công cụ này có thể cho thấy myserver.py đang chạy 100%, nhưng sẽ không tiết lộ liệu thủ phạm là một regex lộn xộn, quá trình serialize JSON chậm chạp, hay một vòng lặp kín trong một thư viện bên thứ ba.

Sự sụt giảm hiệu năng thường bắt nguồn từ ba vấn đề chính:

CPU Hotspots: Một hàm thực thi nhiều hơn hàng nghìn lần so với mức cần thiết.
System Call Overhead: Ứng dụng chuyển đổi ngữ cảnh (context-switching) quá thường xuyên, có thể do việc ghi đĩa 4KB quá mức hoặc poll mạng dư thừa.
Cache Misses: CPU ở trạng thái nhàn rỗi để chờ dữ liệu từ RAM vì cấu trúc dữ liệu của bạn chưa được tối ưu cho L1/L2 cache.

Để khắc phục những lỗi này, bạn cần một công cụ có thể quan sát kỹ bên trong mà không làm hỏng cả hệ thống.

Công cụ chuyên dụng: So sánh các lựa chọn

Trước khi đi sâu vào perf, chúng ta cần biết tại sao các lựa chọn phổ biến khác lại không hiệu quả trong môi trường có lưu lượng truy cập cao.

Strace

strace là công cụ hoàn hảo để theo dõi các lời gọi hệ thống (system calls). Nếu ứng dụng của bạn bị treo do khóa tệp (file lock), strace sẽ tìm ra nó. Tuy nhiên, overhead là rất lớn. Nó chặn mọi syscall, có thể làm chậm ứng dụng tới 20 lần hoặc hơn. Chạy strace trên một server production đang bận rộn là cách nhanh nhất để biến một dịch vụ chậm chạp thành một dịch vụ “chết” hẳn.

GDB (The GNU Debugger)

Sử dụng GDB cho phép bạn đóng băng quá trình thực thi để kiểm tra ngăn xếp (stack). Nó mang tính can thiệp sâu và chính xác, nhưng cũng rất xâm lấn. Tạm dừng một process trên production sẽ khiến nó ngừng xử lý lưu lượng truy cập, đây hiếm khi là một lựa chọn khả thi khi người dùng đang chờ đợi.

Perf (The Linux Profiler)

perf được tích hợp sẵn trong chính nhân Linux. Thay vì chặn mọi thao tác, nó sử dụng phương pháp lấy mẫu (sampling). Cứ sau vài mili giây, nó lại chụp một bản snapshot nhỏ về những gì CPU đang thực hiện. Điều này giữ cho overhead ở mức cực thấp—thường dưới 1%—khiến nó an toàn cho các server đang chạy thực tế. Nó có thể theo dõi các bộ đếm phần cứng và software stack cùng lúc.

Sử dụng Linux Perf để phân tích sâu

Hầu hết các bản phân phối không cài đặt sẵn perf, nhưng việc cài đặt thường chỉ tốn một dòng lệnh. Hãy đảm bảo phiên bản cài đặt khớp với nhân (kernel) bạn đang chạy.

# Dành cho Ubuntu/Debian
sudo apt update
sudo apt install linux-tools-common linux-tools-$(uname -r)

# Dành cho RHEL/AlmaLinux
sudo yum install perf

Giám sát thời gian thực với Perf Top

Khi server đang trong tình trạng quá tải, perf top là người bạn tốt nhất của bạn. Nó hoạt động tương tự như top, nhưng hiển thị các ký hiệu hàm (function symbols) thay vì tên process.

sudo perf top -p [PID]

Hãy tìm các ký hiệu ở đầu danh sách. Nếu bạn thấy __strstr_sse2_unaligned, ứng dụng của bạn có khả năng đang bị kẹt trong một quá trình tìm kiếm chuỗi kém hiệu quả. Nếu zlib_compress chiếm tới 60%, bạn đã xác định rõ điểm nghẽn là do nén dữ liệu.

Thu thập dữ liệu để phân tích

Phép màu thực sự nằm ở perf record. Lệnh này lưu trạng thái hệ thống vào file perf.data để kiểm tra sau. Tôi thường ghi lại trong khoảng 30 giây để có được một mẫu thống kê đáng tin cậy.

# -g kích hoạt call-graphs; -F 99 thiết lập tần suất lấy mẫu an toàn
sudo perf record -g -F 99 -p [PID] -- sleep 30

Sau khi hoàn tất, hãy chạy perf report. Flag -g chúng ta đã dùng trước đó cho phép bạn mở rộng các hàm và xem toàn bộ chuỗi lệnh gọi (call chain). Cuối cùng, bạn có thể thấy chính xác ai đã gọi hàm nặng nề đó và thời gian đã tiêu tốn ở đâu.

sudo perf report

Case Study: Cứu nguy cho một PHP Server

Vài tháng trước, một trong những server PHP-FPM cũ của chúng tôi—chạy với 4GB RAM trên Ubuntu 22.04—bắt đầu gặp các đợt spike CPU ngẫu nhiên kéo dài 10 phút. Mọi thứ có vẻ ổn cho đến khi đột nhiên, load average vọt từ 1.0 lên 40.0.

Tôi đã bắt được một đợt spike và chạy perf record -g. Dữ liệu cho thấy 45% tổng thời gian CPU bị tiêu tốn bởi việc phân tích cú pháp XML (XML parsing). Hóa ra một đối tác bên thứ ba đã bắt đầu gửi cho chúng tôi các khối XML nặng 50MB thay vì các đoạn 100KB như thường lệ. SimpleXML đã cố gắng tải toàn bộ tệp khổng lồ đó vào bộ nhớ cùng một lúc. Chúng tôi đã thay thế nó bằng XMLReader dạng streaming, và mức sử dụng CPU lập tức giảm từ 100% xuống chỉ còn 5%.

Nếu không có perf, tôi đã phải mất nhiều ngày để thử sai với các script PHP khác nhau. Nhờ nó, tôi đã có câu trả lời chỉ trong 60 giây.

Các kinh nghiệm thực tế khi Profiling

Sau nhiều năm làm việc với profiling, tôi nhận ra ba quy tắc giúp quy trình này diễn ra suôn sẻ hơn nhiều.

1. Đừng bỏ qua Debug Symbols

Nếu báo cáo của bạn hiển thị các địa chỉ hex bí ẩn như 0x00007f823, nghĩa là binary của bạn đã bị “stripped”. Bạn cần debug symbols (như libc6-dbg) để thấy tên hàm thực tế. Nếu bạn đang build bằng Go hoặc Rust, hãy đảm bảo rằng bạn không strip symbols trong pipeline build production nếu có ý định profile chúng sau này.

2. Tần suất lấy mẫu “điểm ngọt”

Tránh lấy mẫu ở mức chính xác 100Hz hoặc 1000Hz. Sử dụng -F 99 là một mẹo kinh điển để tránh bị đồng bộ hóa với đồng hồ hệ thống hoặc các tác vụ định kỳ của nhân. Nếu bạn lấy mẫu cùng khoảng thời gian với nhịp tim (heartbeat) của hệ thống, dữ liệu của bạn sẽ bị sai lệch và không đáng tin cậy.

3. Trực quan hóa với Flame Graphs

Các báo cáo văn bản cũng ổn, nhưng với các ứng dụng phức tạp, tôi luôn tin dùng Flame Graphs. Bạn có thể chuyển đổi perf.data thành một file SVG tương tác, nơi chiều rộng của mỗi khối hiển thị tỷ lệ phần trăm thời gian CPU đã sử dụng.

# Chuyển đổi dữ liệu sang stack traces
sudo perf script > out.perf

# Tạo file SVG bằng các script của Brendan Gregg
./stackcollapse-perf.pl out.perf > out.folded
./flamegraph.pl out.folded > flamegraph.svg

Việc nhìn thấy mức độ sử dụng tài nguyên của ứng dụng một cách trực quan giúp các điểm nghẽn không thể bị ngó lơ. Nó thường là khoảnh khắc “vỡ òa” (lightbulb moment) cho cả đội ngũ phát triển.

Lời kết

Tối ưu hóa code không phải là làm việc chăm chỉ hơn; mà là nhìn vào đúng chỗ. Linux perf cho phép bạn nhìn thấu qua các lớp trừu tượng của mã nguồn, runtime và kernel. Hãy bắt đầu bằng việc chạy perf top trên máy dev của bạn ngay hôm nay. Lần tới khi một server production bắt đầu “đổ mồ hôi”, bạn sẽ sẵn sàng để thực hiện “phẫu thuật” với sự tự tin tuyệt đối.