高度なLinuxデバッグ:straceとltraceでサイレントバグを追跡する

Linux tutorial - IT technology blog
Linux tutorial - IT technology blog

ログが沈黙する時:「ブラックボックス」問題

誰もが経験したことがあるでしょう。手元のノートPCでは完璧に動作するGoのバイナリやPythonスクリプトが、ステージングサーバーにデプロイした途端にハングアップしてしまう。エラーログもスタックトレースも出ず、CPU使用率は0%のまま。tail -f /var/log/syslogを見ても、苛立たしいほど何も表示されない。これはアプリケーションがユーザーとの対話を止め、OSとの間で密かに格闘している「ブラックボックス」の状態です。

GDBのような標準的なデバッガは強力ですが、オーバースペックな場合もあります。デバッグシンボルがない場合や、問題がアプリとカーネルのやり取りに起因する場合、GDBはあまり役に立ちません。通常、アプリが「何もしない」状態にあるとき、実際にはリソースを待ってスタックしています。開けないファイル記述子、ネットワークソケットのタイムアウト、あるいはスレッドのデッドロックかもしれません。原因を突き止めるには、アプリケーションがカーネルに何を要求しているかを確認する必要があります。

インターフェース:システムコール vs. ライブラリコール

サイレントな障害を修正するには、プロセスが外部とやり取りする2つの方法を監視する必要があります。1つ目は、システムコール (syscalls)です。これらはNVMeドライブからのファイル読み込みや、イーサネット経由のパケット送信など、ハードウェアへのリクエストです。2つ目は、ライブラリコールです。これらはlibcopensslなどの共有ライブラリを対象とし、文字列のフォーマットや暗号化などの複雑なロジックを処理します。

ほとんどのハングアップは、これらの境界で発生します。プロセスがフリーズする直前にカーネルに送信された正確なリクエストを確認できれば、決定的な証拠が見つかります。ここで、straceltraceが最も価値のあるツールとなります。

straceでカーネルインターフェースを可視化する

straceは、プログラムとLinuxカーネルの間の会話を傍受します。単にファイルのオープンに失敗したことだけでなく、試行された正確なパスや、ENOENT(ファイルが見つかりません)やEACCES権限がありません)といった具体的なエラーコードを表示します。

straceの実践的な使い方

api_engineという名前のプログラムが異常な動作をしている場合は、まずstraceの下で直接実行してみましょう。

strace ./api_engine

これにより、すべてのシステムコールがターミナルに出力されます。負荷の高いアプリでは、毎秒500行ものペースで流れることがあります。効率的に分析するために、特定のアクティビティでフィルタリングしましょう。例えば、設定の問題やネットワークのタイムアウトが疑われる場合は、以下のフィルタを使用します。

# ファイル関連のコール(open、statなど)のみを表示
strace -e trace=file ./api_engine

# connectやsendtoなどのネットワークアクティビティに焦点を当てる
strace -e trace=network ./api_engine

最近の複雑な通信トラブルの調査では、straceでシステムコールを追いながら、ネットワークアクティビティをパケットレベルで詳細に分析することが不可欠です。

稼働中のプロセスを修正する

デバッグのためにアプリを再起動する必要はありません。本番環境でサービスがハングアップしている場合は、そのプロセスID (PID) を特定し、即座にstraceをアタッチできます。

ps aux | grep api_engine
sudo strace -p 1234

最近、Ubuntu 22.04サーバーで「ゾンビ」プロセス問題を解決するためにこれを使用しました。そのアプリは、存在しない.envファイルに対してfstatを呼び出す100ミリ秒のループに陥っていました。稼働中のPIDにアタッチすることで、即座に無限ループを発見できました。不足していたファイルを追加したところ、CPU負荷が15%からほぼゼロに低下しました。

ltraceで共有ライブラリの内部を覗く

straceには何も表示されないのに、CPU使用率が100%に張り付いていることがあります。これは通常、アプリが無限のwhileループや重いmalloc操作など、ライブラリ関数内でトラップされていることを意味します。ltraceは、これらのユーザー空間のライブラリコールを追跡します。

構文はstraceとほぼ同じですが、得られる洞察は異なります。

ltrace ./api_engine

パフォーマンスのボトルネックを見つけたい場合は、サマリーフラグを使用します。実行時間を占有しているライブラリ関数のヒストグラムが生成されます。

ltrace -c ./api_engine

例えば、アプリが実行時間の40%をstrlen()に費やしていることが判明するかもしれません。これは、ループ内で毎回再計算するのではなく、文字列の長さをキャッシュすべきであるという明確なサインです。

ツール比較:strace vs. ltrace

機能 strace ltrace
ターゲット カーネルシステムコール ユーザー空間ライブラリコール
パフォーマンスへの影響 高い(10倍〜50倍の速度低下) 非常に高い
最適な用途 権限、I/O、ネットワークの問題 ロジックエラー、ライブラリのボトルネック
主な指標 リターンコード(例:-1 EPERM) 関数の引数と経過時間

プロのデバッグワークフロー

流れるテキストをただ眺めるのではなく、体系的なアプローチに従うことで、数時間ではなく数分でバグを特定できます。

1. 全体像から把握する

まずはサマリーを実行します。これにより、最も頻繁に呼び出されているシステムコールや、完了までに最も時間がかかっているシステムコールが浮き彫りになります。

strace -c ./api_engine

もしfutexが最も時間を消費しているなら、スレッドのロック問題が発生しています。readselectが上位にあるなら、アプリは遅いデータベースやブロックされたネットワークソケットを待っている可能性があります。

2. 子プロセスを追跡する

現代のアプリは複数のスレッドや子プロセスを使用します。デフォルトでは、straceはメインプロセスのみを追跡します。-fフラグを使用すると、アプリが生成するすべてのスレッドを追跡できます。

strace -f -o trace_logs.txt ./api_engine

-oフラグは出力をファイルに保存します。ターミナルで10個の異なるスレッドからの入り混じった出力を読もうとするのは、頭痛の種になります。

3. 正確なタイムスタンプを使用する

アプリが1時間ごとにちょうど30秒間ハングする理由を突き止めるには、タイミングデータが必要です。-tttフラグはマイクロ秒単位のタイムスタンプを追加し、-Tは個々のコールの所要時間を表示します。

strace -ttt -T ./api_engine

これにより、失敗までにちょうど5.000秒かかるconnect()コールを簡単に見つけることができ、ファイアウォールのタイムアウトを直接特定できます。

本番環境での注意点

straceltraceptraceに依存しており、イベントごとにプロセスを一時停止させます。これにより大きなオーバーヘッドが発生します。トラフィックの多い本番環境では、straceによってプロセスが10倍以上遅くなる可能性があります。データを取得するために必要最小限の時間だけアタッチし、すぐにデタッチしてください。高パフォーマンスなシステムを継続的に監視する必要がある場合は、オーバーヘッドがはるかに低いbpftraceなどのeBPFツールを検討してください。

Share: