Posted inAI ローカルLLMの速度を向上させる:投機的デコーディング(Speculative Decoding)実践ガイド 5月 6, 2026 ローカルLLMの推論速度を2倍以上に向上させましょう。本ガイドでは、コンシューマー向けGPU上でllama.cppとvLLMを使用して「投機的デコーディング」を構築する実践的な手順を解説します。
Posted inAI llama.cppの量子化でLLMモデルをGGUF形式に変換する方法 4月 28, 2026 大規模言語モデルをローカルで動かすには、品質を損なわずにファイルサイズを削減する必要があります。このガイドでは、Hugging Faceからモデルをダウンロードし、GGUF形式に変換して、Q4_K_Mなどのレベルに量子化することで一般的なハードウェアで動作させるまでのllama.cppの全パイプラインを解説します。