inference-optimization

Optimizing AI inference - quantization, speculative decoding, KV cache, batching, caching strategies. Use when reducing latency, lowering costs, or scaling AI serving.

Ver código-fonte machine-learning

maintainer

doanchienthangdev

Atualizado 1/8/2026

Estrelas

Forks

quick start

Installation and usage

Optimizing AI inference - quantization, speculative decoding, KV cache, batching, caching strategies. Use when reducing latency, lowering costs, or scaling AI serving.

Instalação

$ install --globalskills.sh

Uso

Depois de instalar, você pode usar esta skill executando o seguinte comando no terminal:

skills use inference-optimization