home/categories/media/hsliuustc0106-vllm-omni-skills-skills-vllm-omni-multimodal-skill-md

mediacontent-media

vllm-omni-multimodal

Transcribe speech, generate images from prompts, analyze video content, and convert between modalities using multimodal omni-modality models like Qwen2.5-Omni and Qwen3-Omni. Use when working with multimodal models for speech recognition, image generation, video understanding, voice synthesis, or any task combining text, image, audio, and video inputs and outputs simultaneously.

View Source media

maintainer

hsliuustc0106

Updated 4/3/2026

Stars

Forks

quick start

Installation and usage

Installation

$ install --globalskills.sh

Usage

Once installed, you can use this skill by running the following command in your terminal:

skills use vllm-omni-multimodal