home/categories/media/hsliuustc0106-vllm-omni-skills-skills-vllm-omni-multimodal-skill-md

mediacontent-media

vllm-omni-multimodal

Name: vllm-omni-multimodal
Author: hsliuustc0106

Transcribe speech, generate images from prompts, analyze video content, and convert between modalities using multimodal omni-modality models like Qwen2.5-Omni and Qwen3-Omni. Use when working with multimodal models for speech recognition, image generation, video understanding, voice synthesis, or any task combining text, image, audio, and video inputs and outputs simultaneously.

查看源码 media

maintainer

hsliuustc0106

更新于 4/3/2026

星标

分支

quick start

Installation and usage

安装

$ install --globalskills.sh

使用

安装后，您可以通过在终端运行以下命令来使用此技能：

skills use vllm-omni-multimodal