home/categories/media/hsliuustc0106-vllm-omni-skills-skills-vllm-omni-multimodal-skill-md

mediacontent-media

vllm-omni-multimodal

Transcribe speech, generate images from prompts, analyze video content, and convert between modalities using multimodal omni-modality models like Qwen2.5-Omni and Qwen3-Omni. Use when working with multimodal models for speech recognition, image generation, video understanding, voice synthesis, or any task combining text, image, audio, and video inputs and outputs simultaneously.

عرض المصدر media

maintainer

hsliuustc0106

آخر تحديث 4/3/2026

النجوم

التفرعات

quick start

Installation and usage

التثبيت

$ install --globalskills.sh

الاستخدام

بعد التثبيت، يمكنك استخدام هذه المهارة بتشغيل الأمر التالي في الطرفية:

skills use vllm-omni-multimodal