home/categories/media/mrgoonie-claudekit-skills-claude-skills-ai-multimodal-skill-md

mediacontent-media

ai-multimodal

Name: ai-multimodal
Author: mrgoonie

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Q&A, segmentation), process videos (scene detection, Q&A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.

Ver código-fonte media

maintainer

mrgoonie

Atualizado 1/20/2026

Estrelas

1964

Forks

390

quick start

Installation and usage

Instalação

$ install --globalskills.sh

Uso

Depois de instalar, você pode usar esta skill executando o seguinte comando no terminal:

skills use ai-multimodal