home/categories/media

category focus

Media

Audio, video, and image processing.

1476টি স্কিলall categories

sorting

stars

current ordering strategy

query

all entries

refine the visible subset

media

807

axiom-camera-capture-diag

camera freezes, preview rotated wrong, capture slow, session interrupted, black preview, front camera mirrored, camera not starting, AVCaptureSession errors, startRunning blocks, phone call interrupts camera

CharlesWiltgen

content-media

open

media

807

axiom-camera-capture

AVCaptureSession, camera preview, photo capture, video recording, RotationCoordinator, session interruptions, deferred processing, capture responsiveness, zero-shutter-lag, photoQualityPrioritization, front camera mirroring

CharlesWiltgen

content-media

open

media

807

axiom-photo-library

PHPicker, PhotosPicker, photo selection, limited library access, presentLimitedLibraryPicker, save to camera roll, PHPhotoLibrary, PHAssetCreationRequest, Transferable, PhotosPickerItem, photo permissions

CharlesWiltgen

content-media

open

media

805

post-process-logo

Post-process original logos into standardised 256x256 PNG format

tradingstrategy-ai

content-media

open

media

759

netlify-image-cdn

Guide for using Netlify Image CDN for image optimization and transformation. Use when serving optimized images, creating responsive image markup, setting up user-uploaded image pipelines, or configuring image transformations. Covers the /.netlify/images endpoint, query parameters, remote image allowlisting, clean URL rewrites, and composing uploads with Functions + Blobs.

openai

content-media

open

media

754

ffmpeg

Video and audio processing with FFmpeg. Use for format conversion, resizing, compression, audio extraction, and preparing assets for Remotion. Triggers include converting GIF to MP4, resizing video, extracting audio, compressing files, or any media transformation task.

digitalsamba

content-media

open

media

754

ltx2

AI video generation with LTX-2.3 22B — text-to-video, image-to-video clips for video production. Use when generating video clips, animating images, creating b-roll, animated backgrounds, or motion content. Triggers include video generation, animate image, b-roll, motion, video clip, text-to-video, image-to-video.

digitalsamba

content-media

open

media

754

video-toolkit

Create professional videos autonomously using claude-code-video-toolkit — AI voiceovers, image generation, music, talking heads, and Remotion rendering.

digitalsamba

content-media

open

media

754

moviepy

Python video composition with moviepy 2.x — overlaying deterministic text on AI-generated video (LTX-2, SadTalker), compositing clips, single-file build.py video projects. Use when adding labels/captions/lower-thirds to LTX-2 or SadTalker outputs, building short ad-style spots in pure Python without Remotion, or doing programmatic video composition. Triggers include text overlay on video, label LTX-2 clip, caption SadTalker output, lower third, build.py video, moviepy, Python video composition, sub-30s ad spot.

digitalsamba

content-media

open

media

754

qwen-edit

AI image editing prompting patterns for Qwen-Image-Edit. Use when editing photos while preserving identity, reframing cropped images, changing clothing or accessories, adjusting poses, applying style transfers, or character transformations. Provides prompt patterns, parameter tuning, and examples.

digitalsamba

content-media

open

media

712

unity-optimization

Project optimization utilities. Use when users want to optimize textures, meshes, or improve performance. Triggers: optimize, compression, texture size, mesh compression, performance, LOD, Unity优化, Unity压缩, Unity性能.

Besty0728

content-media

open

media

710

image-processing

Process images for web development — resize, crop, trim whitespace, convert formats (PNG/WebP/JPG), optimise file size, generate thumbnails, create OG card images. Uses Pillow (Python) — no ImageMagick needed. Trigger with 'resize image', 'convert to webp', 'trim logo', 'optimise images', 'make thumbnail', 'create OG image', 'crop whitespace', 'process image', or 'image too large'.

jezweb

content-media

open

media

707

transcribe

Speech-to-text transcription using Groq Whisper API. Supports m4a, mp3, wav, ogg, flac, webm.

Dicklesworthstone

content-media

open

media

707

twinmind-performance-tuning

Optimize TwinMind transcription accuracy and processing speed. Use when improving transcription quality, reducing latency, or tuning model parameters for specific use cases. Trigger with phrases like "twinmind performance", "improve transcription accuracy", "faster twinmind", "optimize twinmind", "transcription quality".

Dicklesworthstone

content-media

open

media

707

nano-banana-pro

Generate/edit images with Nano Banana Pro (Gemini 3 Pro Image). Use for image create/modify requests incl. edits. Supports text-to-image + image-to-image; 1K/2K/4K; use --input-image.

Dicklesworthstone

content-media

open

media

669

wecom-send-media

通过 MEDIA 指令向用户发送本地文件（图片、视频、语音等文件）。当用户要求发送或分享文件时，或当生成的文件需要交付给用户时使用。仅当通过 wecom 通道通信时使用此技能。

sunnoy

content-media

open

media

642

image-conversion

Image Conversion

kreuzberg-dev

content-media

open

media

607

android-media

Operate Android media workflows with the media tool, including photo/video capture, media listing, audio recording/playback, and permission recovery. Use for camera, gallery, microphone, and playback tasks.

ModalityDance

content-media

open

media

586

voice

Convert text to speech audio using mb voice CLI. Use when the user asks you to speak, say something aloud, generate audio, or produce a voice recording.

xvirobotics

content-media

open

media

565

vap-media-2

AI image, video, and music generation. Flux, Veo 3.1, Suno V5.

sundial-org

content-media

open

media

565

vap-media

AI image, video, and music generation. Flux, Veo 3.1, Suno V5.

sundial-org

content-media

open

media

565

ffmpeg-cli

Comprehensive video/audio processing with FFmpeg. Use for: (1) Video transcoding and format conversion, (2) Cutting and merging clips, (3) Audio extraction and manipulation, (4) Thumbnail and GIF generation, (5) Resolution scaling and quality adjustment, (6) Adding subtitles or watermarks, (7) Speed adjustment (slow/fast motion), (8) Color correction and filters.

sundial-org

content-media

open

media

565

gemini-stt

Transcribe audio files using Google's Gemini API or Vertex AI

sundial-org

content-media

open

media

565

ffmpeg-video-editor

Generate FFmpeg commands from natural language video editing requests - cut, trim, convert, compress, change aspect ratio, extract audio, and more.

sundial-org

content-media

open

Page 12 / 62