home/categories/data-engineering

category focus

Data Eng.

ETL pipelines and big data infrastructure.

1541 スキルall categories

sorting

stars

current ordering strategy

query

all entries

refine the visible subset

data-engineering

185

bpmn-to-pptx

Transform BPMN 2.0 process diagrams into professional, editable PowerPoint presentations. Features a 3-tier hierarchical layout with chevrons, rounded boxes, and square task boxes with detailed bullet points.

majiayu000

data-ai

open

data-engineering

185

braiins-cache-strategist

Designs Redis caching strategies for Braiins API data, optimizing for data freshness vs. API rate limits and response latency.

majiayu000

data-ai

open

data-engineering

185

btdp-it-masterdata-retrieval

Expert in retrieving IT masterdata and data lineage from L'Oréal's BTDP infrastructure. **Use this skill when user asks to search, find, or query for any BTDP/L'Oréal resource including: GCP projects, BigQuery datasets, BigQuery tables, Google Groups, applications, repositories, domains, IT organizations, people/users, GCP services, GCP SKUs, or APIs.** Also use for data lineage queries (upstream/downstream dependencies, parents/children). **Trigger keywords:** "search for project", "find the project", "find dataset", "search table", "what is the project", "what is the dataset", "what is the table", "what is the group", "what is the application", "find group", "search application", "show me project", "get project", "list projects", "lineage", "masterdata", "master data", "BTDP", "SDDS" **DO NOT use filesystem commands** (find, grep, ls) to search for BTDP resources. Always use this skill's RAG indices, MCP tools, or BigQuery SQL queries instead.

majiayu000

data-ai

open

data-engineering

185

chroma-client

ChromaDB vector database client for storing and retrieving text embeddings with hybrid search (dense + sparse). Use for RAG operations, contextual retrieval, and similarity search in clinical notes.

majiayu000

data-ai

open

data-engineering

185

cleaning-up-research-sessions

Safely remove intermediate files from completed research sessions while preserving important data

majiayu000

data-ai

open

data-engineering

185

clickhouse-pydantic-config

Generate DBeaver configurations from Pydantic ClickHouse connection models. Use when user mentions "DBeaver config", "ClickHouse connection setup", "database client configuration", "generate connection JSON", "mise SSoT connection", or needs consistent connection configuration across development tools.

majiayu000

data-ai

open

data-engineering

185

configuring-connection-pools

Configure connection pool sizing for optimal performance. Use when configuring DATABASE_URL or deploying to production.

majiayu000

data-ai

open

data-engineering

185

convex-core

Core Convex development guidelines - functions, validators, schema, queries, mutations, and database patterns

majiayu000

data-ai

open

data-engineering

185

cube-definition

Define semantic layer cubes with Drizzle ORM tables, including dimensions, measures, time dimensions, and security context. Use when creating analytics cubes, defining data models, setting up multi-tenant filtering, or working with drizzle-cube semantic layers.

majiayu000

data-ai

open

data-engineering

185

cva-healthcare-pipeline

Complete 5-system healthcare content pipeline for regulated medical content generation. Includes LGPD data extraction (Type B), claims identification (Type A), scientific reference search (Type C), SEO optimization (Type B), and final consolidation (Type D). Validated ROI - 99.4% time reduction, 92.4% cost reduction. Use when implementing healthcare content automation, building regulated medical systems, or optimizing production pipelines.

majiayu000

data-ai

open

data-engineering

185

dara-dataset-expert

Warehouse-Prozess-Analyse mit 207 Labels, 47 Prozessen, 8 Szenarien, 10 Triggern. Vollständige Expertise für DaRa Datensatz + REFA-Methodik + Validierungslogik + Szenarioerkennung. 100% faktenbasiert ohne Halluzinationen.

majiayu000

data-ai

open

data-engineering

185

data-access-guidelines

Database access layer guidelines for Quantum Skincare's Prisma-based data-access library. Covers Prisma schema design, DAO patterns, UUID primary keys, PostgreSQL role-based access control (RBAC), migration workflows, type-safe queries, transaction handling, soft deletes, and testing strategies. Use when working with Prisma schema, DAOs, database migrations, or data access patterns in libs/data-access.

majiayu000

data-ai

open

data-engineering

185

data-cleaning-pipeline-generator

Generates data cleaning pipelines for pandas/polars with handling for missing values, duplicates, outliers, type conversions, and data validation. Use when user asks to "clean data", "generate data pipeline", "handle missing values", or "remove duplicates from dataset".

majiayu000

data-ai

open

data-engineering

185

data-cleaning

Data cleaning, preprocessing, and quality assurance techniques

majiayu000

data-ai

open

data-engineering

185

data-designer

Generate high-quality synthetic datasets using statistical samplers and Claude's native LLM capabilities. Use when users ask to create synthetic data, generate datasets, create fake/mock data, generate test data, training data, or any data generation task. Supports CSV, JSON, JSONL, Parquet output. Adapted from NVIDIA NeMo DataDesigner (Apache 2.0).

majiayu000

data-ai

open

data-engineering

185

data-modeling-patterns

Database schema design and data modeling patterns including normalization principles (1NF-5NF), denormalization trade-offs, entity relationship design, indexing strategies, schema evolution, and domain-driven design patterns. Activates when designing new database schemas, refactoring data models, discussing normalization vs denormalization decisions, planning schema migrations, or modeling complex domain entities. Use when creating new tables/collections, redesigning existing schemas, evaluating relationship patterns, or making data integrity decisions.

majiayu000

data-ai

open

data-engineering

185

data-quality-test-generator

Generate comprehensive dbt test suites following FF Analytics data quality standards and dbt 1.10+ syntax. This skill should be used when creating tests for new dbt models, adding tests to existing models, standardizing test coverage, or implementing data quality gates. Covers grain uniqueness, FK relationships, enum validation, and freshness tests.

majiayu000

data-ai

open

data-engineering

185

data-serialization

Efficient data serialization for game networking including Protobuf, FlatBuffers, and custom binary

majiayu000

data-ai

open

data-engineering

185

data-source-connect

Connect your own data source to replace the demo unicorns data. Use when the user wants to use their own database URL or CSV file instead of the sample data. Triggers on requests to connect database, import CSV, change data source, use own data, or switch from demo data.

majiayu000

data-ai

open

data-engineering

185

data-storage

Implement client-side data storage with localStorage, IndexedDB, or SQLite WASM. Use when storing user preferences, caching data, or building offline-first applications.

majiayu000

data-ai

open

data-engineering

185

data-systems-architecture

Use when designing databases for data-heavy applications, making schema decisions for performance, choosing between normalization and denormalization, selecting storage/indexing strategies, planning for scale, or evaluating OLTP vs OLAP trade-offs. Also use when encountering N+1 queries, ORM issues, or concurrency problems.

majiayu000

data-ai

open

data-engineering

185

data-warehousing

Snowflake, BigQuery, Redshift, dimensional modeling, and modern data warehouse architecture

majiayu000

data-ai

open

data-engineering

185

data-wrangler

Transform and export data using DuckDB SQL. Read CSV/Parquet/JSON/Excel/databases, apply SQL transformations (joins, aggregations, PIVOT/UNPIVOT, sampling), and optionally write results to files. Use when the user wants to: (1) Clean, filter, or transform data, (2) Join multiple data sources, (3) Convert between formats (CSV→Parquet, etc.), (4) Create partitioned datasets, (5) Sample large datasets, (6) Export query results. Prefer this over in-context reasoning for datasets with thousands of rows or complex transformations.

majiayu000

data-ai

open

data-engineering

185

database-orm

Interaction with NeonDB Postgres using Drizzle ORM.

majiayu000

data-ai

open

Page 37 / 65