home/categories/data-engineering

category focus

Data Eng.

ETL pipelines and big data infrastructure.

1541টি স্কিলall categories

sorting

stars

current ordering strategy

query

all entries

refine the visible subset

data-engineering

185

database-schema-validator

Validates database schemas, Kysely types, and migrations. Use when checking schema correctness or migration safety.

majiayu000

data-ai

open

data-engineering

185

database-seed

Create robust, error-proof Prisma seed scripts with comprehensive error handling and validation.

majiayu000

data-ai

open

data-engineering

185

database-visualization

Expert in creating database diagrams and visual representations. Use when generating ERDs, schema diagrams, or visualizing database relationships with Mermaid.js.

majiayu000

data-ai

open

data-engineering

185

Use when working with ES/NQ futures market data, before calling any Databento API - follow mandatory four-step workflow (cost check, availability check, fetch, validate); prevents costly API errors and ensures data quality

majiayu000

data-ai

open

data-engineering

185

databricks-query

Execute SQL queries against Databricks using the DBSQL MCP server. Use when querying Unity Catalog tables, running SQL analytics, exploring Databricks data, or when user mentions Databricks queries, SQL execution, Unity Catalog, or data warehouse operations. Handles query execution, result formatting, and error handling.

majiayu000

data-ai

open

data-engineering

185

dataclass-optimization

Python dataclass best practices: slots, frozen, validation. Trigger when optimizing dataclasses or creating config classes.

majiayu000

data-ai

open

data-engineering

185

dataflow

Kailash DataFlow - zero-config database framework with automatic model-to-node generation. Use when asking about 'database operations', 'DataFlow', 'database models', 'CRUD operations', 'bulk operations', 'database queries', 'database migrations', 'multi-tenancy', 'multi-instance', 'database transactions', 'PostgreSQL', 'MySQL', 'SQLite', 'MongoDB', 'pgvector', 'vector search', 'document database', 'RAG', 'semantic search', 'existing database', 'database performance', 'database deployment', 'database testing', or 'TDD with databases'. DataFlow is NOT an ORM - it generates 11 workflow nodes per SQL model, 8 nodes for MongoDB, and 3 nodes for vector operations.

majiayu000

data-ai

open

data-engineering

185

dataset-engineering

Create, clean, and optimize datasets for LLM fine-tuning. Covers formats (Alpaca, ShareGPT, ChatML), synthetic data generation, quality assessment, and augmentation. Use when preparing data for training.

majiayu000

data-ai

open

data-engineering

185

datum-system

Helps work with the b00t datum system - TOML-based configuration for AI models, providers, and services. Datums are stored in ~/.dotfiles/_b00t_/ and specify WHICH environment variables are required (not the values). Enables DRY approach by centralizing configuration in Rust, exposed to Python via PyO3.

majiayu000

data-ai

open

data-engineering

185

db-architect

Expert database architecture including schema design, partitioning, replication, and performance optimization

majiayu000

data-ai

open

data-engineering

185

dbcli-db-ddl

Execute DDL (Data Definition Language) statements - CREATE, ALTER, DROP tables, indexes, views on 30+ databases using DbCli. CRITICAL - requires mandatory backup before DROP/ALTER operations. Use when user needs to create schema, modify structure, or drop database objects.

majiayu000

data-ai

open

data-engineering

185

direnv-pattern

Implements the b00t environment management pattern: direnv → .envrc → dotenv → .env where datums specify WHICH environment variables are required and .env contains the actual secret VALUES. Ensures automatic environment loading per-project.

majiayu000

data-ai

open

data-engineering

185

django-model-helper

Generates Django models with proper field types, relationships, and migrations. Use when creating Django models or database schemas.

majiayu000

data-ai

open

data-engineering

185

download-all-transcripts

Download transcripts for all data folders sequentially. Use for overnight batch processing or when you need to download pending transcripts across all channels and collections.

majiayu000

data-ai

open

data-engineering

185

ds-star

Multi-agent data science framework using DS-STAR (Data Science - Structured Thought and Action) architecture. Automates data analysis through collaborative AI agents with multi-model support (Haiku, Sonnet, Opus). Use for exploratory data analysis, automated insights, and iterative data science workflows.

majiayu000

data-ai

open

data-engineering

185

duckdb-remote-parquet-query

Query remote Parquet files via HTTP without downloading using DuckDB httpfs. Leverage column pruning, row filtering, and range requests for efficient bandwidth usage. Use for crypto/trading data distribution and analytics.

majiayu000

data-ai

open

data-engineering

185

e3

East Execution Engine (e3) - durable dataflow execution for East programs. Use when: (1) Authoring e3 packages with @elaraai/e3 (e3.input, e3.task, e3.package, e3.export), (2) Running e3 CLI commands (e3 init, e3 start, e3 watch, e3 get, e3 set), (3) Working with workspaces and packages, (4) Content-addressable caching and dataflow execution.

majiayu000

data-ai

open

data-engineering

185

ecto-schemas

Use when defining and working with Ecto schemas including field types, associations, and embedded schemas. Use when modeling database entities in Elixir.

majiayu000

data-ai

open

data-engineering

185

ecto-thinking

Use when writing Ecto code. Contains insights about Contexts, DDD patterns, schemas, changesets, and database gotchas from José Valim.

majiayu000

data-ai

open

data-engineering

185

etl-pipeline-agent

Designs and implements Extract, Transform, Load pipelines for data processing

majiayu000

data-ai

open

data-engineering

185

etl-tools

Apache Airflow, dbt, Prefect, Dagster, and modern data orchestration for production data pipelines

majiayu000

data-ai

open

data-engineering

185

executive-dashboard-generator

Transform raw data from CSVs, Google Sheets, or databases into executive-ready reports with visualizations, key metrics, trend analysis, and actionable recommendations. Creates data-driven narratives for leadership. Use when users need to turn spreadsheets into executive summaries or board reports.

majiayu000

data-ai

open

data-engineering

185

executive-data-storytelling

Transform data into compelling executive narratives using the What/Why/Next framework from Gartner research

majiayu000

data-ai

open

data-engineering

185

faker

Use when writing Vague (.vague) files that need realistic test data using faker generators for names, emails, addresses, dates, and more

majiayu000

data-ai

open

Page 38 / 65