home/categories/machine-learning/benchflow-ai-skillsbench-tasks-mhc-layer-impl-environment-skills-nanogpt-training-skill-md

machine-learningdata-ai

nanogpt-training

Name: nanogpt-training
Author: benchflow-ai

Train GPT-2 scale models (~124M parameters) efficiently on a single GPU. Covers GPT-124M architecture, tokenized dataset loading (e.g., HuggingFace Hub shards), modern optimizers (Muon, AdamW), mixed precision training, and training loop implementation.

View Source machine-learning

maintainer

benchflow-ai

Updated 1/19/2026

Stars

946

Forks

244

quick start

Installation and usage

Installation

$ install --globalskills.sh

Usage

Once installed, you can use this skill by running the following command in your terminal:

skills use nanogpt-training