reward

Reward model training for RLHF pipelines. Covers RewardTrainer, preference dataset preparation, sequence classification heads, and reward scaling for stable reinforcement learning. Includes thinking quality scoring patterns.

Voir le code source machine-learning

maintainer

atrawog

Mis à jour 1/12/2026

Étoiles

Forks

quick start

Installation and usage

Installation

$ install --globalskills.sh

Utilisation

Après l'installation, vous pouvez utiliser ce skill en exécutant la commande suivante dans votre terminal :

skills use reward