reward

Reward model training for RLHF pipelines. Covers RewardTrainer, preference dataset preparation, sequence classification heads, and reward scaling for stable reinforcement learning. Includes thinking quality scoring patterns.

Ver código fuente machine-learning

maintainer

atrawog

Actualizado 1/12/2026

Estrellas

Forks

quick start

Installation and usage

Instalación

$ install --globalskills.sh

Uso

Después de instalarlo, puedes usar este skill ejecutando el siguiente comando en tu terminal:

skills use reward