reward

Reward model training for RLHF pipelines. Covers RewardTrainer, preference dataset preparation, sequence classification heads, and reward scaling for stable reinforcement learning. Includes thinking quality scoring patterns.

Посмотреть исходный код machine-learning

maintainer

atrawog

Обновлено 1/12/2026

Звёзды

Форки

quick start

Installation and usage

Установка

$ install --globalskills.sh

Использование

После установки вы можете использовать этот skill, выполнив следующую команду в терминале:

skills use reward