dpo

Name: dpo
Author: atrawog

Direct Preference Optimization for learning from preference pairs. Covers DPOTrainer, preference dataset preparation, implicit reward modeling, and beta tuning for stable preference learning without explicit reward models. Includes thinking quality patterns.

Посмотреть исходный код machine-learning

maintainer

atrawog

Обновлено 1/12/2026

Звёзды

Форки

quick start

Installation and usage

Установка

$ install --globalskills.sh

Использование

После установки вы можете использовать этот skill, выполнив следующую команду в терминале:

skills use dpo