dpo

Name: dpo
Author: atrawog

Direct Preference Optimization for learning from preference pairs. Covers DPOTrainer, preference dataset preparation, implicit reward modeling, and beta tuning for stable preference learning without explicit reward models. Includes thinking quality patterns.

ソースを表示 machine-learning

maintainer

atrawog

更新日 1/12/2026

スター

フォーク

quick start

Installation and usage

インストール

$ install --globalskills.sh

使い方

インストール後、ターミナルで以下のコマンドを実行してこのスキルを使用できます：

skills use dpo