unsloth-orpo

One-step preference alignment using Odds Ratio Preference Optimization (ORPO) (triggers: ORPO, preference optimization, alignment, ORPOTrainer, log_odds_ratio, binary preference).

Voir le code source computational-chemistry

maintainer

cuba6112

Mis à jour 12/26/2025

Étoiles

Forks

quick start

Installation and usage

One-step preference alignment using Odds Ratio Preference Optimization (ORPO) (triggers: ORPO, preference optimization, alignment, ORPOTrainer, log_odds_ratio, binary preference).

Installation

$ install --globalskills.sh

Utilisation

Après l'installation, vous pouvez utiliser ce skill en exécutant la commande suivante dans votre terminal :

skills use unsloth-orpo