rlhf

Name: rlhf
Author: itsmostafa

Understanding Reinforcement Learning from Human Feedback (RLHF) for aligning language models. Use when learning about preference data, reward modeling, policy optimization, or direct alignment algorithms like DPO.

Ver código fuente llm-ai

maintainer

itsmostafa

Actualizado 1/5/2026

Estrellas

Forks

quick start

Installation and usage

Instalación

$ install --globalskills.sh

Uso

Después de instalarlo, puedes usar este skill ejecutando el siguiente comando en tu terminal:

skills use rlhf