rloo

Name: rloo
Author: atrawog

Reinforcement Learning with Leave-One-Out estimation for policy optimization. Covers RLOOTrainer, reward function integration, baseline estimation, and variance reduction techniques for stable RL training. Includes thinking-aware patterns.

Voir le code source machine-learning

maintainer

atrawog

Mis à jour 1/12/2026

Étoiles

Forks

quick start

Installation and usage

Installation

$ install --globalskills.sh

Utilisation

Après l'installation, vous pouvez utiliser ce skill en exécutant la commande suivante dans votre terminal :

skills use rloo