MinRL

Simple, clean, heavily commented implementation of various policy gradient algorithms applied to LLMs.

General principles of this codebase:

Influences / references:

Commands

To run training:

python train.py

Logs:

tensorboard --logdir runs

Modal:

uv run modal run -d modal_train.py::training

Name		Name	Last commit message	Last commit date
Latest commit History 333 Commits
.claude		.claude
.vscode		.vscode
data		data
marimo		marimo
minrl		minrl
tests		tests
viewer		viewer
.gitignore		.gitignore
.python-version		.python-version
AGENTS.md		AGENTS.md
README.md		README.md
agent_cli.py		agent_cli.py
evaluate.py		evaluate.py
list_z5_games.py		list_z5_games.py
modal_train.py		modal_train.py
pyproject.toml		pyproject.toml
test_pack_bfd.py		test_pack_bfd.py
test_vllm.py		test_vllm.py
train.py		train.py
uv.lock		uv.lock
visualize_algorithm.py		visualize_algorithm.py
visualize_evals.py		visualize_evals.py