Results for "openrlhf"

Claude Code Claude Desktop GitHub Copilot Cursor Windsurf Cline Zed JetBrains

📄SKILL.md 🤖CLAUDE.md ⚡Claude Commands 📐.cursorrules 📐Cursor Rules 🕹️AGENTS.md 🧬codex.md 🏄.windsurfrules 🔧.clinerules 🧑‍✈️Copilot Instructions

All Development Operations Data Product Marketing Customer Design Sales

13 skills found

OpenRLHF / OpenRLHF

9.3k

An Easy-to-use, Scalable and High-performance Agentic RL Framework based on Ray (PPO & DAPO & REINFORCE++ & TIS & vLLM & Ray & Async RL)

universal

large-language-modelsopenai-o1proximal-policy-optimization+5

Updated 15h ago

TideDra / Lmm R1

845

Extend OpenRLHF to support LMM RL training for reproduction of DeepSeek-R1 on multimodal tasks.

universal

Updated 23h ago

TsinghuaC3I / MARTI

472

A Framework for LLM-based Multi-Agent Reinforced Training and Inference

universal

autogencameldeepseek-r1+9

Updated 1d ago

OpenRLHF / OpenRLHF M

162

An Easy-to-use, Scalable and High-performance RLHF Framework designed for Multimodal Models.

universal

Updated 1d ago

yyht / Openrlhf Async Pipline

No description available

universal

Updated 21h ago

DeepGym / Deepgym

RL training environments with verifiable rewards for coding agents. Works with TRL, Unsloth, verl, OpenRLHF.

universal

ai-agentscode-executioncoding-agents+15

Updated 1d ago

rosieyzh / Openrlhf Pretrain

Code for "Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining"

universal

Updated 28d ago

sjelassi / Ebft Openrlhf

Code for "Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models".

universal

Updated 3d ago

Freder-chen / OpenRLHF Agent

No description available

universal

Updated 6d ago

victorShawFan / OpenRLHF Add Simpo

添加了simpo方法的OpenRLHF，个人修改，原仓库链接：https://github.com/OpenLLMAI/OpenRLHF

universal

Updated 1y ago

LLM4AIOps / OpenRLHF ThinkFL

No description available

universal

Updated 15d ago

Magnicord / Llm Env Templates

A list of uv environments templates for LLM development.

universal

condadeep-learningenvironment+8

Updated 1mo ago

OpenRLHF / OpenRLHF Docs

No description available

universal

Updated 18d ago