PPOxFamily

PPO x Family DRL Tutorial Course（决策智能入门级公开课：8节课帮你盘清算法理论，理顺代码逻辑，玩转决策AI应用实践）

Generate Convert Improve

Install / Use

/learn @opendilab/PPOxFamily

About this skill

Quality Score

0/100

README

PPO x Family 决策智能入门公开课

欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ，灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ，帮助一切对于深度强化学习技术有好奇心的人，轻便且高效地制作应用原型，了解和学习最强大最易用的 PPO Family 。

P.S. 路过记得点个 star ，2022年12月起持续更新中~

News

2025.03.13: ❗️❗️Notice: 课程作业数据集及其他相关附加材料现已更新至 HuggingFace
2023.06.07: PPO x Family 第八章（突破智能体终极界限）及课程大作业将在十月下旬正式上线
2023.06.01: [bilibili] PPO x Family 第七章（挖掘黑科技）正式上线
2023.04.06: [bilibili] PPO x Family 第六章（统筹多智能体）正式上线
2023.03.09: [bilibili] PPO x Family 第五章（探索时序建模）正式上线
2023.02.23: [bilibili] PPO x Family 第四章（解密稀疏奖励空间）正式上线
2023.01.16: [bilibili] PPO x Family 第三章（表征多模态观察空间）正式上线
2022.12.23: [bilibili] PPO x Family 第二章（解构复杂动作空间）正式上线
2022.12.23: PPO x Family ”算法-代码“ 注解文档网站上线传送门
2022.12.08: [bilibili] PPO x Family 第一章（开启决策AI探索之旅）正式上线
2022.12.06: [bilibili] PPO x Family 第一章微课视频：4分钟带你快速入门强化学习的万能钥匙
2022.12.05: [PaperWeekly] 给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙
2022.12.01: [bilibili] PPO x Family 课程品牌宣传视频
2022.11.30: [机器之心] 集中一点，演化无限：PPO × Family决策智能入门公开课即日开讲
2022.11.30: [中国计算机学会CCF] 【CCF科普群星计划】决策智能入门公开课开课啦

课程大纲

内容导航

| 章节（视频课） | 算法理论资料 | 补充资料 | 习题 | 代码样例 | 应用样例| |------|-----|----------|-------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| ---| | 第一章：开启决策AI探索之旅 | 课程PPT 课程文字稿 | 微课视频 策略梯度 A2C TRPO 符号表 QA总结 | 习题 习题题解 | PG算法示例 A2C算法示例 PPO算法示例 | 应用混剪 | | 第二章：解构复杂动作空间 | 课程PPT 课程文字稿 | 重参数化 PPO&DDPG HyAR QA总结 | 习题 习题题解 | 离散动作示例 连续动作示例 混合动作示例 应用训练代码 | 火箭回收等 | | 第三章：表征多模态动作空间 | 课程PPT 课程文字稿 | 表征学习 PPG 不变性 QA总结 | 习题 习题题解 | 编码方法示例 Wrapper示例 计算图示例 应用训练代码 | 软体机器人等 | | 第四章：解密稀疏奖励空间 | 课程PPT 课程文字稿 | 逆强化学习 行为克隆BC QA总结 | 习题 习题题解 | ICM好奇心奖励 RND好奇心奖励 Pop-Art示例 价值缩放 [应用训练代码](https://github.com/opendilab/PPOxFamily/blob/main/chapter4_reward/chapter4_applicat

Related Skills

openai-image-gen

329.7k

Batch-generate images via OpenAI Images API. Random prompt sampler + `index.html` gallery.

claude-opus-4-5-migration

81.2k

Migrate prompts and code from Claude Sonnet 4.0, Sonnet 4.5, or Opus 4.1 to Opus 4.5

model-usage

329.7k

Use CodexBar CLI local cost usage to summarize per-model usage for Codex or Claude, including the current (most recent) model or a full model breakdown. Trigger when asked for model-level usage/cost data from codexbar, or when you need a scriptable per-model summary from codexbar cost JSON.

TrendRadar

49.5k

⭐AI-driven public opinion & trend monitor with multi-platform aggregation, RSS, and smart alerts.🎯 告别信息过载，你的 AI 舆情监控助手与热点筛选工具！聚合多平台热点 + RSS 订阅，支持关键词精准筛选。AI 智能筛选新闻 + AI 翻译 + AI 分析简报直推手机，也支持接入 MCP 架构，赋能 AI 自然语言对话分析、情感洞察与趋势预测等。支持 Docker ，数据本地/云端自持。集成微信/飞书/钉钉/Telegram/邮件/ntfy/bark/slack 等渠道智能推送。

opendilab

View profile

View on GitHub

GitHub Stars2.5k

CategoryEducation

Updated8h ago

Forks212

opendilab/PPOxFamily

Languages

Python

Security Score

100/100

Audited on Mar 22, 2026

No findings