MiniChatGPT
Mini ChatGPT
Install / Use
/learn @hlp-ai/MiniChatGPTREADME
miniChatGPT
miniChatGPT基于Huggingface GPT2,支持有监督微调(SFT)、奖励模型(Reward Model)和PPO全流程ChatGPT训练。
如何使用
- 使用prepare_sft_dataset.py准备训练数据
- 使用train_sft.py进行有监督微调(SFT)
- 使用train_rm.py训练奖励模型(Reward Model)
- 基于奖励模型,使用train_ppo.py对SFT模型进行进一步PPO训练
- 运行main.py检查模型运行效果
致谢
本项目是对minChatGPT的修改和完善,感谢minChatGPT的辛勤工作。
Related Skills
node-connect
343.1kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
90.0kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
343.1kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
qqbot-media
343.1kQQBot 富媒体收发能力。使用 <qqmedia> 标签,系统根据文件扩展名自动识别类型(图片/语音/视频/文件)。
