SkillAgentSearch skills...

FindTheChatGPTer

ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利

Install / Use

/learn @chenking2020/FindTheChatGPTer

README

寻找那些ChatGPT/GPT4开源“平替”们

ChatGPT/GPT4开源“平替”汇总,持续更新

ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。ChatGPT没有开源,复现难度极大,即使到现在GPT3的完全能力也没有任何一个单位或者企业进行了复现。刚刚,OpenAI又官宣发布了图文多模态的GPT4模型,能力相对ChatGPT又是大幅提升,似乎闻到了以通用人工智能主导的第四次工业革命的味道。

无论是国外还是国内,目前距离OpenAI的差距越来越大,大家都在紧锣密鼓的追赶,以致于在这场技术革新中处于一定的优势地位,目前很多大型企业的研发基本上都是走闭源路线,ChatGPT和GPT4官方公布的细节很少,也不像之前发个几十页的论文介绍,OpenAI的商业化时代已经到来。当然,也有一些组织或者个人在开源平替上进行了探索,本文章汇总如下,本人也会持续跟踪,有更新的开源平替及时更新此处

一、自主模型篇

        该类方法主要采用非LLAMA等微调方式,自主设计或者优化GPT、T5模型,并实现从预训练、监督微调、强化学习等全周期过程。

ChatYuan

        ChatYuan(元语AI)是由元语智能开发团队开发和发布的,自称第一个国内最早的一个功能型对话大模型,可以写文章、写作业、写诗歌、做中英文间的翻译;一些法律等特定领域问题也可以提供相关信息。该模型目前只支持中文,github链接是:

        https://github.com/clue-ai/ChatYuan

        从披露的技术细节看,底层采用7亿参数规模的T5模型,并基于PromptClue进行了监督微调形成了ChatYuan。该模型基本上是ChatGPT技术路线的三步的第一步,没有实现奖励模型训练和PPO强化学习训练。

Colossal AI

        最近,ColossalAI开源了他们的ChatGPT实现。分享了他们的三步策略,完整实现了ChatGPT核心的技术路线:其Github如下:

        https://github.com/hpcaitech/ColossalAI

        本人基于该项目,更加明确了三步策略,并进行了分享:

        第一阶段(stage1_sft.py):SFT监督微调阶段,该开源项目没有实现,这个比较简单,因为ColossalAI无缝支持Huggingface,本人直接用Huggingface的Trainer函数几行代码轻松实现,在这里我用了一个gpt2模型,从其实现上看,其支持GPT2、OPT和BLOOM模型;

        第二阶段(stage2_rm.py):奖励模型(RM)训练阶段,即项目Examples里train_reward_model.py部分;

        第三阶段(stage3_ppo.py):强化学习(RLHF)阶段,即项目train_prompts.py

        三个文件的执行需要放在ColossalAI项目中,其中代码中的cores即原始工程中的chatgpt,cores.nn在原始工程中变成了chatgpt.models

ChatGLM

        ChatGLM是清华技术成果转化的公司智谱AI开源的GLM系列的对话模型,支持中英两个语种,目前开源了其62亿参数量的模型。其继承了GLM之前的优势,在模型架构上进行了优化,从而使得部署和应用门槛变低,实现大模型在消费级显卡上的推理应用。详细技术可以参考其github:

        ChatGLM-6B开源地址为:https://github.com/THUDM/ChatGLM-6B

        从技术路线上看,其实现了ChatGPT强化学习人类对齐策略,使得生成效果更佳贴近人类价值,其目前能力域主要包括自我认知、提纲写作、文案写作、邮件写作助手、信息抽取、角色扮演、评论比较、旅游建议等,目前其已经开发了正在内测的1300亿的超大模型,算是目前开源平替里面参数规模较大的对话大模型。

        VisualGLM-6B(更新于2023年5月19日)

        该团队近期开源了ChatGLM-6B的多模态版,支持图像、中文和英文的多模态对话。语言模型部分采用ChatGLM-6B,图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。VisualGLM-6B依靠来自于CogView数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。

        VisualGLM-6B开源地址为:https://github.com/THUDM/VisualGLM-6B

        ChatGLM2-6B(更新于2023年6月27日)

        该团队近期开源了ChatGLM的二代版本ChatGLM2-6B,相对第一代版本,其主要特性包括采用了更大的数据规模,从1T提升到1.4T;最突出的莫过于其更长的上下文支持,从2K扩展到了32K,允许更长和更高轮次的输入;另外起大幅优化了推理速度,提升了42%,占用的显存资源也大幅降低。

        ChatGLM2-6B开源地址为:https://github.com/THUDM/ChatGLM2-6B

PaLM-rlhf-pytorch

        其号称首个开源ChatGPT平替项目,其基本思路是基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF)。PaLM是谷歌在今年4月发布的5400亿参数全能大模型,基于Pathways系统训练。其可以完成写代码、聊天、语言理解等任务,并且在大多数任务上具有强大的少样本学习性能。同时采用了ChatGPT一样的强化学习机制,能让AI的回答更加符合情景要求,降低模型毒性。

        Github地址为:https://github.com/lucidrains/PaLM-rlhf-pytorch

GPTrillion

        该项目号称开源的最大规模模型,高达1.5万亿,且是多模态的模型。其能力域包括自然语言理解、机器翻译、智能问答、情感分析和图文匹配等。其开源地址为:

        https://huggingface.co/banana-dev/GPTrillion

        (2023年5月24日,该项目是愚人节玩笑节目,项目已删除,特此说明)

OpenFlamingo

        OpenFlamingo是一个对标GPT-4、支持大型多模态模型训练和评估的框架,由非盈利机构LAION重磅开源发布,其是对DeepMind的Flamingo模型的复现。目前开源的是其基于LLaMA的 OpenFlamingo-9B模型。Flamingo模型在包含交错文本和图像的大规模网络语料库上进行训练,具备上下文少样本学习能力。OpenFlamingo实现了原始Flamingo中提出的相同架构,在一个新的多模态C4数据集的5M样本和LAION-2B的10M样本上训练而来。该项目的开源地址是:

        https://github.com/mlfoundations/open_flamingo

MOSS (更新于2023年4月21日)

        今年2月21日,复旦大学发布了MOSS,并开放公测,在公测崩溃后引起一些争议。现在该项目迎来重要更新和开源。开源的MOSS支持中英两个语种,且支持插件化,如解方程、搜索等。参数量大16B,在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。该项目的开源地址是:

        https://github.com/OpenLMLab/MOSS

mPLUG-Owl (更新于2023年5月7日)

        与miniGPT-4、LLaVA类似,其是一个对标GPT-4的开源多模态大模型,其延续了mPLUG系列的模块化训练思想。其目前开源了7B参数量的模型,同时第一次针对视觉相关的指令理解提出一个全⾯的测试集 OwlEval,通过人工评测对比了已有模型,包括LLaVA、MiniGPT-4等工作,其展示出更优的多模态能力,尤其在多模态指令理解能力、多轮对话能力、知识推理能力等方⾯表现突出。目前遗憾的是跟其他图文大模型一样,仍然只支持英文,但中文版已在其待开源List中。

        该项目的开源地址是:https://github.com/X-PLUG/mPLUG-Owl

PandaLM (更新于2023年5月9日)

        PandaLM是一个模型评估大模型,旨在对其他大模型生成内容的偏好进行自动评价,节省人工评估成本。PandaLM自带有Web界面进行分析,同时还支持Python代码调用,仅用三行代码即可对任意模型和数据生成的文本评估,使用很方便。

        该项目开源地址是:https://github.com/WeOpenML/PandaLM

悟道·天鹰 (更新于2023年6月12日)

        在近期召开的智源大会上,智源研究院开源了其悟道·天鹰大模型,具备中英双语知识。开源版本的基础模型参数量包括70亿和330亿,同时其开源了AquilaChat对话模型和quilaCode文本-代码生成模型,且都已经开放了商业许可。Aquila采用GPT-3、LLaMA等Decoder-only架构,同时针对中英双语更新了词表,并采用其加速训练方法。其性能上的保障不仅依赖于模型的优化改进,还得益于智源这几年在大模型高质量数据上的积累。

        该项目开源地址是:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

CoDi(更新于2023年6月12日)

        近期,微软重磅发表多模态大模型论文和开源代码-CoDi,彻底打通文本-语音-图像-视频,支持任意输入,任意模态输出。为了达到任意模态的生成,研究者将训练分为两个阶段,第一个阶段作者利用桥接对齐策略,组合条件进行训练,给每个模态都打造一个潜在扩散模型;第二个阶段给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块,就能将潜在扩散模型的潜变量投射到共享空间中,使得生成的模态也进一步多样化。

        该项目开源地址是:https://github.com/microsoft/i-Code/tree/main/i-Code-V3

ImageBind(更新于2023年6月12日)

        Meta重磅推出和开源其多模态大模型ImageBind,可以实现跨6种模态,包括图像、视频、音频、深度、热量和空间运动,ImageBind通过使用图像的绑定特性,利用大型视觉语言模型和零样本能力扩展到新的模态来解决对齐问题。图像配对数据足以将这六种模态绑定在一起,允许不同的模式彼此打通模态割裂。

        该项目开源地址是:https://github.com/facebookresearch/ImageBind

baichuan-7B(更新于2023年6月15日)

        2023年4月10日,王小川官宣创办AI大模型公司“百川智能”,旨在打造中国版的OpenAI。在成立了两个月后,百川智能重磅开源其自主研发的baichuan-7B模型,支持中英文。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。该模型在高质量数据上达到万亿token规模,并基于高效的attention算子优化支持上万超长动态窗口的扩张能力,目前开源支持4K上下文能力。该开源模型可以商用,比LLaMA更加友好。

        该项目开源地址是:https://github.com/baichuan-inc/baichuan-7B

XVERSE-13B(更新于2023年8月8日)

        2023年8月6日,元象XVERSE团队开源XVERSE-13B模型,该模型是一个多语言大模型,支持语种多达40+,支持上下文语境长度达8192,根据团队介绍,该模型特点有:模型结构:XVERSE-13B使用主流Decoder-only的标准Transformer结构,支持8K的上下文长度,为同尺寸模型中最长,能满足更长的多轮对话、知识问答与摘要等需求;训练数据:构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;分词:基于BPE算法,使用上百GB语料训练了一个词表大小为100,278的分词器,能够同时支持多语言,而无需额外扩展词表;训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率可达到58.5%,位居业界前列。

        该项目开源地址是:https://github.com/xverse-ai/XVERSE-13B

通义千问Qwen-7B(更新于2023年8月8日)

        2023年8月3日,阿里通义千问70亿模型开源,包括通用模型和对话模型,并且开源、免费、可商用。据介绍,Qwen-7B是基于Transformer的大语言模型,在超大规模预训练数据上训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。它是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于Qwen-7B基座模型的中英文对话模型。通义千问7B预训练模型在多个权威基准测评中表现出色,中英文能力远超国内外同等规模开源模型,部分能力甚至超过了12B、13B大小的开源模型。

        该项目开源地址是:https://github.com/QwenLM/Qwen-7B

二、Alpaca模式篇

        LLaMA是由Meta发布的全新人工智能大型语言模型,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等任务上方面表现良好。LLaMA模型支持20种语言,包括拉丁语和西里尔字母语言,目前看原始模型并不支持中文。可以说LLaMA的史诗级泄露大力推进了类ChatGPT的开源发展。

        (更新于2023年4月22日)但遗憾的是目前LLama的授权比较有限,只能用作科研,不允许做商用。为了解决商用完全开源问题,RedPajama项目应运而生,其旨在创建一个完全开源的LLaMA复制品,可用于商业应用,并为研究提供更透明的流程。完整的RedPajama包括了1.2万亿token的数据集,其下一步将着手开始进行大规模训练。这项工作还是非常值得期待,其开源地址是:

        https://github.com/togethercomputer/RedPajama-Data

        (更新于2023年5月7日)

        RedPajama更新了其训练模型文件,包括3B和7B两个参数量,其中3B可以在5年前发售的RTX2070游戏显卡上运行,弥补了LLaMa在3B上的空白。其模型地址为:

        https://huggingface.co/togethercomputer

        除了RedPajama,MosaicML推出MPT系列模型,其训练数据采用了RedPajama的数据,在各类性能评估中,7B模型与原版LLaMA旗鼓相当。其模型开源地址为:

        https://huggingface.co/mosaicml

        无论是RedPajama还是MPT,其同时也开源了对应的Chat版模型,这两个模型的开源为类ChatGPT商业化带来了巨大的推动。

        (更新于2023年6月1日)

        Falcon是对标LLaMA的有一个开放大模型底座,其拥有7B和40B两个参数量尺度,40B的性能号称超高65B的LLaMA。据了解,Falcon仍然采用GPT式的自回归解码器模型,但其在数据上下了大功夫,从公网上抓取内容构建好初始预训练数据集后,再使用CommonCrawl转储,进行大量过滤并进行大规模去重,最终得到一个由近5万亿个token组成的庞大预训练数据集。同时又加进了很多精选语料,包括研究论文和社交媒体对话等内容。但该项目的授权饱受争议,采用"半商业化"授权方式,在收益达到100万后开始有10%的商业费用。

        该项目开源地址是:https://huggingface.co/tiiuae

        (更新于2023年7月3日)

        原始的Falcon跟LLaMA一样对中文支持能力欠缺,“伶荔(Linly)”项目团队以Falcon模型为底,打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表,包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号,去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。

        该项目开源地址是:https://github.com/CVI-SZU/Linly

        (更新于2023年7月24日)

        原始的Falcon跟LLaMA一样对中文支持能力欠缺,“伶荔(Linly)”项目团队以Falcon模型为底,打造并开源了中文版Chinese-Falcon。该模型首先扩充大幅扩充了词表,包括了8701个常用汉字、jieba词表中前20000个中文高频词以及60个中文标点符号,去重后词表大小扩充为90046。在训练阶段分别采用50G语料和2T大规模数据进行训练。

        该项目开源地址是:https://github.com/CVI-SZU/Linly

stanford-alpaca

       斯坦福发布的alpaca(羊驼模型),是一个基于LLaMA-7B模型微调出一个新模型,其基本原理是让OpenAI的text-davinci-003模型以self-instruct方式生成52K指令样本,以此来微调LLaMA。该项目已将训练数据、生成训练数据的代码和超参数开源,模型文件尚未开源,以一天多达到5.6K星的关注度。该项工作由于成本低廉、数据易得,大受欢迎,也开启了低成本ChatGPT的效仿之路。其github地址为:

        https://github.com/tatsu-lab/stanford_alpaca

ChatLLaMA

       是由Nebuly+AI推出的基于人类反馈强化学习的LLaMA+AI聊天机器人的开源实现,它的技术路线类似 ChatGPT,该项目上线刚刚 2 天,狂揽 5.2K 星。其github地址是:

        https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama

       ChatLLaMA 训练过程算法实现主打比 ChatGPT 训练更快、更便宜,据说能快近15倍,主要特色有:

        完整的开源实现,允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务;

        LLaMA 架构更小,使得训练过程和推理速度更快,成本更低;

        内置了对 DeepSpeed ZERO 的支持,以加速微调过程;

        支持各种尺寸的 LLaMA 模型架构,用户可以根据自身偏好对模型进行微调。

OpenChatKit

        OpenChatKit由前OpenAI研究员所在的Together团队,以及LAION、Ontocord.ai团队共同打造。OpenChatKit包含200亿个参数,用GPT-3的开源版本GPT-NoX-20B进行微调。同时,不同ChatGPT的强化学习,OpenChatKit采用一个60亿参数的审核模型,对不合适或者是有害的信息进行过滤,确保生成内容的安全和质量。其github地址为:

        https://github.com/togethercomputer/OpenChatKit

BELLE

        基于 Stanford Alpaca ,实现基于Bloom、LLama的监督微调。Stanford Alpaca 的种子任务都是英语,收集的数据也都是英文,该开源项目是促进中文对话大模型开源社区的发展,针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。项目包含以下内容:

        175个中文种子任务

        生成数据的代码

       10M生成的数据,目前开源了1.5M、0.25M数学指令数据集和0.8M多轮任务对话数据集

        基于BLOOMZ-7B1-mt、LLama-7B优化后的模型

        github地址为:https://github.com/LianjiaTech/BELLE

alpaca-lora

        alpaca-lora是斯坦福大学的另一个巨作,其使用LoRA(low-rank adaptation)技术复现了Alpaca的结果,用了一个更加低成本的方法,只在一块RTX 4090显卡上训练5个小时得到了一个Alpaca水平相当的模型。而且,该模型可以在树莓派上运行。在该项目中,其使用了Hugging Face的PEFT来实现廉价高效的微调。PEFT 是一个库(LoRA 是其支持的技术之一),可以让你使用各种基于 Transformer的语言模型并使用LoRA对其进行微调,从而使得在一般的硬件上廉价而有效地微调模型。该项目github地址是:

        https://github.com/tloen/alpaca-lora

        尽管 Alpaca和alpaca-lora取得了较大的提升,但其种子任务都是英语,缺乏对中文的支持。一方面除了以上提到Belle收集到了大量的中文语料,另一方面基于alpaca-lora等前人工作,来自华中师范大学等机构的三位个人开发者开源的中文语言模型骆驼 (Luotuo),单卡就能完成训练部署。目前该项目释放了两个模型 luotuo-lora-7b-0.1、luotuo-lora-7b-0.3,还有一个模型在计划中。其github地址是:

        https://github.com/LC1332/Chinese-alpaca-lora

Dolly

        Dolly在Alpaca的启发下

View on GitHub
GitHub Stars2.0k
CategoryDevelopment
Updated3d ago
Forks196

Security Score

85/100

Audited on Apr 2, 2026

No findings