TigerBot

<p align="center" width="100%"> <img src="image/logo_core.png" alt="Tiger" style="width: 20%; display: block; margin: auto;"></img> </p> <p align="center"> <font face="黑体" color=orange size=5"> A cutting-edge foundation for your very own LLM. </font> </p> <p align="center"> <font face="黑体" color=orange size=5"> 以世界级的基础大模型，贡献于中国式的创新。 </font> </p> <p align="center"> 🌐 <a href="https://tigerbot.com/" target="_blank">TigerBot</a> • 🤗 <a href="https://huggingface.co/TigerResearch" target="_blank">Hugging Face</a> • 💻<a href="https://modelscope.cn/organization/TigerResearch" target="_blank">ModelScope</a> </p> <div align="center">

</div> <h4 align="left"> <p> <b>中文</b> | <a href="https://github.com/TigerResearch/TigerBot/blob/main/README_en.md">English</a> <p> </h4>

最新发布

[12/28/2024] 虎博TigerBot发布全球首个中文临床术语体系——MedCT (Medical Clinical Terminology)，以及相应的医疗NER模型和医疗基础模型，在中英文医疗NER任务中均取得新SOTA，同时发布真实临床标注数据。
- MedCT Github
- MedCT Huggingface
[06/01/2024] 虎博TigerBot产品升级：搜索模式(search augmented)增加信息源链接。

[03/18/2024] 虎博TigerBot升级，支持100K上下文长度 (70b and 13b chat) :fire: [models]；TigerBot医疗大模型被AAAI 2024 Spring Symposium on Clinical Foundation Models录取 [paper]。

# 可以根据实际硬件情况调整max_input/generate_length
export PYTHONPATH='./' ; export CUDA_VISIBLE_DEVICES=0 ; streamlit run apps/web_demo.py -- --model_path tigerbot-70b-chat-v6 --rope_scaling yarn --rope_factor 8 --max_input_length 37888 --max_generate_length 62112

[01/18/2024] 新一代的TigerBot基座模型训练了我们认为最大最高质量的中文数据。为了验证，我们做了个有趣的测试：我们让Tigerbot-70b-chat和GPT-4-Turbo对战40局成语接龙，各先出20局。每局中无法成功接龙成语者输（以权威成语词典为准），比分 Tigerbot:GPT-4 = 24:16。基于此，Tigerbot发布第一款基于大模型的小游戏[TigerBot成语接龙]，移动端扫如下二维码参与，有机会赢取顶配iPhone Pro Max. :fire:
- 大模型的生成能力、世界知识、和随机性可以增加文字类游戏的可玩性和知识性，
- 适合的prompt激发出大模型的底层知识，即完成的游戏引擎的开发，
- 前端设计好游戏的互动性和即时反馈便可完成一款可玩的小游戏。
<p align="center" width="100%"> <img src="image/tigerbot-idiom.jpg" alt="tigerbot-idiom" style="width: 30%; display: block; margin: auto;"> <img src="image/tigerbot-idiom2.jpg" alt="tigerbot-idiom2" style="width: 30%; display: block; margin: auto;"> <img src="image/tigerbot-idiom3.jpg" alt="tigerbot-idiom3" style="width: 30%; display: block; margin: auto;"> </p>
[12/29/2023] Tigerbot发表技术报告（arXiv preprint），分享我们在大模型狂飙和应用落地方面的一些技术细节和浅见 :fire: [paper]
[12/08/2023] Tigerbot family新版模型发布，bigger and better :fire: [模型下载][测评]
- Tigerbot-70b base (v2) and chat (v4)更新，chat模型综合能力比上一版提升19%；
- Tigerbot-13b base (v3) and chat (v5)更新，chat模型综合能力比上一版提升16%；
- Tigerbot-180b base and chat (v2)更新，base模型优于Bloom 7%, chat模型优于Bloomz/Bloomz-mt 20%；
- 训练数据：500B tokens预训练数据，知识截止到2023年8月。更多优质数据，包括：万卷，arXiv, 中文教科书，法律和专利等领域数据；
- 序列长度：70b-chat和13b-chat均推出4k长度训练版本，推理可外推到32k；
- 训练方法：预训练优化了TP/PP算法，对齐采用了grouped sft, rejection-sampling，dpo (稍后会分享技术报告)；
- 全线产品(web, app, 小程序)和api均升级到最新最强的Tigerbot-70b-chat-v4-4k，产品端增加了search (搜索增加) and document (文件增强) RAG功能。
[10/19/2023] Long(16k)-Tigerbot 发布
- Tigerbot-13/70B web/api接口支持16k-token长度（约为20k字符，或20页的pdf或word文档，paper类的可直接作为context输入）。
- 基于YaRN方法，推理时对RoPE表示进行“高频维度不变，低频维度插值”的方式外推，以达到处理长序列的目的。
- Tigerbot优化了TGI框架，为每个请求根据输入序列长度与最大生成序列长度单独计算cos/sin值，同时保证总长度不大于2048时的效果不变，因此API用户需要选择一个更合适的max_new_token参数，并且不同的max_new_token参数可能会导致不同的结果。
- Tigerbot后续将会在训练阶段继续优化对长序列的支持。
[9/27/2023] Tigerbot-70b-chat-api发布function calling功能: [tech report][tigerbot-api]
- {user prompt, functions def} --> TigerBot --> 3rd party API --> TigerBot --> natural answers with accurate results.
- Tigerbot训练并没有专门使用function calling类的结构化抽取数据，但已经呈现出不错的理解和抽取能力，所以我们相信经过领域数据微调，function calling的表现会接近生产可用。
[9/26/2023] Tigerbot-70b-chat(v3)和Tigerbot-13b-chat(v4)更新发布: [模型下载]
- smaller batch for finer-grained gradient updates, global_batch_size=66 (pretrain_gbs=1920, v2_gbs=240). 我们认为，在高质量数据的前提下，对齐微调的gbs可以到~100K tokens, 更dense的updates和更充分的steps，导致更低的loss（如下图train and validation loss）。
- 增加了高质量对其数据，更好的多样性、丰富度和格式；根据前期用户反馈，去除了原对齐数据中的一些已知脏数据和不符合自然用户习惯的prompts数据；
- 在10+项基准评测中，综合能力均超过上一版本和Llama-2，达到SOTA.
<div style="display: flex; justify-content: space-between;"> <img src="image/loss-70b-chat-v3.jpg" alt="tigerbot-70b-chat-v3 train loss" style="width: 40%; display: block; margin: auto;"> <img src="image/loss-70b-chat-v3-valid.jpg" alt="tigerbot-70b-chat-v3 validation loss" style="width: 40%; display: block; margin: auto;"> </div>
[9/15/2023] Tigerbot-70b-chat(v2)和Tigerbot-13b-chat(v3)更新发布: [模型下载]
- 用更少但更高质量的数据，约5M指令完成数据，覆盖100+任务类型，符合自然用户分布；
- 用10K人类标注数据进行多维度对齐，包括：事实性，创造性，丰富性，安全性和格式等；
- 在10+项基准评测中，中英文综合能力均超过上一版本和Llama-2，达到SOTA.
<p align="center" width="100%"> <img src="image/70b-chat-example.jpg" alt="tigerbot-70b-chat example" style="width: 80%; display: block; margin: auto;"> </p>
[9/06/2023] Tigerbot-70b发布，继续开源和免费商用: [paper][模型下载]: fire:
- Tigerbot-70b-base: 在Llama-2-70b的基础上继续预训练，模型综合能力在mmlu等10项主流基准测试中，优于Llama-2-70b，达到业内SOTA；
  - 用高质量的300 billion tokens的多语言数据,
  - 算法上使用了GQA, flash-attn, RoPE，holistic-training等技术,
  - 训练采用了tensor/pipeline-partition技术，计算效率达到Llama-2 paper中报告的SOTA;
- Tigerbot-70b-chat: 在Tigerbot-70b-base基础上，用20M指令完成数据进行sft，和10K人类标注的gold set进行rejection-sampling对齐；
- 同步开放Tigerbot-70b-chat-api，继续对教育和科研开发者免费。
<p align="center" width="100%"> <img src="image/next-tok-acc.jpg" alt="tigerbot 70b eval" style="width: 60%; display: block; margin: auto;"></a> <img src="image/loss-curve.jpg" alt="tigerbot loss curve" style="width: 30%; display: block; margin: auto;"></a> </p>
[8/25/2023] TigerBot更新13b-base模型: [模型下载][测评]
- TigerBot-13B-base: 增加了一倍训练数据，至600B tokens，定向增加了高质量中英文数学推理类和科学文献类数据，优化了中文网络数据的清洗（在格式、口语、知识性等方面）。在13项主流基准评测中，英文综合能力优于Llama-2-13b 5%，中文超30%。[测评]
- 开放了基于opencompass 的自动评测体系，以提倡reproducibility。[测评]
[8/21/2023] TigerBot更新发布7b和13b base/chat模型: [模型下载][测评]
- TigerBot-7B-base: 基于Llama-2-7B增量预训练300B tokens，补充了Llama-2不足的中文、代码和推理等数据，并使用holistic training（全局训练）方法；在13项中英文主流benchmark中，优于Llama-2-7B 33%，领先于国内外同等开源模型;
- TigerBot-7B-chat: 基于TigerBot-7B-base用20M涵盖多任务的数据进行指令微调（sft）和拒绝采样对齐（rs-hil）；在13项中英文主流benchmark中，优于Llama-2-7B-chat 29%，亦领先于国内外同等开源模型；
- TigerBot-13B-chat: 基于TigerBot-13B-base用20M涵盖多任务的数据进行指令微调（13b-v1用了5M数据)，并在中英文能力上做了更好的权衡；在13项中英文主流benchmark中，优于Llama-2-13B-chat 15%，领先于国内外同等开源模型;
- 以上tigerbot-api也同步更新 [tigerbot-api]。
[8/19/2023] TigerBot推理（tigerbot.com和tigerbot-api）启用 TGI，达到3x QPS和2x 响应速度。

https://github.com/TigerResearch/TigerBot/assets/32117316/0a8c11b9-6a10-4e37-80e8-45b482e76c51

[8/08/2023] TigerBot 2023.08 (V3) release: 虎博很高兴的发布TigerBot-13B大模型，在Llama-2的基础上以虎博积累的技术和数据继续训练，不但保持了Llama-2出色的英文能力，更是在中文能力上填补了Llama-2的不足，各项主流中文任务中超过Llama-2的49%，在开源同类模型中具有竞争力。: fire: [paper]
- TigerBot-13B-base: 基于Llama-2-13B继续预训练300B tokens，扩充了中文词表到60K vocabulary, 并采用holistic training在预训练中直接使模型具有九成的指令完成能力。在主流英文基准测试中超过Llama-2-13B-base的7%，在中文测试中综合能力超过Llama-2-13B-base的49%，在国内外主流开源基座模型中处于领先位置。[测评][模型下载]
- TigerBot-13B-chat: 基于TigerBot-13B-base用5M指令数据微调，并采用rejection sampling fine-tune对齐人类需求。在主流英文基准测试中达到Llama-2-13B-chat的101%，在中文测试中综合能力超过Llama-2-13B-chat的47%，在国内外主流开源模型中亦处于领先位置。chat模型可以通过python infer.py --model_path TigerResearch/tigerbot-13b-chat 使用。[测评][模型下载]
- TigerBot-API: chat和summarization api 将自动升级到TigerBot-13B-chat，对科研教育用户免费，对商用开发者保持价格不变。[tigerbot-api]
[8/03/2023] TigerBot 兼容 OpenAI 接口。[tigerbot-api]
[7/26/2023] TigerBot 开放 search-api [tigerbot-api]

[7/08/2023] TigerBot 2023.07 (V2) release [paper] :fire:
- tigerbot-7b-base (v2), 在 1.5TB 高质量数据上充分预训练（千卡耗时 4 周，算力成本～ 300 万），在中英文公开数据测评优于 bloom/llama 同等模型 15-30%；[测评][模型下载]
- tigerbot-7b-sft (v2), 在 base-v2 基础上微调的 sft-v2 在 2000 万/20G 高质量清洗和配比的数据上充分训练，在 9 项公开语料测评上优于 sft-v1 9.3%；[测评][模型下载]
  
  新模型可通过以下代码加载：
```
import transformers

# 下载过旧版的用户需要指定`force_download=True`避免使用旧版缓存
model_sft = transformers.AutoModelForCausalLM.from_pretrained('TigerResearch/tigerbot-7b-sft', force_download=True)
model_base = transformers.AutoModelForCausalLM.from_pretrained('TigerResearch/tigerbot-7b-base', force_download=True)
```
- tigerbot 开启搜索模式，对接主流中英文搜索引擎，和结构化工具（如天气，股市，计算器等），打开 LLM

TigerBot

Install / Use

README

TigerBot

最新发布