SkillAgentSearch skills...

Benchmark

AISBench Benchmark is a model evaluation tool built on OpenCompass, compatible with OpenCompass’s configuration system, dataset structure, and model backend implementation, while extending support for service-based models.

Install / Use

/learn @AISBench/Benchmark
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

<div align="center"> <br /> <br />

AISBench 评测工具

面向人工智能领域的测试基准工具

<!-- 用分隔线替代背景 -->

[![][github-release-shield]][github-release-link] [![][github-releasedate-shield]][github-releasedate-link] [![][github-contributors-shield]][github-contributors-link]<br> [![][github-forks-shield]][github-forks-link] [![][github-stars-shield]][github-stars-link] [![][github-issues-shield]][github-issues-link] License Ask DeepWiki <br><br> 🌐官方网站 | 📖工具文档 | 👨‍💻开发者文档 | 🔥最新进展| 🤔报告问题 <br><br>简体中文 | English

</div>

<span style="color: red;"><b>重要</b></span>

⭐️收藏项目,你将能第一时间获取 AISBench评测工具 的最新动态~

🔥 最新进展

  • [2026.3.10] 接入首个图像生成类评测基准GEdit-Bench, 支持对图像生成模型进行评测,详见在AISBench中测评GEdit-Bench。 🔥🔥🔥

  • [2026.3.1] 支持接入裁判模型进行评估,详见使用裁判模型进行测评。 🔥🔥🔥

  • [2026.1.31] 支持 Mooncake Trace trace 数据集性能测评,支持按时间戳调度请求、hash_id 缓存与可复现 prompt 生成,详见数据集 README。🔥🔥🔥

  • [2025.12.19] 🎉 AISBench 架构全面重构完成!

    • 架构升级:对cli、models、inferencer、tasks组件进行了全面重构,支持快速接入新的测试基准,参考📚 开发者文档了解详情!
    • 🖥️ 任务管理界面:全新的任务UI管理界面,支持同时监控每个任务的详细执行状态,包括任务名称、进度、时间成本、状态、日志路径、扩展参数等,让任务执行状态一目了然!
    • 并行执行增强:扩展了多任务并行功能,支持多个性能或精度测评任务并行执行,大幅提升评测效率!
    • 📊 新增15+测评基准:新增docvqa、infovqa、ocrbench_v2、omnidocbench、mmmu、mmmu_pro、mmstar、videomme、FewCLUE系列、dapo_math、leval等多模态和文本测评基准!
    • 🤖 新增模型支持:新增vllm/vllm-ascend VL 离线推理模型支持!
    • 🔧 功能增强:新增流式推理开关、自定义URL路径、API key配置;支持API模型推理warmup;支持自定义多模态数据集性能测评;部分数据集支持服务化PPL(困惑度)测评等多项功能!
    • 🏗️ 基础设施优化:重构local models和api models组件,统一流式和非流式实现;重构inferencer组件,采用多进程+协程调用方式,提高并发能力;测试结果数据格式优化为jsonl,降低IO压力;采用错误码统一管理错误信息等!
  • [2025.11.25] 支持服务化模型PPL(Perplexity-based,困惑度)模式精度测评。🔥🔥🔥

  • [2025.9.08] 支持📚模拟真实业务流量:通过控制请求发送速率波动,感知在模拟真实场景下服务化的性能测评结果!🔥🔥🔥

  • [2025.8.28] 支持📚多次独立重复推理精度场景,计算pass@k/cons@k/avg@n等不同维度的精度指标!🔬🔬🔬

  • [2025.8.19]

  • [2025.7.15]

  • [2025.6.19] 支持📚性能评测结果可视化,辅助定位推理服务性能瓶颈!🔥🔥🔥

  • [2025.6.12] 支持textvqavideobenchvocalsound等多模态数据集的精度和性能评测!🔥🔥🔥

  • [2025.6.6] AISBench支持稳态性能评测,获取系统真实最佳性能,参考📚 服务化稳定状态性能测试进行快速上手! 🔥🔥🔥

  • [2025.5.16] 支持3W+高并发服务化性能评测,📚 性能指标对齐🔗 vllm benchmark,参考📚 服务化性能测评指南了解详情!🔥🔥🔥

  • [2025.4.30] 精度评测支持断点续测和失败用例重测,大幅提高精度评测鲁棒性,参考📚 中断续测 & 失败用例重测进行快速上手! 🔥🔥🔥

  • [2025.4.15] 优化固定batch发送请求的方式为continuous batch模式发送请求,大幅提高精度评测效率! 🔥🔥🔥

  • [2025.4.12] 支持合并MMLU、Ceval等所有多文件数据集为单个数据集任务进行精度评测,参考📚 合并多文件数据集了解详情! 🔥🔥🔥

🌏 简介

AISBench Benchmark 是基于 OpenCompass 构建的模型评测工具,兼容 OpenCompass 的配置体系、数据集结构与模型后端实现,并在此基础上扩展了对服务化模型的支持能力。

当前,AISBench 支持两大类推理任务的评测场景:

🔍 精度测评:支持对服务化模型和本地模型在各类问答、推理基准数据集上的精度验证,覆盖文本、多模态等多种场景。

🚀 性能测评:支持对服务化模型的延迟与吞吐率评估,并可进行压测场景下的极限性能测试,支持稳态性能评测和真实业务流量模拟。

🛠️ 工具安装

✅ 环境要求

Python 版本:仅支持 Python 3.103.113.12

不支持 Python 3.9 及以下版本,也不兼容 Python 3.13 及以上版本

推荐使用 Conda 管理环境,以避免依赖冲突

conda create --name ais_bench python=3.10 -y
conda activate ais_bench

📦 安装方式(源码安装)

AISBench 当前仅提供源码安装方式,请确保安装环境联网:

git clone https://github.com/AISBench/benchmark.git
cd benchmark/
pip3 install -e ./ --use-pep517

该命令会自动安装核心依赖。 执行ais_bench -h,如果打印出AISBench评测工具的所有命令行的帮助信息,说明安装成功

⚙️ 服务化框架支持(可选)

若需评估服务化模型(如 vLLM、Triton 等),需额外安装相关依赖:

pip3 install -r requirements/api.txt
pip3 install -r requirements/extra.txt

⚙️ Huggingface多模态模型/vllm多模态离线推理支持(可选)

pip3 install -r requirements/hf_vl_dependency.txt

🔗 Berkeley Function Calling Leaderboard (BFCL) 测评支持

pip3 install -r requirements/datasets/bfcl_dependencies.txt --no-deps

重要提示:由于 bfcl_eval 会自动安装 pathlib 库,而 Python 3.5+ 环境已内置该库,为避免版本冲突,请务必使用 --no-deps 参数跳过额外依赖的自动安装。

🔗 OCRBench_v2数据集测评支持(可选)

pip3 install -r requirements/datasets/ocrbench_v2.txt

如需进一步配置、使用 CLI 或 Python 脚本发起评测任务,请参考快速入门指南

❌ 工具卸载

如需卸载 AISBench Benchmark,可执行以下命令:

pip3 uninstall ais_bench_benchmark

🚀 快速入门

命令含义

AISBench命令执行的单个或多个评测任务是由模型任务(单个或多个)、数据集任务(单个或多个)和结果呈现任务(单个)的组合定义的,AISBench的其他命令行则规定了评测任务的场景(精度评测场景、性能评测场景等)。以如下AISBench命令为例:

ais_bench --models vllm_api_general_chat --datasets demo_gsm8k_gen_4_shot_cot_chat_prompt --summarizer example

此命令没有指定其他命令行,默认是一个精度评测场景的任务,其中:

  • --models指定了模型任务,即vllm_api_general_chat模型任务。

  • --datasets指定了数据集任务,即demo_gsm8k_gen_4_shot_cot_chat_prompt数据集任务。

  • --summarizer指定了结果呈现任务,即example结果呈现任务(不指定--summarizer精度评测场景默认使用example任务),一般使用默认,不需要在命令行中指定,后续命令不指定。

多任务测评请参考:📚 精度场景的多任务测评 和 性能场景的多任务测评

如需自行组合测评任务,实现更灵活的测评方式,可参考:📚 自定义配置文件运行AISBench

任务含义查询(可选)

所选模型任务vllm_api_general_chat、数据集任务demo_gsm8k_gen_4_shot_cot_chat_prompt和结果呈现任务example的具体信息(简介,使用约束等)可以分别从如下链接中查询含义:

运行命令前置准备

  • --models: 使用vllm_api_general_chat模型任务,需要准备支持v1/chat/completions子服务的推理服务,可以参考🔗 VLLM启动OpenAI 兼容服务器启动推理服务
  • --datasets: 使用demo_gsm8k_gen_4_shot_cot_chat_prompt数据集任务,需要准备gsm8k数据集,可以从🔗 opencompass 提供的gsm8k数据集压缩包下载。将解压后的gsm8k/文件夹部署到AISBench评测工具根路径下的ais_bench/datasets文件夹下。

任务对应配置文件修改

每个模型任务、数据集任务和结果呈现任务都对应一个配置文件,运行命令前需要修改这些配置文件的内容。这些配置文件路径可以通过在原有AISBench命令基础上加上--search来查询,例如:

ais_bench --models vllm_api_general_chat --datasets demo_gsm8k_gen_4_shot_cot_chat_prompt --search

⚠️ 注意: 执行带search命令会打印出任务对应的配置文件的绝对路径。

执行查询命令可以得到如下查询结果:

╒══════════════╤═══════════════════════════════════════╤════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╕
│ Task Type    │ Task Name                             │ Config File Path                                                                                                               │
╞══════════════╪═══════════════════════════════════════╪════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╡
│ --models     │ vllm_api_general_chat                 │ /your_workspace/benchmark/ais_bench/benchmark/configs/models/vllm_api/vllm_api_general_chat.py                                 │
├──────────────┼───────────────────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ --datasets   │ demo_gsm8k_gen_4_shot_cot_chat_prompt │ /your_workspace/benchmark/ais_bench
View on GitHub
GitHub Stars53
CategoryCustomer
Updated22h ago
Forks21

Languages

Python

Security Score

95/100

Audited on Apr 1, 2026

No findings