对大型语言模型进行性能测试,通常需要从 模型能力 和 推理效率 这两个核心维度来衡量。一个全面的测试体系,需要结合衡量“智能”的学术基准与评估“速度”的系统指标。
这部分通过基准测试(Benchmark)来量化模型在特定任务上的表现,这些指标可以概括为“能力指标”。
语言理解与推理 (Knowledge & Reasoning):评估模型的世界知识储备和逻辑推理能力。
常见基准:MMLU、C-Eval、HellaSwag、ARC、WinoGrande、SuperGLUE。
核心指标:准确率(Accuracy)。
数学与编程 (Math & Coding):评估模型的符号推理和算法实现能力。
常见基准:GSM8K、MATH、HumanEval、MBPP、APPS。
核心指标:准确率、Pass@k(代码通过率)。
知识问答与对话 (QA & Dialogue):评估模型在信息检索和上下文理解方面的表现。
常见基准:SQuAD、DROP、MT-Bench。
核心指标:F1分数、精确匹配(EM)、ROUGE。
高级与专项能力 (Advanced & Specialized):
长上下文 (Long Context): Needle in a Haystack,评估模型在海量信息中的信息提取能力。
智能体 (Agentic): KAMI, AgentBench, ToolBench,评估模型作为“智能体”的计划和工具调用能力。
检索增强生成 (RAG): RGB, RAGAS,评估模型结合外部知识回答问题的能力。
多模态 (Multimodal): MME, MMBench,评估模型理解和处理图像、视频等不同类型数据的能力。
注意:模型在基准测试中的高准确率,不等于在真实业务场景中的高价值。因此,结合业务场景的定制化评估非常重要,例如统计任务完成率和成本效益比。
这部分聚焦于服务端的性能,指标通常分为延迟(Latency)、吞吐量(Throughput)和资源利用率(Resource Utilization)。
这些指标主要衡量响应速度,直接决定了用户体验。
首 Token 时间 (TTFT - Time to First Token):从发送请求到收到第一个输出 Token 的时间。对交互式应用(如聊天机器人)至关重要,过长的 TTFT 会严重影响实时感。
Token 间延迟 (ITL / TPOT - Time Per Output Token):生成后续每个 Token 所需的平均时间。主要影响流式输出的流畅度,决定了用户感知的“输出速度”。
端到端延迟 (E2E Latency):从发送请求到接收完整响应的时间。该指标综合反映了整个处理流程的性能,是评估用户体验的综合指标。
这些指标衡量服务端的处理能力和效率。
每秒 Token 数 (TPS - Tokens Per Second):系统每秒生成的总 Token 数。衡量原始吞吐能力,TPS 越高,意味着硬件资源被更充分地利用。
每秒请求数 (RPS - Requests Per Second):系统每秒处理的请求数。更贴合业务层的吞吐量概念,但在处理不同长度的请求时波动较大。
硬件利用率 (Hardware Utilization):GPU 利用率、显存占用、CPU 使用率等。识别硬件瓶颈,辅助容量规划,避免资源闲置或过载。
能耗效率 (Energy Efficiency):每 Token 能耗,单位通常是 Joules/Token。在边缘计算和绿色计算场景下尤为重要。
模型规模:参数量越大,推理所需算力通常越高。
序列长度:输入和输出文本越长,计算量和显存占用越高。
批处理(Batching):将多个请求合并处理可显著提升吞吐量,但会增加延迟。
硬件配置:GPU型号、显存大小、CPU、内存、网络等均是决定性因素。
软件优化:推理框架(如vLLM、TensorRT-LLM)、量化技术(如INT8、FP8)都会直接影响性能。
根据自己的测试目标,选择合适的工具可以事半功倍。
一站式解决方案,可同时评估模型的能力和效率,功能全面。
EvalScope:由ModelScope社区开发,支持多种模型(LLM、VLM),内置众多基准测试,并具备强大的性能压测能力(如TTFT、TPOT)。
LM-Evaluation-Harness:由EleutherAI开发,事实标准之一,支持超过60个学术基准测试,被Hugging Face Open LLM Leaderboard采用。
MLPerf:MLCommons的行业标准AI性能基准测试套件,最新版本MLPerf Inference v6.0增加了大语言模型基准,MLPerf Endpoints专用于评估API端点的GenAI性能。
Spark-LLM-Eval:基于Apache Spark构建的分布式评估框架,专为超大规模(百万级样本)的模型评估设计,并强调统计严谨性(如置信区间)。
One-Eval:创新的智能体式评估系统,可将自然语言的评估请求自动转化为可执行的评估工作流,大幅降低手动配置成本。
RAGPerf:专门为检索增强生成(RAG)系统设计的端到端基准测试框架。
LEAF (LLM Edge Assessment Framework):专门评估边缘端LLM性能的框架,综合考量性能、语义准确性和硬件可持续性(如能耗)。
专注于特定任务或架构的测试。
DeepEval:类似Pytest的LLM单元测试框架,提供50+种指标用于评估RAG、智能体等应用。
RAGAS:用于RAG(检索增强生成)管道评估的框架。
Promptfoo:跨模型提示词测试工具,支持90+模型(GPT、Claude、Gemini等),并提供67种安全攻击插件用于红队测试。
Giskard:专注于LLM安全与鲁棒性的测试框架,可扫描幻觉、提示注入漏洞、有害内容等,并生成可复现的测试套件。
NVIDIA NeMo Evaluator:NVIDIA的评估工具,支持学术基准和LLM-as-a-Judge等评估方法。
ArchBench:专门用于评估生成式AI在软件架构任务中能力的基准平台。
专注于性能压测和效率评估。
GenAI-Perf:NVIDIA开发的LLM推理性能基准测试工具,提供TTFT、ITL、TPS、RPS等关键指标。
LLM-Benchmark:开源的LLM并发性能测试工具,支持自动化压力测试,支持短文本和长文本场景。
Metron:提出“流畅性指数”(Fluidity-index)等创新指标,旨在更全面地评估实时交互体验。
vLLM Benchmarking Tools:vLLM推理引擎自带的基准测试工具。
K6:通用的性能测试工具,可通过跟踪HTTP请求中的定时事件来测量TTFT。
一个科学的测试流程通常包含以下几个步骤:
明确测试目标:是评估模型能力、选型,还是进行容量规划或性能调优?
选择合适指标:根据目标,从“能力”和“效率”两个维度中选取关键指标。
准备测试环境:配置硬件、模型服务框架和监控系统。
执行测试:依次进行单次请求的基准测试和模拟真实场景的压力测试。
分析结果与优化:
模型能力:分析在哪些任务上表现好/差,指导后续的微调或提示工程。
推理效率:对比不同负载下的性能,找出瓶颈(如显存、带宽、调度),进行针对性优化(如调整批处理大小、启用量化)。
回归测试:在CI/CD流程中建立自动化性能回归测试,当性能指标出现显著变化时触发告警