用于衡量大型语言模型性能的指标与我们在更传统的模型中使用的指标截然不同。我们正在从准确度、F1 分数或召回率等指标转向 BLEU、ROUGE 或 METEOR 等指标。
但是,使用大型语言模型评估应用程序远远超出了指标的范围。这就是为什么我们将分析其他技术和工具,例如 LangSmith 或使用其他语言模型进行评估。
4-1 基于 n-Grams 的指标 #
这些指标针对分配给语言模型的特定任务量身定制。
在本节中,我们将探讨这些指标中的几个示例,以及如何使用它们来确定一个模型是否优于另一个模型来完成给定任务。我们将深入研究实际场景,在这些场景中,这些指标可帮助我们就不同模型的性能做出明智的决策。
4-2 使用 BLEU 评估翻译 #
Bleu 是首批建立的用于评估翻译质量的指标之一。在笔记本中,我们将谷歌翻译的质量与 Hugging Face 开源模型的其他翻译质量进行比较。
4-3 使用 ROUGE 评估摘要 #
我们将探索使用 ROUGE 指标来衡量语言模型生成的摘要的质量。我们将使用两个 T5 模型,其中一个是 t5-Base 模型,另一个是专门为创建摘要而设计的经过微调的 t5-base。
4-4 使用 LangSmith 监控、测试和评估 LLM #
4-4-1 使用 LangSmith 监控代理。 #
在这个初始示例中,您可以观察如何使用 LangSmith 监控组成代理的各个组件之间的流量。代理是一个 RAG 系统,它利用矢量数据库构建丰富的提示并将其传递给模型。 LangSmith 捕获了 Agent 工具的使用情况和模型做出的决策,在真正用户友好的环境中随时提供有关发送/接收数据、消耗的令牌、查询持续时间以及所有这些的信息。
4-4-2 使用 LangSmith 的嵌入距离评估摘要的质量 #
之前在笔记本 Rouge Metrics:评估摘要中,我们学习了如何使用 ROUGE 来评估哪个摘要最接近人类创建的摘要。这次,我们将使用嵌入距离和 LangSmith 来验证哪个模型生成的摘要更类似于参考摘要。
4-5 使用大型语言模型评估大型语言模型 #
在课程中,您已经看到了使用大型语言模型进行评估或审核的几个示例。现在,您将看到一个基于使用大型语言模型进行评估的库:giskard。
4-6 使用 Giskard 评估 RAG 解决方案 #
我们采用充当医疗助理的代理,并结合 Giskard 来评估其响应是否正确。这样,不仅可以评估模型的响应,还可以评估向量数据库中的信息检索。Giskard 是一种允许评估完整 RAG 解决方案的解决方案。