Patronus GLIDER : 用于评估文本、对话和RAG设置的通用评估模型

Patronus GLIDER

Patronus GLIDER

Patronus GLIDER

AI模型研究工具 #文本评估 #对话系统 #RAG评估 #多语言支持 #模型推理普通产品开源

简介 :

Patronus GLIDER是一个经过微调的phi-3.5-mini-instruct模型，可以作为通用评估模型，根据用户定义的标准和评分规则来评判文本、对话和RAG设置。该模型使用合成数据和领域适应数据进行训练，覆盖了183个指标和685个领域，包括金融、医学等。模型支持的最大序列长度为8192个token，但经过测试可以支持更长的文本（高达12000个token）。

需求人群 :

目标受众为需要对文本、对话和机器学习模型输出进行评估的研究人员和开发者。该产品适合他们，因为它提供了一个灵活、多语言支持的评估工具，可以根据自定义的评分规则来评判文本和对话的质量，有助于提升模型的准确性和可靠性。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 48.9K

使用场景

使用GLIDER模型评估金融领域的对话系统输出。

利用GLIDER模型对医学领域的文本进行质量评分。

将GLIDER模型应用于教育领域的问答系统，以评估回答的准确性和相关性。

产品特色

支持多种语言，主要包括英语，也支持韩语、哈萨克语、印地语等多种语言。

基于用户定义的评分规则进行文本评估。

支持长文本处理，经过测试可以处理高达12000个token的文本。

可以用于评估对话数据和RAG系统输出。

提供了详细的评分和推理输出格式。

支持任意数量的输入和输出，数据结构灵活。

提供了模型推理的代码示例，方便用户快速开始使用。

使用教程

1. 访问Hugging Face网站并导航到Patronus GLIDER模型页面。

2. 根据需要评估的数据类型选择合适的数据结构模板。

3. 定义pass criteria和rubric，这些将作为模型评估的依据。

4. 将数据填充到选定的模板中，并确保遵循模型的输入格式要求。

5. 使用Hugging Face提供的pipeline代码示例运行模型推理。

6. 分析模型输出的结果，包括详细推理、关键词列表和最终评分。

7. 根据模型输出调整pass criteria或rubric，以优化评估效果。

8. 将模型应用于实际的文本、对话或RAG系统评估任务中，以持续改进和优化。

精选AI产品推荐

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase