Patronus GLIDER
P
Patronus GLIDER
简介 :
Patronus GLIDER是一个经过微调的phi-3.5-mini-instruct模型,可以作为通用评估模型,根据用户定义的标准和评分规则来评判文本、对话和RAG设置。该模型使用合成数据和领域适应数据进行训练,覆盖了183个指标和685个领域,包括金融、医学等。模型支持的最大序列长度为8192个token,但经过测试可以支持更长的文本(高达12000个token)。
需求人群 :
目标受众为需要对文本、对话和机器学习模型输出进行评估的研究人员和开发者。该产品适合他们,因为它提供了一个灵活、多语言支持的评估工具,可以根据自定义的评分规则来评判文本和对话的质量,有助于提升模型的准确性和可靠性。
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 48.9K
使用场景
使用GLIDER模型评估金融领域的对话系统输出。
利用GLIDER模型对医学领域的文本进行质量评分。
将GLIDER模型应用于教育领域的问答系统,以评估回答的准确性和相关性。
产品特色
支持多种语言,主要包括英语,也支持韩语、哈萨克语、印地语等多种语言。
基于用户定义的评分规则进行文本评估。
支持长文本处理,经过测试可以处理高达12000个token的文本。
可以用于评估对话数据和RAG系统输出。
提供了详细的评分和推理输出格式。
支持任意数量的输入和输出,数据结构灵活。
提供了模型推理的代码示例,方便用户快速开始使用。
使用教程
1. 访问Hugging Face网站并导航到Patronus GLIDER模型页面。
2. 根据需要评估的数据类型选择合适的数据结构模板。
3. 定义pass criteria和rubric,这些将作为模型评估的依据。
4. 将数据填充到选定的模板中,并确保遵循模型的输入格式要求。
5. 使用Hugging Face提供的pipeline代码示例运行模型推理。
6. 分析模型输出的结果,包括详细推理、关键词列表和最终评分。
7. 根据模型输出调整pass criteria或rubric,以优化评估效果。
8. 将模型应用于实际的文本、对话或RAG系统评估任务中,以持续改进和优化。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase