Patronus GLIDER : 用於評估文本、對話和RAG設置的通用評估模型

Patronus GLIDER

Patronus GLIDER

Patronus GLIDER

AI模型研究工具 #文本評估 #對話系統 #RAG評估 #多語言支持 #模型推理普通產品開源

簡介 :

Patronus GLIDER是一個經過微調的phi-3.5-mini-instruct模型，可以作為通用評估模型，根據用戶定義的標準和評分規則來評判文本、對話和RAG設置。該模型使用合成數據和領域適應數據進行訓練，覆蓋了183個指標和685個領域，包括金融、醫學等。模型支持的最大序列長度為8192個token，但經過測試可以支持更長的文本（高達12000個token）。

需求人群 :

目標受眾為需要對文本、對話和機器學習模型輸出進行評估的研究人員和開發者。該產品適合他們，因為它提供了一個靈活、多語言支持的評估工具，可以根據自定義的評分規則來評判文本和對話的質量，有助於提升模型的準確性和可靠性。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 46.6K

使用場景

使用GLIDER模型評估金融領域的對話系統輸出。

利用GLIDER模型對醫學領域的文本進行質量評分。

將GLIDER模型應用於教育領域的問答系統，以評估回答的準確性和相關性。

產品特色

支持多種語言，主要包括英語，也支持韓語、哈薩克語、印地語等多種語言。

基於用戶定義的評分規則進行文本評估。

支持長文本處理，經過測試可以處理高達12000個token的文本。

可以用於評估對話數據和RAG系統輸出。

提供了詳細的評分和推理輸出格式。

支持任意數量的輸入和輸出，數據結構靈活。

提供了模型推理的代碼示例，方便用戶快速開始使用。

使用教程

1. 訪問Hugging Face網站並導航到Patronus GLIDER模型頁面。

2. 根據需要評估的數據類型選擇合適的數據結構模板。

3. 定義pass criteria和rubric，這些將作為模型評估的依據。

4. 將數據填充到選定的模板中，並確保遵循模型的輸入格式要求。

5. 使用Hugging Face提供的pipeline代碼示例運行模型推理。

6. 分析模型輸出的結果，包括詳細推理、關鍵詞列表和最終評分。

7. 根據模型輸出調整pass criteria或rubric，以優化評估效果。

8. 將模型應用於實際的文本、對話或RAG系統評估任務中，以持續改進和優化。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase