Patronus GLIDER
P
Patronus GLIDER
簡介 :
Patronus GLIDER是一個經過微調的phi-3.5-mini-instruct模型,可以作為通用評估模型,根據用戶定義的標準和評分規則來評判文本、對話和RAG設置。該模型使用合成數據和領域適應數據進行訓練,覆蓋了183個指標和685個領域,包括金融、醫學等。模型支持的最大序列長度為8192個token,但經過測試可以支持更長的文本(高達12000個token)。
需求人群 :
目標受眾為需要對文本、對話和機器學習模型輸出進行評估的研究人員和開發者。該產品適合他們,因為它提供了一個靈活、多語言支持的評估工具,可以根據自定義的評分規則來評判文本和對話的質量,有助於提升模型的準確性和可靠性。
總訪問量: 29.7M
佔比最多地區: US(17.94%)
本站瀏覽量 : 46.4K
使用場景
使用GLIDER模型評估金融領域的對話系統輸出。
利用GLIDER模型對醫學領域的文本進行質量評分。
將GLIDER模型應用於教育領域的問答系統,以評估回答的準確性和相關性。
產品特色
支持多種語言,主要包括英語,也支持韓語、哈薩克語、印地語等多種語言。
基於用戶定義的評分規則進行文本評估。
支持長文本處理,經過測試可以處理高達12000個token的文本。
可以用於評估對話數據和RAG系統輸出。
提供了詳細的評分和推理輸出格式。
支持任意數量的輸入和輸出,數據結構靈活。
提供了模型推理的代碼示例,方便用戶快速開始使用。
使用教程
1. 訪問Hugging Face網站並導航到Patronus GLIDER模型頁面。
2. 根據需要評估的數據類型選擇合適的數據結構模板。
3. 定義pass criteria和rubric,這些將作為模型評估的依據。
4. 將數據填充到選定的模板中,並確保遵循模型的輸入格式要求。
5. 使用Hugging Face提供的pipeline代碼示例運行模型推理。
6. 分析模型輸出的結果,包括詳細推理、關鍵詞列表和最終評分。
7. 根據模型輸出調整pass criteria或rubric,以優化評估效果。
8. 將模型應用於實際的文本、對話或RAG系統評估任務中,以持續改進和優化。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase