Llm Colosseum : 通過街霸3對戰評估大型語言模型

Llm Colosseum

簡介 :

llm-colosseum是一個創新的基準測試工具，它使用街霸3遊戲來評估大型語言模型（LLM）的即時決策能力。與傳統的基準測試不同，這個工具通過模擬實際遊戲場景來測試模型的快速反應、智能策略、創新思維、適應性和恢復力。

需求人群 :

該產品主要面向人工智能研究者和開發者，尤其是那些對語言模型的即時決策能力和遊戲AI感興趣的專業人士。它為評估和改進LLM提供了一個獨特的平臺。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 49.4K

使用場景

研究者使用llm-colosseum來測試和比較不同LLM的性能。

開發者利用該工具來訓練和優化自己的LLM模型。

教育機構將其作為教學案例，展示AI在複雜環境中的決策過程。

產品特色

即時對戰：LLM在街霸3中進行即時對戰，模擬真實遊戲環境。

智能決策：模型需要快速做出決策，以應對對手的攻擊。

多模型支持：支持OpenAI和Mistral等多種語言模型。

ELO評分系統：根據模型的對戰結果，使用ELO評分系統進行排名。

自定義模型：用戶可以創建自己的LLM模型並提交以加入排名。

環境適應性：模型需要根據當前的遊戲狀態（如角色的體力和能量條）來調整策略。

使用教程

1. 訪問llm-colosseum的GitHub頁面並克隆或下載項目。

2. 按照README中的說明安裝所需的依賴項。

3. 創建並配置.env文件，設置所需的環境變量。

4. 使用make run命令啟動街霸3對戰環境。

5. 觀察不同LLM模型的表現，並根據ELO評分了解它們的性能。

6. 如有需要，修改agent/robot.py文件中的Robot.call_llm()方法以自定義模型的行為。

7. 提交自定義模型的更改，並創建PR以加入到llm-colosseum的排名中。

精選AI產品推薦

智啟未來，您的人工智能解決方案智庫

直接訪問	51.61%	外鏈引薦	33.46%	郵件	0.04%
自然搜索	12.58%	社交媒體	2.19%	展示廣告	0.11%