llm-colosseum
L
Llm Colosseum
簡介 :
llm-colosseum是一個創新的基準測試工具,它使用街霸3遊戲來評估大型語言模型(LLM)的即時決策能力。與傳統的基準測試不同,這個工具通過模擬實際遊戲場景來測試模型的快速反應、智能策略、創新思維、適應性和恢復力。
需求人群 :
該產品主要面向人工智能研究者和開發者,尤其是那些對語言模型的即時決策能力和遊戲AI感興趣的專業人士。它為評估和改進LLM提供了一個獨特的平臺。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 49.4K
使用場景
研究者使用llm-colosseum來測試和比較不同LLM的性能。
開發者利用該工具來訓練和優化自己的LLM模型。
教育機構將其作為教學案例,展示AI在複雜環境中的決策過程。
產品特色
即時對戰:LLM在街霸3中進行即時對戰,模擬真實遊戲環境。
智能決策:模型需要快速做出決策,以應對對手的攻擊。
多模型支持:支持OpenAI和Mistral等多種語言模型。
ELO評分系統:根據模型的對戰結果,使用ELO評分系統進行排名。
自定義模型:用戶可以創建自己的LLM模型並提交以加入排名。
環境適應性:模型需要根據當前的遊戲狀態(如角色的體力和能量條)來調整策略。
使用教程
1. 訪問llm-colosseum的GitHub頁面並克隆或下載項目。
2. 按照README中的說明安裝所需的依賴項。
3. 創建並配置.env文件,設置所需的環境變量。
4. 使用make run命令啟動街霸3對戰環境。
5. 觀察不同LLM模型的表現,並根據ELO評分了解它們的性能。
6. 如有需要,修改agent/robot.py文件中的Robot.call_llm()方法以自定義模型的行為。
7. 提交自定義模型的更改,並創建PR以加入到llm-colosseum的排名中。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase