llm-colosseum
L
Llm Colosseum
简介 :
llm-colosseum是一个创新的基准测试工具,它使用街霸3游戏来评估大型语言模型(LLM)的实时决策能力。与传统的基准测试不同,这个工具通过模拟实际游戏场景来测试模型的快速反应、智能策略、创新思维、适应性和恢复力。
需求人群 :
该产品主要面向人工智能研究者和开发者,尤其是那些对语言模型的实时决策能力和游戏AI感兴趣的专业人士。它为评估和改进LLM提供了一个独特的平台。
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 52.2K
使用场景
研究者使用llm-colosseum来测试和比较不同LLM的性能。
开发者利用该工具来训练和优化自己的LLM模型。
教育机构将其作为教学案例,展示AI在复杂环境中的决策过程。
产品特色
实时对战:LLM在街霸3中进行实时对战,模拟真实游戏环境。
智能决策:模型需要快速做出决策,以应对对手的攻击。
多模型支持:支持OpenAI和Mistral等多种语言模型。
ELO评分系统:根据模型的对战结果,使用ELO评分系统进行排名。
自定义模型:用户可以创建自己的LLM模型并提交以加入排名。
环境适应性:模型需要根据当前的游戏状态(如角色的体力和能量条)来调整策略。
使用教程
1. 访问llm-colosseum的GitHub页面并克隆或下载项目。
2. 按照README中的说明安装所需的依赖项。
3. 创建并配置.env文件,设置所需的环境变量。
4. 使用make run命令启动街霸3对战环境。
5. 观察不同LLM模型的表现,并根据ELO评分了解它们的性能。
6. 如有需要,修改agent/robot.py文件中的Robot.call_llm()方法以自定义模型的行为。
7. 提交自定义模型的更改,并创建PR以加入到llm-colosseum的排名中。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase