RULER
R
RULER
简介 :
RULER 是一种新的合成基准,为长文本语言模型提供了更全面的评估。它扩展了普通检索测试,涵盖了不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型,并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性,但在上下文长度增加时,它们表现得非常差。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度为 32K 时表现得相当不错。我们公开源 RULER,以促进对长文本语言模型的全面评估。
需求人群 :
教育、科研
总访问量: 29.7M
占比最多地区: US(17.94%)
本站浏览量 : 74.2K
使用场景
在长文本中查找信息
多跳跟踪信息
在长文本中进行聚合
产品特色
长文本语言模型测试
多跳跟踪
聚合
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase