大模型评测榜

  • 斯坦福大模型评测榜 Claude 3 排名第一

    尽管Massive Multitask Language Understanding(MMLU)基准测试备受关注,但模型创建者报告的MMLU分数经常以不一致或有问题的方式产生,这阻碍了它们的可比性。为了解决这个问题,我们引入了HELM MMLU,一个排行榜,展示了评估各种语言模型在MMLU上的结果。我们的评估结果包括简单和标准化的提示,每个57个主题的准确性分解,以及所有原始提…

    2024年6月24日