大模型评测榜

模型框架

斯坦福大模型评测榜 Claude 3 排名第一

尽管Massive Multitask Language Understanding（MMLU）基准测试备受关注，但模型创建者报告的MMLU分数经常以不一致或有问题的方式产生，这阻碍了它们的可比性。为了解决这个问题，我们引入了HELM MMLU，一个排行榜，展示了评估各种语言模型在MMLU上的结果。我们的评估结果包括简单和标准化的提示，每个57个主题的准确性分解，以及所有原始提…

2024年6月24日