Chatbot Arena:大型语言模型 (LLM) 评级平台(附最新排行榜)

Chatbot Arena:主要针对主流几个开源模型进行测评(目前很多模型还没纳入进来)

网址:https://chat.lmsys.org/

测评系统:随你给你模型两两比对进行打分。

PS:Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动;Elo 评分越高,越厉害。

Chatbot Arena:大型语言模型 (LLM) 评级平台(附最新排行榜)

battle界面⬆️

Chatbot Arena:大型语言模型 (LLM) 评级平台(附最新排行榜)

– Google PaLM 2和其他聊天机器人已加入竞技场。

– 基于匿名投票数据的新Elo评分排行榜已发布。

– GPT-4目前排名第一。

– PaLM 2在调节、多语言能力和推理能力方面存在缺陷。

– 小型模型如vicuna-7B和mpt-7b-chat具有竞争力。

– Claude-instant-v1是Claude-v1的低成本替代品。

– 当前的竞技场在反映聊天机器人的长尾能力差异方面存在局限性。

– 正在设计一种新的比赛机制,使用专家设计的问题和评委来检查聊天机器人。

Chatbot Arena:大型语言模型 (LLM) 评级平台(附最新排行榜)

Chatbot Arena:大型语言模型 (LLM) 评级平台(附最新排行榜)

来源:https://mp.weixin.qq.com/s/QD_AHY0A9NCs5jzCwbAsKA

本文地址:https://www.163264.com/3600

(0)
上一篇 2023年5月26日 下午9:40
下一篇 2023年5月26日 下午11:27

相关推荐