Chatbot Arena:主要针对主流几个开源模型进行测评(目前很多模型还没纳入进来)
网址:https://chat.lmsys.org/
测评系统:随你给你模型两两比对进行打分。
PS:Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动;Elo 评分越高,越厉害。
battle界面⬆️
– Google PaLM 2和其他聊天机器人已加入竞技场。
– 基于匿名投票数据的新Elo评分排行榜已发布。
– GPT-4目前排名第一。
– PaLM 2在调节、多语言能力和推理能力方面存在缺陷。
– 小型模型如vicuna-7B和mpt-7b-chat具有竞争力。
– Claude-instant-v1是Claude-v1的低成本替代品。
– 当前的竞技场在反映聊天机器人的长尾能力差异方面存在局限性。
– 正在设计一种新的比赛机制,使用专家设计的问题和评委来检查聊天机器人。
来源:https://mp.weixin.qq.com/s/QD_AHY0A9NCs5jzCwbAsKA
本文地址:https://www.163264.com/3600