发布时间:2024-02-01
点击次数: “大模型排位赛”权威榜单chatbot arena刷新:
谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。

然鹅,众多网友对此却表示“不服”、“不公平”。
原来,谷歌AI掌门人Jeff Dean透露,Bard性能大幅提升,是因为搭载了新版大模型——Gemini Pro-scale。

这也就意味着,打“排位赛”的Bard具备了联网功能。

网友的质疑正是围绕着这一点展开:
在同一个排行榜上混合在线和离线大模型,是极易引起误解的。

Hugging Face的“首席羊驼官”Omar Sanseviero也表示:
既然如此…我也可以向lmsys提交具有搜索功能的Mixtral吗?

面对种种质疑声,Imsys官方做出了回应,其中指出:
对于网友们最关心的被Bard超越的GPT-4是不联网版本的问题,Imsys表示“如果实时数据的接入能够提升用户体验,排行榜将予以体现”。
并且直接@了OpenAI和Bing以及微软高管Mikhail Parakhin,表示非常乐意在竞技场中加入GPT-4联网版或Bing Copilot。
最新消息是,OpenAI的最新模型gpt-4-0125-preview现已入驻竞技场,等待用户参与投票。

Chatbot Arena是一个大模型权威榜单,由UC伯克利研究人员主导的Imsys(Large Model Systems Organization)组织创建。
该排行榜采用匿名1V1battle的投票规则,基于Elo评级系统排名。
Machine Translation
聚合多个来源的AI翻译
49
查看详情
具体来说,投票页面如下,两个模型Model A和B均匿名,用户在提出多个问题后对模型的回答打分,总共有四个选项:A更好、B更好、A和B一样好,A和B都不好。

值得一提的是,如果在问答过程中,模型身份泄露,那么该投票作废。

根据当前榜单,竞技场中有56个大模型:

此前GPT-4凭借“遥遥领先”的评分,长期霸榜,然而新版Bard发布后,直接超越GPT-4的两个版本冲到了第二名,和第一名的GPT-4 Turbo只差34分:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

更详细一点,在所有没有平局的Model A对B的对决中,Model A获胜的比例如下:

还有每一对模型组合的单挑次数(无平局):

此外,Chatbot Arena排行榜还使用自助法对Elo评分估计进行1000次随机抽样,从而评估置信区间等。

单个模型相对于其他所有模型的平均胜率如下:

不过值得注意的是,Arena排行榜是实时的,Bard目前虽然排名第二,但总共只有3000多票。
相较而言,GPT-4 Turbo的票数已经达到了30000+,被超越的两个版本的票数也都是Bard的数倍。

而现在GPT-4最新版本已入场(虽然还没有在排行榜上更新),后续结果还要再坐等一波~
参考链接:https://twitter.com/lmsysorg/status/1752035632489300239。
以上就是GPT-4不服被Bard反超:最新模型已入场的详细内容,更多请关注其它相关文章!
# 自定义
# 东城网站搜索优化
# 门窗网站建设公司排行
# 偃师律师网站推广平台
# 周至网络营销怎么推广
# 推广场景营销
# seo2与乙醛
# 沧州网站建设哪家快速
# 网站微信推广方式
# 对于营销推广方法
# 秀屿区网站推广
# 怎么处理
# 榜上
# 重庆
# gpt-4
# 榜单
# 多个
# 的是
# 老照片
# 自己的
# 反超
# copilot
# gemini
# 谷歌ai
# hugging face
# bard
# 谷歌
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
MiracleVision视觉大模型上线时间
联想举办2025创新开放日,展出260余项算力及AI产品技术
微幼科技晨检机器人:幼儿园健康保障的新伙伴
多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
人工智能在交通领域的革新:智能解决方案彻底改变交通方式
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
十个AI算法常用库J*a版
中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
AI拉动PCB发展|行业发现
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
阿里达摩院向公众免费开放100项AI专利许可
Goodnotes 6推出,带来多项全新AI功能,让电子笔记更智能
给小朋友最好的科技礼物:乐天派桌面机器人
速途网络成立“人工智能专家委员会”5位中美博士加盟
OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观
微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持
网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6
智能公司为何纷纷投身机器人领域?
生成式AI与云结合,机遇与挑战并存
探索人工智能和物联网的动态融合
人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱
美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元
首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展
用AI技术点亮老照片:Deep Nostalgia带给照片新生动感
如何用Transformer BEV克服自动驾驶的极端情况?
机器人加速!稀土永磁也被带火,持续性如何?
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」
这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性
特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会
零数科技CTO兰春嘉:区块链与人工智能的结合点在数据
真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验
人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的
衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩
云鲸发布全新的扫拖机器人J4系列
尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器
彬州市第三届青少年机器人创新大赛成功举办
英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍
北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感
7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
常见的五个人工智能误解
Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器
令人震惊的特斯拉机器人
读创正式上线“读创AI聊”功能
Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”
AI数字人业务频频获点赞,谦寻积极引领示范作用
自然语言生成在智能家居设备中的应用