400 128 6709

行业新闻

GPT-4不服被Bard反超:最新模型已入场

发布时间:2024-02-01点击次数:

“大模型排位赛”权威榜单chatbot arena刷新:

谷歌Bard超越GPT-4,排名位居第二,仅次于GPT-4 Turbo。

GPT-4不服被Bard反超:最新模型已入场

然鹅,众多网友对此却表示“不服”、“不公平”。

原来,谷歌AI掌门人Jeff Dean透露,Bard性能大幅提升,是因为搭载了新版大模型——Gemini Pro-scale。

GPT-4不服被Bard反超:最新模型已入场

这也就意味着,打“排位赛”的Bard具备了联网功能。

GPT-4不服被Bard反超:最新模型已入场

网友的质疑正是围绕着这一点展开:

在同一个排行榜上混合在线和离线大模型,是极易引起误解的。

GPT-4不服被Bard反超:最新模型已入场

Hugging Face的“首席羊驼官”Omar Sanseviero也表示:

既然如此…我也可以向lmsys提交具有搜索功能的Mixtral吗?

GPT-4不服被Bard反超:最新模型已入场

面对种种质疑声,Imsys官方做出了回应,其中指出:

  • Arena排行榜是实时的,大家如有疑问,可在Arena中直接比较模型并投票;
  • 投票数据公开透明,还会即将发布关于用户提示多样性和投票质量的研究以及相应的数据集;

对于网友们最关心的被Bard超越的GPT-4是不联网版本的问题,Imsys表示“如果实时数据的接入能够提升用户体验,排行榜将予以体现”。

并且直接@了OpenAI和Bing以及微软高管Mikhail Parakhin,表示非常乐意在竞技场中加入GPT-4联网版或Bing Copilot。

最新消息是,OpenAI的最新模型gpt-4-0125-preview现已入驻竞技场,等待用户参与投票。

GPT-4不服被Bard反超:最新模型已入场

Bard超越GPT-4是怎么回事?

Chatbot Arena是一个大模型权威榜单,由UC伯克利研究人员主导的Imsys(Large Model Systems Organization)组织创建。

该排行榜采用匿名1V1battle的投票规则,基于Elo评级系统排名。

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

具体来说,投票页面如下,两个模型Model A和B均匿名,用户在提出多个问题后对模型的回答打分,总共有四个选项:A更好、B更好、A和B一样好,A和B都不好。

GPT-4不服被Bard反超:最新模型已入场

值得一提的是,如果在问答过程中,模型身份泄露,那么该投票作废。

GPT-4不服被Bard反超:最新模型已入场

根据当前榜单,竞技场中有56个大模型:

GPT-4不服被Bard反超:最新模型已入场

此前GPT-4凭借“遥遥领先”的评分,长期霸榜,然而新版Bard发布后,直接超越GPT-4的两个版本冲到了第二名,和第一名的GPT-4 Turbo只差34分:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4不服被Bard反超:最新模型已入场

更详细一点,在所有没有平局的Model A对B的对决中,Model A获胜的比例如下:

GPT-4不服被Bard反超:最新模型已入场

还有每一对模型组合的单挑次数(无平局)

GPT-4不服被Bard反超:最新模型已入场

此外,Chatbot Arena排行榜还使用自助法对Elo评分估计进行1000次随机抽样,从而评估置信区间等。

GPT-4不服被Bard反超:最新模型已入场

单个模型相对于其他所有模型的平均胜率如下:

GPT-4不服被Bard反超:最新模型已入场

不过值得注意的是,Arena排行榜是实时的,Bard目前虽然排名第二,但总共只有3000多票。

相较而言,GPT-4 Turbo的票数已经达到了30000+,被超越的两个版本的票数也都是Bard的数倍。

GPT-4不服被Bard反超:最新模型已入场

而现在GPT-4最新版本已入场(虽然还没有在排行榜上更新),后续结果还要再坐等一波~

参考链接:https://twitter.com/lmsysorg/status/1752035632489300239。

以上就是GPT-4不服被Bard反超:最新模型已入场的详细内容,更多请关注其它相关文章!


# 自定义  # 东城网站搜索优化  # 门窗网站建设公司排行  # 偃师律师网站推广平台  # 周至网络营销怎么推广  # 推广场景营销  # seo2与乙醛  # 沧州网站建设哪家快速  # 网站微信推广方式  # 对于营销推广方法  # 秀屿区网站推广  # 怎么处理  # 榜上  # 重庆  # gpt-4  # 榜单  # 多个  # 的是  # 老照片  # 自己的  # 反超  # copilot  # gemini  # 谷歌ai  # hugging face  # bard  # 谷歌 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: MiracleVision视觉大模型上线时间  联想举办2025创新开放日,展出260余项算力及AI产品技术  微幼科技晨检机器人:幼儿园健康保障的新伙伴  多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  十个AI算法常用库J*a版  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代  AI拉动PCB发展|行业发现  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  阿里达摩院向公众免费开放100项AI专利许可  Goodnotes 6推出,带来多项全新AI功能,让电子笔记更智能  给小朋友最好的科技礼物:乐天派桌面机器人  速途网络成立“人工智能专家委员会”5位中美博士加盟  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  智能公司为何纷纷投身机器人领域?  生成式AI与云结合,机遇与挑战并存  探索人工智能和物联网的动态融合  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  用AI技术点亮老照片:Deep Nostalgia带给照片新生动感  如何用Transformer BEV克服自动驾驶的极端情况?  机器人加速!稀土永磁也被带火,持续性如何?  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  特斯拉人形机器人将于 7 月亮相上海 2025 世界人工智能大会  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的  衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩  云鲸发布全新的扫拖机器人J4系列  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  彬州市第三届青少年机器人创新大赛成功举办  英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感  7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  常见的五个人工智能误解  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  令人震惊的特斯拉机器人  读创正式上线“读创AI聊”功能  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  AI数字人业务频频获点赞,谦寻积极引领示范作用  自然语言生成在智能家居设备中的应用 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司