发布时间:2024-06-04
点击次数: 
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
如何突破 transformer 的 attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vheat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于attention机制的视觉模型, vheat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。
当使用vHeat-base+%E6%A8%A1%E5%9E%8B进行高分辨率图像输入时,通过put、GPU显存占用、flops分别是Swin-base+%E6%A8%A1%E5%9E%8B的3倍、1/4、3/4。在图像分类、目标检测、语义/实例分割等基础下游任务上达到了先进的性能表现。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址: https://arxiv.org/pdf/2405.16555
代码地址: https://github.com/MzeroMiko/vHeat
论文标题:vHeat: Building Vision Models upon Heat Conduction
Overview
当前最主流的两类基础视觉模型是CNN和视觉Transformer(ViT)。然而,CNN的性能表现受限于局部感受野和固定的卷积核算子。ViT 具有全局依赖关系的表征能力,然而代价是高昂的二次范数计算复杂度。我们认为 CNN 和 ViT 的卷积算子和自注意力算子都是特征内部的像素传递过程,分别是一种信息传递的形式,这也让我们联想到了物理领域的热传导。于是我们根据热传导方程,将视觉语义的空间传播和物理热传导建立联系,提出了一种 1.5 次方计算复杂度的视觉传导算子(Heat Conduction Operator, HCO),进而设计出了一种兼具低复杂度、全局感受野、物理可解释性的视觉表征模型 vHeat。HCO 与 self-attention 的计算形式和复杂度对比如下图所示。实验证明了 vHeat 在各种视觉任务中表现优秀。例如,vHeat-T 在 ImageNet-1K 上达到了 82.2% 的分类准确率,比 Swin-T 高 0.9%,比 ViM-S 高 1.7%。性能之外,vHeat 还拥有高推理速度、低 GPU 显存占用和低 FLOPs 这些优点。在输入图像分辨率较高时,base 规模的 vHeat 模型相比于 Swin 只多吞吐量1/3、1/4 的GPU显存占用和 3/4 的 FLOPs。

方法介绍
用
表示点
在 t 时刻下的温度, 物理热传导方程为
,其中 k>0,表示热扩散率。给定 t=0 时刻下的初始条件
,该热传导方程可以采用傅里叶变换求得通解,表示如下:

其中
和
分别表示傅里叶变换和逆傅里叶变换,
表示频域空间坐标。
我们利用 HCO 来实现视觉语义中的热传导,先将物理热传导方程中的
扩展为多通道特征
,将
视为输入,
视为输出,HCO 模拟了离散化形式的热传导通解,如下公式所示:

其中
和
分别表示二维离散余弦变换和逆变换,HCO 的结构如下图 (a) 所示。

灵感PPT
AI灵感PPT - 免费一键PPT生成工具
308
查看详情
此外,我们认为不同图像内容应该对应不同的热扩散率,考虑到
的输出在频域中,我们根据频率值来决定热扩散率,
。由于频域中不同位置表示了不同的频率值,我们提出了频率值编码(Frequency Value Embeddings, FVEs)来表示频率值信息,与 ViT 中的绝对位置编码的实现和作用类似,并用 FVEs 对热扩散率 k 进行预测,使得 HCO 可以进行非均匀、自适应的传导,如下图所示。

vHeat 采用多层级的结构实现,如下图所示,整体框架与主流的视觉模型类似,其中的 HCO layer 如图 2 (b) 所示。

实验结果
ImageNet分类

下游任务

在 COCO 数据集上, vHeat 也拥有性能优势:在 fine-tune 12 epochs 的情况下,vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP,超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP,超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。在 ADE20K 数据集上,vHeat-T/S/B 分别达到 46.9/49.0/49.6 mIoU,相比于 Swin 和 ConvNeXt 依然拥有更好的性能表现。这些结果验证了 vHeat 在视觉下游实验中完全 work,展示出了能平替主流基础视觉模型的潜力。
分析实验
有效感受野


以上就是物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野的详细内容,更多请关注其它相关文章!
# 提出了
# 抖音seo简历
# 推广营销厂家直销价
# 霍州学校网站建设
# seo标题优化自动
# 网店的营销推广有哪些
# 校园网站优化效果怎么样
# 建设网站男人补身体
# 怎样优化网站营销
# 顶级seo是什么
# seo顶级优化方案
# 量产
# 取得了
# 产业
# 出了
# 丰田
# 如下图
# 中国科学院
# 显存
# 所示
# 来了
# type
# operator
# git
# 视觉表征模型
# vheat
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
技术如何使人变得懒惰?
AI无法对传统文化符号进行解构和创新
国内首家,360智脑通过中国信通院可信AIGC大语言模型功能评估
机器人技能大比拼
基于预训练模型的金融事件分析及应用
苹果CEO库克:持续研究生成式人工智能技术
实测 AI 建筑设计软件的自动生成效果图能力
数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念
南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台
马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了
羚客系统即将升级,推出全新的AI数字化工具
RoboNeo什么时候上线
J*a与人工智能结合:构建智能云服务
华为盘古AI模型实现秒级全球气象预报时间缩短
机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
阿里达摩院向公众免费开放100项AI专利许可
跑不动的元宇宙,虚拟世界比现实更冷酷
PHP和OpenCV库:如何实现人脸识别
人工智能正在弥合认知和表达之间的鸿沟
苹果2万5的AR遭遇砍单95%:不及预期
13 个提高生产力的 AI 工具
塑造全能智能管家:华为小艺AI加成应对大模型挑战
酒店业将如何受益于人工智能的改变?
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
Meta将VR头显最低年龄限制从13岁降至10岁
XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
腾讯TRS之元学习与跨域推荐的工业实战
中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信
美图吴欣鸿:希望更多人用上AI时代的影像生产力工具
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
高质量数据推动AI场景化应用快速发展及落地
微盟宣布联合腾讯云共建行业大模型:加快激活AI大模型智能应用
华为小艺AI助手将实现强大的大模型能力
本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!
联想创投携手12家被投企业MWC展示元宇宙、机器人等技术
基于信息论的校准技术,CML让多模态机器学习更可靠
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术
Nature封面:量子计算机离实际应用还有两年
对话式论文阅读工具PaperMate上线,综述细节AI告诉你
一公司推出喷火机器狗,可喷出 9 米长火焰
CharacterAI - 也许会成为会话人工智能的未来
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资
iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了
再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模