海外诡计机视觉与模式识别会议(CVPR)2024行将于6月17至21日在好意思国西雅图召开,CVPR是诡计机视觉乃至东谈主工智能领域最具学术影响力的顶级会议之一,在Google Scholar目的榜单中位列寰球学术出书物第4。今年度召开的CVPR 2024 共收到11532篇投稿,其中2719篇被接收,考取率为23.6%,接收论文中324篇(11.9%)被选为Highlight,90篇(3.3%)被选为Oral。
据不十足统计,北京大学诡计机学院在今年度CVPR会议中发表论文44篇,其中36篇来自视频与视觉时期接头所,5篇来自前沿诡计接头中心,数据科学与工程接头所、诡计话语学接头所和元六合时期接头所各有1篇论文发表,接头场所涵盖诡计录像、脉冲视觉、多模态大模子、三维视觉、具身智能、扩散模子等诡计机视觉前沿场所。
以下是对部分论文的简要先容(按照接头所和作家名字首字母排序):
一、 事件相机诱骗的平直和转折光照分离
场景物体反射光照中包含平直光照和转折光照两部分,平直和转折光照的分离是诡计机视觉中一个经典任务,不错提高方式复原和物体材质预计等下流任务的准确度,举例光度立体视觉、结构光扫描等。面前平直和转折光照分离步履大多需要较长的数据拍摄时期,只可应用于静态场景,无法移动到动态场景当中。现存单图步履诚然数据拍摄时期短,但由于短少物理管制其分离效果较差。为了处理该问题,CVPR 2024论文《EvDiG: Event-guided Direct and Global Components Separation》(Oral)提议事件诱骗的平直和转折光照分离步履EvDiG,从单张传统RGB图像和对应纪录暗影变化的事件信号收场平直和转折光照的分离。该步履应用事件相机高时期分辨率的性格,纪录快速投射暗影变化下场景亮度的一语气变化信息,从而获取场景光照物理管制,并以此收场场景平直和转折光照的分离。实验完毕标明,在仅有单张图像和事件当作输入下,EvDiG在平直和转折光照分离效果上接近多图传统步履。通过律例光源荫庇物的快速通顺,不错极地面裁减数据拍摄所需要的时期,达到单图RGB图像所需拍摄时期的水平。EvDiG可移动到动态场景当中,收场动态场景下的平直和转折光照分离。
该论文统统作家均来自于北京大学,第一作家为周鑫渝,通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括段沛奇、李博宇、周矗和许超栽种。
二、 基于事件相机的实时光度立体视觉
光度立体视觉是一种通过分析从各个场所映照物体的图像序列来预计物体名义法线的时期,其专有之处在于重建完毕的高分辨率和精准细节。在密集采样光照和朗伯反射物体的条款下,光度立体视觉步履的上风尤为杰出。传统的基于帧相机的光度立体视觉数据采集过程复杂且耗时,常常需要拿获多曝光图像来合成高动态范围图像,从而准确地拿获物体名义的镜面反射区域,严重阻碍了有实时性需求的应用。事件相机具有高时期分辨率、高动态范围和低带宽要求的性格,被以为是实时诡计机视觉应用中一种有出路的数据采集有规画。CVPR 2024论文《EventPS: Real-Time Photometric Stereo using an Event Camera》(Oral)应用事件相机的专有属性收场了实时的光度立体视觉。从事件相机触发的基本模子启航,一一事件推导出与名义法线平直关连的“零化向量”信息。在传统算法与深度学习算法领域分别收场了基于事件相机的光度立体视觉算法。配合高速转台进行数据采集和经过GPU优化的算法,收场了高出30帧每秒的实时名义法线重建。
该论文第一作家为于博涵(北京大学),通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括任杰骥(上海交通大学)、韩金(东京大学)、梁锦秀(北京大学)和王非石(北京大学)。
三、 应用近场和远距光源的三维场景逆渲染重建
在现在的数字时间,跟着电影制作、游戏开发、VR/AR时期的速即发展,对于在假造寰球场景中绘图具有真正感和万般性的假造三维物体的需求日益增长。通过使用多视角二维RGB图像当作输入,三维重建时期粗略耗尽较少的时期和元气心灵地创造三维物体,从而成为处理该需求的一大阶梯。逆渲染三维重建步履粗略在重建过程中将环境光照与物体材质属性分离,在职意光照条款下进行重建物体的准确渲染,比拟一般三维重建步履更适用于产业中的多种应用场景。现存的逆渲染三维重建时期照旧尝试给与多种光照下的不雅测对场景的光照与材质进行解耦,然则大多只可维持远距光源下的不雅测,无法对可控的近场光源(如闪光灯)进行更有用的应用以得到愈加精细而准确的物体材质。为了处理该问题,CVPR 2024论文《VMINer: Versatile Multi-view Inverse Rendering with Near- and Far-field Light Sources》(Highlight)提议应用近场和远距光源的三维场景逆渲染重建步履,不错应用输入图像中包含的统统远距和近场光照条款,进行光照和材质间的消歧,因此粗略愈加有用地应用可控的光源(如与相机并置的闪光灯或固定位置的台灯)和不同的远距环境光照条款,得到愈加精细而准确的物体材质重建。实验标明,该步履不错有用应用万般光源下的不雅测,其重建完毕的准确度与速率均高出了现存的起初进步履。
该论文第一作家为费凡(北京大学),通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括汤佳骏(北京大学)和谭平栽种(香港科技大学)。
四、 面向去暧昧和插帧任务的低光下事件相机蔓延校正
在低光场景下,基于事件相机的去暧昧和插帧算法在建模中均需要假定设想的事件触发模子,即事件检测时期与实质变化发生时期一致。在低光场景下,真正事件模子与设想事件模子存在较大的偏差,导致去暧昧和插帧算法的建模不够准确,极大影响了这些算法的性能。目下尚不存在事件相机的蔓延矫正算法,因此低光下基于事件相机的去暧昧和插帧算法的退化问题未能被充分有计划。针对上述问题,CVPR 2024论文《Latency Correction for Event-guided Deblurring and Frame Interpolation》提议了基于事件的时序置信度目的,用于评估去暧昧后图像的明晰进度,判断去暧昧算法的效果;该论文还提议了一个基于蔓延与强度值的弧线,建模了蔓延与暧昧图像强度值的关系;基于时序置信度目的、事件积分的可导抒发及上述弧线,该论文收场了数据驱动的事件蔓延矫正。实验完毕标明,该论文提议的步履粗略校正事件相机的蔓延,在一定进度上处理低光下基于事件相机的去暧昧和插帧算法的退化问题。
该论文第一作家为杨溢鑫(北京大学),通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括梁锦秀(北京大学)、于博涵(北京大学)、陈岩(商汤科技)和任念念捷(商汤科技)。
五、 基于滚动搀和比特脉冲的高帧率高动态视频
脉冲相机是受灵长类动物视觉系统启发而发明的新式高速成像开垦,其粗略对到达像素点的光子禁止积分,当光子累积的能量达到既定阈值后,该像素点披发一个单比特脉冲。对累积的光子能量进行单比特量化,相较于多比特量化,粗略有用谴责数据传输压力、有劲保险脉冲信号的高速读出。但单比特脉冲所能表征的环境光动态范围受到了一定制约,这是因为对高动态范围(High Dynamic Range, HDR)的精细化纪录依赖于高位的多比特数据。对于存在高速通顺的高动态范围场景,是否不错收场既要高帧率(High Frame Rate, HFR)使之看得快,又要高比特位使之看得清的脉冲成像?CVPR 2024论文《Towards HFR and HDR Video from Rolling-Mixed-Bit Spikings》提议了一种给与滚动搀和比特方式读出脉冲信号的相机责任模式,该模式通过在单比特脉冲信号中轮回滚动读出多比特脉冲,从而保留了少部分稀罕的多比特脉冲信息。之后,通过对单比特高速脉冲进行光流预计,收场对稀罕的多比特脉冲信号进行上采样插值,得到与单比特脉冲信号同等雀跃进度的多比特脉冲信号。临了,通过将多比特信号与单比特信号进行时空维度的交融,重构得到每秒2000帧的高动态范围视频。实验标明,该论文提议的步履粗略在只增多约2%数据冗余的条款下,达到忘形于十足三比特脉冲的高动态重构视频效果。同期对比传统基于帧的买卖相机,该论文提议的步履在一语气纪录高速体育场景方面存在潜在上风。
该论文的共同第一作家为常亚坤副栽种(北京交通大学;原北京大学博雅博士后),叶力多斯·肖开提(北京大学),通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括刘俣伽博士(北京大学)、樊斌博士(北京大学)、黄兆鋆(北京大学)和黄铁军栽种(北京大学)。
六、 话语诱骗的图像反射分离
玻璃反射的存在会显贵谴责拿获图像的图像质地,并侵扰下流的诡计机视觉任务,如东谈主脸识别或深度预计。图像反射分离步履不错将带反射侵扰的搀和图像瓦解为位于玻璃不同侧面的场景,即反射层和布景层。面前步履主如若给与挑升的拍摄安装来获取多张信息互补的场景图像从而分离反射,或者是应用从统计性格中得到的东谈主工先验来学习反射的知识。这两类步履要么由于数据拍摄的高要求律例了应用范围,要么是费事饱和的对于辐射层和布景层的赞助信息导致鲁棒性不够。为了处理这个问题,CVPR 2024论文《Language-guided Image Reflection Separation》初次提议了使用话语诱骗图像反射分离,应用活泼的当然话语来指定搀和图像中一层或两层的内容,减缓了反射分离问题的不适定性,保证了对实时拿获或在线下载的搀和图像的泛化性。该步履使用自顺应全局交互模块来保握合座话语和图像内容的一致性,并应用挑升遐想的亏欠函数来管制话语姿色与不同图像层之间的对应关系,通过提议一种话语门机制和速即化试验政策来处理可识别层暧昧问题。在手动标注了话语姿色后的真正反射分离数据集上进行实验,该步履在多个数据集上的阐扬高出了现存的起初进步履。
该论文统统作家均来自于北京大学,共同第一作家为钟灏峰和洪雨辰,通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括翁书晨和梁锦秀博士。
七、 窄带图像诱骗的大气扰动排斥
在远距离成像中,大气扰动的排斥对于提高成像质地至关进犯。由于图像内容和复杂的扰动场难以精准分辨,现存基于单图输入的扰动排斥步履在处理复杂扰动场景时遭受瓶颈。为处理这一问题,一些步履提议应用大气扰动的时变物理属性,基于多图输入进行扰动的排斥。尽管此类步履常常在细节复原才智和鲁棒性上阐扬较好,但其需要拍摄图像序列来得到饱和的大气扰动排斥管制,在实质应用中可能会带来未便。为处理真正场景中的大气扰动排斥问题,CVPR 2024论文《NB-GTR: Narrow-Band Guided Turbulence Removal》提议了一种新的湍流去除汇注。作家发现窄带图像的通带上累积扰动效应减少,不错为扰动排斥过程带来强有劲的管制,为此提议在传统的RGB图像下引入了稀罕的窄带图像的诱骗,仅需一双图像即可显贵遏制大气扰动,从而增强了拿获场景的明晰度和真正性。该步履给与两步交融政策,起初应用再扰动模块有用地从一双RGB和窄带图像中麇集索要扰动场信息,再据此有用诱骗扰动排斥汇注。应用窄带成像的上风,图像平面的湍流得到显贵谴责,从而能在不损忘形调信息的同期减少高频细节的丢失。实验完毕标明,该步履在保握单图扰动排斥步履的便利性的同期,粗略产生更真正的完毕。
该论文统统作家均来自于北京大学,第一作家为夏一飞,通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括周矗、朱成轩和许超栽种。
八、 传统图像和事件信号互补的鲁棒手势识别
手势姿态预计是一个经典的诡计机视觉问题,在东谈主机交互、假造推行和机器东谈主领域中有进犯应用,一个实用的手势姿态估诡计法需要作念到鲁棒性和泛化性强、蔓延和功耗低。面前的手势姿态预计步履主如若基于RGB或者RGB-D相机,RGB相机的成像具备丰富的脸色和纹理信息,然则靠近着信息冗余、成像蔓延,在挑战性场景下图像质地的退化(过曝或者通顺暧昧)等问题。而事件相机的异步成像机制使其具备高动态范围、低蔓延,低数据冗余度等特征,但同期也存在数据稀罕纹理缺失的问题。针对这些问题,CVPR 2024论文《Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction》提议应用事件相机和RGB相机成像的互补性,交融两种模态数据进行手势姿态预计。数据方面,本责任把柄两种相机的成像性格,提议了一种成像退化的数据增广方式,使得试验时只需要平方场景的数据,就不错泛化到挑战性场景上;模子方面,本责任悉心遐想空间对皆、互补交融、以实时序珍视力模块,将两种模态对皆。实验完毕标明,该步履效果优于基于单个传感器的步履,只需要旧例场景的试验数据,就不错泛化到万般挑战性场景。
该论文共同第一作家为蒋建平(北京大学)和周鑫渝(北京大学),共同通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所)和邓小明接头员(中科院软件所),协作作家包括王炳宣(北京大学)、和许超栽种(北京大学)。
九、 基于神经辐射场的水下场景表征步履
神经辐射场不错从多视角的二维图片信息中学习并生成三维的场景表征模子。对于多数常见的场景,神经辐射场均被解说是有用的。关联词,水下场景中包含的诸多动态身分,包括水对光的接管与散射性质、局部光照的变化以及场景中通顺的物体,为其表征带来了专有的挑战。现存的基于神经辐射场的场景表征步履并未充分有计划上述动态身分,导致水下场景三维重建质地较低。为了处理上述问题,CVPR 2024论文《Neural Underwater Scene Representation》提议在传统的神经辐射场框架上进行膨胀,对水下场景中水体性质、不彊壮的光照条款和通顺的物体分别建模,收场高质地水下场景的表征。该步履给与了搀和渐进的采样步履与两阶段的汇注试验政策,收场了对汇注中各项参数的鲁棒优化。实验完毕标明,该步履在不显贵延长试验与渲染时期的基础上,对水下场景表征的精准度高出了现存的起初进步履。该步履也不错应用到场景剪辑的各项任务中,为水下图像复原和水体移动任务提供便利。
该论文共同第一作家为汤云开(北京大学)和朱成轩(北京大学),共同通信作家为施柏鑫长聘副栽种(北京大学诡计机学院/视频与视觉时期接头所)和万东谈主杰助理栽种(香港浸会大学),协作作家包括许超栽种(北京大学)。
十、 毛糙度和透明度可度量的光度立体实拍评测数据集
实拍数据集对于评测光度立体视觉算法的在真正寰球中的性能阐扬、探知光度立体的接头前沿有着进犯趣味。现存的实拍光度立体数据集对于名义反射的律例及评测基于语义姿色,举例“塑料”,“陶瓷”等,无法给出光度立体在定量假名义反射方面的性能评估。同期,由于语义姿色难以度量,光度立体视觉算法的评测完毕无法引申到实拍数据麇集未包含的材质反射。因此,现存数据集过火评测完毕难以在实质应用场景中为不同反射物体提供光度立体算法选拔的参考。针对这一问题,CVPR 2024论文《DiLiGenRT: A Photometric Stereo Dataset with Quantified Roughness and Translucency》提议了可度量毛糙度和透明度的光度立体实拍数据集。受图形学领域参数假名义反射模子的启发,本责任基于可量化的材质反射参数(毛糙度,透明度)来构建数据集。通过使用6种不同浓度的溶液在9个不同毛糙度的球状模具中固化,构建了6x9个透明度鄙俚度可控的半球数据集。基于该数据集进行光度立体算法评测不仅定量化回复了算法在材质反射方面的责任区间,还不错通过毛糙度和透明度数值差值的方式推测现存光度立体算法在未包含材质反射下的性能阐扬。
该论文的共同第一作家为郭亨特聘接头员(北京邮电大学)、任杰骥博士(上海交通大学)、王非石(北京大学),共同通信作家为施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所)和任明俊栽种(上海交通大学),协作作家包括Yasuyuki Matsushita栽种(大阪大学)。
十一、 实时东谈主像视频三维感知重光照
东谈主像视频重光照是诡计机图形学和诡计机视觉领域中极具应用价值的接头场所。这项时期需要精准建模清明、东谈主脸几何和材质之间的复杂交互作用,并确保合成视频的时期连贯性。为了提供更大的剪辑摆脱度,并在增强推行和假造推行等领域得到平凡应用(举例创建粗略把柄环境诊治光照的三维面部模子),需要对东谈主像视频进行三维感知的重光照,也即是将二维东谈主脸信息提高到三维可重光照的示意局势,以便在不同的不雅察角度和清明条款下再行渲染东谈主像视频。实时处理的需求进一步增多了这一挑战的难度。针对这一难题,CVPR 2024论文《Real-time 3D-aware Portrait Video Relighting》(Highlight)初次提议了一种通过神经辐射场收场东谈主像视频实时三维感知重光照的步履。该步履粗略在新视角和新光照条款下实时合成传神的三维东谈主像,在消费级硬件上收场32.98 FPS的处理速率,并在重建质地、光照谬误、光照健硕性、时期一致性和推理速率等方面达到了面前起初进的水平。
该论文第一作家为蔡子祺(北京交通大学;9月份北京大学直博入学),通信作家为高林接头员(中科院诡计所),协作作家包括蒋楷文(加州大学圣地亚哥分校)、陈姝宇(中科院诡计所)、来煜坤(卡迪夫大学)、傅红波(香港城市大学)以及施柏鑫长聘副栽种(北京大学诡计机学院/视频与视觉时期接头所)。
十二、 基于稀罕偏振图像的镜面反射物体三维重建步履
镜面反射物体的三维重建极具挑战性,这是由于物体名义归拢点被不雅测到的完毕随视角变化而变化,违犯了传统多视角立体时期中的一致性原则。现存步履通过分别预计物体自己脸色和环境光来匡助复原三维物体结构,常常需要多数的不同视角不雅测图像当作输入。如果减少输入图像视角,常常会形成重建完毕质地下跌或无法重建等问题,而现存的稀罕图像三维重建时期多适用于非镜面反射物体。为了处理稀罕视角下的镜面反射物体重建问题,CVPR 2024论文《NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images》提议了应用偏振图像所提供的光照和几何信息共同管制隐式辐射场抒发的法向量,从而粗略在稀罕输入视角下高效充分应用图像信息。定性和定量实验标明,该步履在六个输入视角下,相较于现存时期粗略得到愈加准确的重建效果。此外,该论文提供了第一个包含扫描完毕的用于偏振图像三维重建的真正数据集,为将来的接头责任提供了定量分析资源。
该论文共同第一作家为韩雨霏(北京邮电大学)、郭亨特聘接头员(北京邮电大学)、Koki Fukai(大阪大学),通信作家为郭亨特聘接头员(北京邮电大学),协作作家包括Hiroaki Santo助理栽种(大阪大学)、施柏鑫长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所)、Fumio Okura副栽种(大阪大学)、马占宇栽种(北京邮电大学)和贾云鹏栽种(北京邮电大学)。
十三、 基于旋转光源和当然光条款下的非标定光度立体视觉
当然光条款下的非标定光度立体视觉克服了传统非标定光度立体视觉以暗室为拍摄环境、以节略光源为光照要求的固有弱点。关联词,现存的步履受限于光源和物体之间复杂的相互作用和当然光的万般性,常常只可在特定材质或者知足特定律例的光源下重建物体三维名义。为了处理这个问题,CVPR 2024论文《Spin-UP: Spin Light for Natural Light Uncalibrated Photometric Stereo》提议了基于旋转光源的实验设立和非监督学习的步履。该步履从旋转光源下拍摄得到的图片以及物体的概述信息中发掘联系光源的先验,以可微渲染为主要时期妙技,配合所提议的优化政策,不错同期还原出物体的三维名义、各向同性的反射率函数以及环境光源。实验标明,该步履在本文提议的合成和真正数据集上重建出了更高精度的三维名义,效果优于目下统统其他监督或无监督的步履,况且不错适配更一般的当然光和物体。
该论文共同第一作家为李宗瑞(南洋理工大学)和陆展(南洋理工大学),通信作家为郑乾接头员(浙江大学),协作作家包括闫浩杰(浙江大学),施柏鑫长聘副栽种(视频与视觉时期接头所)、潘纲栽种(浙江大学)和蒋旭东副栽种(南洋理工大学)。
十四、 从处理脉冲波动性的角度提高脉冲相机图像重建
当作一种超高速的仿生视觉传感器,脉冲相机在对高速场景的纪录中展现出了纷乱的后劲。不同于传统帧式相机,脉冲相机的每个像素通过对光子进行一语气累积并披发脉冲来收场对光学场景的纪录。在这一过程中,有多种效应会对脉冲相机的成像过程产生影响,包括光子到达的泊松效应、电路的热噪声以及脉冲读出的量化效应。以上因素引入了脉冲的波动性,即使光强是健硕的,脉冲之间的时期阻隔也会随时期发生变化,无法准确反馈光照强度。CVPR 2024论文《Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations》提议了一种有计划脉冲波动性的脉冲相机图像重建步履。本文起初揭示了脉冲披发的时期差分(DSFT)倒数的无偏预计属性,并基于此提议了一个基于多阶DSFT的表征模块用于遏制脉冲的波动性。此外,本文还提议了一个多粒度的特征对皆模块,用于进一步遏制脉冲波动性带来的影响,其中粗粒度的对皆基于具有局部搜索政策的块级交叉珍视力进行遐想,精细粒度的对皆基于像素级的可变形卷积进行遐想。实验完毕解说,本文所提议的步履在合成数据与真正数据上都具有优良的性能。
该论文第一作家为赵睿(北京大学),通信作家为熊瑞勤接头员(北京大学/诡计机学院视频与视觉时期接头所)。协作家包括赵菁、张健助理栽种、余肇飞助理栽种、黄铁军栽种(以上作家均为北京大学),以及范晓鹏栽种(哈尔滨工业大学)。
十五、 面向拜耳模式脉冲流的超分辨率重建
脉冲相机是一种神经形态视觉传感器,粗略以极高的时期分辨率一语气产生示意光子到达的二进制的脉冲流,从而收场对高速率场景的捕捉。目下,为了收场对彩色高速场景的纪录,不错通过配备拜耳模式脸色滤光阵列构建彩色脉冲相机。尽管脉冲相机已展现出在高速成像方面的纷乱后劲,但与传统数码相机比拟,其空间分辨率十分有限。为此,CVPR 2024论文《Super-Resolution Reconstruction from Bayer-Pattern Spike Streams》提议了一种用于从低分辨率拜耳模式脉冲流中重建得到高分辨彩色图像的彩色脉冲相机超分辨率汇注。具体来说,本文起初提议了一种面向拜耳模式脉冲流的表征步履,通过结合局部时期信息与全局感知信息来示意该二进制数据。然后,应用脸色滤光阵列的脸色散播与亚像素级的通顺信息来寻找每个脸色通谈的时域可用像素。为此,本文开发了一个基于残差的特征细化模块以减少通顺预计谬误的影响。有计划到色调关连性,麇集应用脸色通谈的多阶段时空像素特征来重建高分辨率的彩色图像。实验完毕标明,所提议的有规画粗略从低分辨率的拜耳模式脉冲流中重建出具有高时期和空间分辨率的彩色图像。
该论文第一作家为董彦辰(北京大学)女同 91,通信作家为熊瑞勤接头员(北京大学/诡计机学院视频与视觉时期接头所)。协作家包括张健助理栽种、余肇飞助理栽种、黄铁军栽种(以上作家均为北京大学)、朱树元(电子科技大学)和范晓鹏栽种(哈尔滨工业大学)。
十六、 语义频域指示的知识蒸馏
Knowledge distillation (KD)已奏效应用于万般任务,主流步履常常通过空间效法来提高学生模子。关联词,在西宾模子的空间域中引起的一语气下采样是一种图像损坏,阻碍学生模子分析需要效法的具体信息,导致准确性下跌。为了更好贯串受损特征图,CVPR 2024论文《FreeKD: Knowledge Distillation via Semantic Frequency Prompt》提议将珍视力转换到频域。在频域蒸馏中,靠近着新的挑战:低频带传达较少的信息量,高频带更具信息性但仍有噪声,不是每个像素对蒸馏的孝顺相配。为了处理上述问题提议将Frequency Prompt插入到西宾模子,在微调过程中学习语义信息;在蒸馏期间,通过Frequency Prompt生成像素级的频率掩码,以定位各个频率带内的感意思像素(PoIs)。此外,针对密集展望任务给与位置感知关系亏欠,为学生模子提供高阶空间增强。此知识蒸馏步履被定名为FreeKD,它详情了频率蒸馏的进度与位置。FreeKD不仅在密集展望任务上历久优于基于空间的蒸馏步履(举例,FreeKD使RepPoints-R50在COCO2017上得到了3.8AP增益,PSPNet-R18在Cityscapes上得到了4.55mIoU增益),而且使学生模子更具鲁棒性。值得珍视的是,本文还初次考据了在大领域视觉模子(举例,DINO和SAM)上的泛化才智。
该论文第一作家为张袁(北京大学),通信作家为仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括黄涛(悉尼大学)、刘家铭(北京大学)、蒋焘(浙江大学)和程宽助理栽种(北京大学)。
十七、 面向多模态大模子的端-云协同优化政策
在如今的数字化时间,跟着云诡计和边际开垦时期的迅猛发展,如安在资源受限的开垦上高效部署多模态大模子成为了一个亟待处理的难题。针对这一问题,CVPR 2024论文《Cloud-Device Collaborative Learning for Multimodal Large Language Models》提议了一种改进的云-开垦协同握续顺应框架(CD-CCA),该框架旨在应用云霄大领域多模态大模子(MLLM)的刚劲才智,提高压缩后开垦端模子的性能,从而草率动态变化的环境。在开垦到云的上行链路中,给与了一种不祥情趣诱骗的Token采样政策(UTS),通过过滤散播外的Token来谴责传输资本并提高试验效力。在云霄,本文提议了一种基于适配器的知识蒸馏步履(AKD),将大领域MLLM的简陋知识转换到压缩后的开垦端模子中。此外,本文还引入了一种动态权重更新压缩政策(DWC),对更新后的权重参数进行自顺应选拔和量化,从而提高传输效力并减少云霄和开垦端模子之间的表征差距。实验完毕标明,所提议的框架在多个多模态基准测试上优于现存的步履,尤其是在视觉问答和图像标注任务中阐扬杰出。此外,通过真机实验考据了该步履的可行性和实用性。该框架为开垦端MLLM在动态环境中的握续顺应提供了新的念念路,展示了云-开垦协同学习的纷乱后劲。
该论文共同第一作家为金冠群(北京大学)、刘家铭(北京大学)和李忱轩(北京大学),通信作家为仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括张袁(北京大学)、麻俊鹏(中南大学)、魏心宇(北京大学)、张雨泽(北京大学)、庄棨宁(北京大学)、张仁瑞(上海东谈主工智能实验室)和刘一茳(南京大学)。
十八、 面向握续性测试泛化的自顺应掩码自编码器
CVPR 2024论文《Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation》提议了一种面向握续性泛化学习的散播感知掩码自编码器。具体来说,握续性测试泛化(CTTA)旨在将预试验模子移动到禁止变化的倡导散播中,以草率真正寰球的动态变化。现存的CTTA步履主要依赖于熵最小化或西宾-学生伪标签有规画,在未标记的倡导域中进行知识索要。关联词,动态数据散播会导致展望完毕校准诞妄和伪标签噪声,这在现存的自监督学习步履中阻碍了有用缓解诞妄蕴蓄和祸害性淡忘问题。为了处理这些挑战,本文提议了一种全新的握续性自监督步履,即自顺应散播掩码自动编码器(ADMA),该步履在增强倡导域知识索要的同期,减轻了散播偏移的诞妄蕴蓄。具体来说,提议了一种散播感知掩码(DaM)机制,以自顺应地选拔掩码位置,然后在掩码倡导样本和原始倡导样本之间建立一致性管制。此外,对于掩码的特征,应用高效的解码器来重建手工制作的特征姿色符(举例场所梯度直方图),应用其域不变性来增强任务关连的抒发。通过在四个平凡认同的基准上进行多数实验,所提议的步履在分类和分割CTTA任务中均达到了起初进的性能。
该论文第一作家为刘家铭(北京大学),通信作家为仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包徐冉(北京大学实习生)、杨森乔(北京大学实习生)、张仁瑞(港中语)、张启哲(北京大学)、陈泽徽(中科大)和郭彦东(智平方科技)。
十九、 基于梯度的参数选拔步履用于高效微调
跟着预试验模子领域的增长,对于多种下流任务进行十足微调并存储统统参数是腾贵且不行行的。为此,CVPR 2024论文《Gradient-based Parameter Selection for Efficient Fine-Tuning》提议了一种全新的参数高效微调步履,基于梯度的参数选拔(GPS),好色客亚洲标明了在仅微调预试验模子中小数选拔的参数同期保握模子其余部分冻结的情况,不错产生与十足模子微调步履雷同或更好的性能。与现存流行的和起初进的参数高效微调步履不同,所提议步履在试验和推理阶段都不引入任何稀罕的参数和诡计资本。另一个优点是模子无关和非蹂躏性的性格,排斥了对于特定模子的任何其他遐想的需求。与十足微调比拟,GPS在24个图像分类任务中平均仅微调了预试验模子的0.36%参数,在FGVC任务中准确率提高了3.33%(91.78% vs. 88.45%),在VTAB任务中提高了9.61%(73.1% vs. 65.57%)。此外,它还在医学图像分割任务平分别取得了17%和16.8%的mDice和mIoU的显贵改善。临了,GPS在与现存参数高效微调步履比拟,性能达到了起初进的水平。
该论文第一作家为张智(阿姆斯特丹大学/北京大学)和张启哲(北京大学),通信作家为仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括高子俊(山东大学)、张仁瑞(港中语)、Ekaterina Shutova (阿姆斯特丹大学)和周仕佶(清华大学)。
二十、 基于分割一切模子的倡导物体三维重建
多视角图像的神经三维重建最近引起了越来越多的照看,现存步履常常学习通盘场景的神经场,而若何重建用户指定的倡导对象仍然是一个未充分探索的问题。有计划到分割一切模子(SAM)在分割任何二维图像方面清醒出的有用性,CVPR 2024论文《NTO3D: Neural Target Object 3D Reconstruction with Segment Anything》提议了一种新颖的高质地神经倡导对象三维重建步履NTO3D,该步履应用了神经场和分割一切模子的上风。该步履起初提议一种新政策,将分割一切模子的多视角二维分割掩模提高到一个融合的三维占用场。然后,三维占用场被投影到二维空间并生身分割一切模子的新指示。这一过程是迭代的,直到管制,以将倡导对象从场景平分离出来。之后,将分割一切模子编码器的二维特征提高到三维特征场中,以提高倡导对象的重建质地。NTO3D将分割一切模子的二维掩模和特征提高到三维神经场,用于高质地的神经倡导对象三维重建。本文在几个基准数据DTU、LLFF、BlendedMVS上进行了详备的实验,以展示所提议步履的上风。
该论文第一作家为韦小宝(北京大学),通信作家为仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括张仁瑞(上海东谈主工智能实验室)、吴家锐(上海东谈主工智能实验室)、刘家铭(北京大学)、陆鸣(英特尔中国接头院)和郭彦东(智平方科技)。
二十一、 基于自顺应念念维链的文生图模子指示词散播对皆
基于扩散的生成模子在生成高保真视觉内容(如图像和视频)方面阐扬出色。关联词, 它们的性能在很猛进度上依赖于文本输入的质地,常常称为“指示词”。传统的指示词设 计过程诚然有用,但需要教化丰富的专科知识,对于莫得教化的用户来说具有挑战性。CVPR 2024论文《PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought》提议了 PromptCoT,一种自动优化用户指示词的改进增强器。PromptCoT 基于这么一个不雅察完毕遐想:与试验麇集高质地图像的文本信息雷同的指示词常常会带来更好的生成效果。因此,本文使用一个仅包含高质地视觉内容姿色的悉心挑选的文本数据集对预试验的大型话语模子(LLM)进行微调。通过这种方式,LLM 不错捕捉到高质地试验文本的散播,从而生成对皆的续写和更正,以提高原始文本。关联词,预试验的 LLM 有一个弱点,即它们常常会生成无关或过剩的信息,因此给与“链式念念维”(Chain-of-Thought, CoT)机制来改进原始指示词与其优化版块之间的一致性。CoT 不错从对皆的续写和更正中索要并整合要害信息,基于崎岖文陈迹进行合理推断,从而生成更全面和详细的最终输出。有计划到诡计效力,莫得为每个单独的模子或数据集分派一个挑升用于指示词增强的 LLM,而是集成了适配器,以应用分享的预试验 LLM 当作基础进行数据集特定的顺应。通过寂静微调这些适配器,不错将 PromptCoT 顺应新的数据集,同期最小化试验资本和内存使用。本文中评估了 PromptCoT 在平凡使用的潜在扩散模子上生成图像和视频的阐扬,完毕清醒要害性能目的显贵改善。
该论文的共同第一作家是姚骏奕(北京大学)和刘一茳(南京大学),共同通信作家为周大权(字节进步)和仉尚航助理栽种(北京大学/视频与视觉时期接头所),协作作家包括董镇(伯克利加州分校)、郭明非(斯坦福大学)、胡鹤蓝(北京大学)、Kurt Keutzer(伯克利加州分校)和杜力(南京大学)。
二十二、 基于弱监督神态调动学习的万般化3D协同语音手势生成
生成生动且敷裕情怀的3D协同语音手势对于东谈主机交互应用中的假造头像动画至关进犯。诚然现存的步履粗略生成罢黜单个情怀标签的手势,但它们忽略了具多情怀调动的长手势序列建模在真正场景中更实用。此外,费事具多情怀编削语音和相应3D东谈主类手势的大领域可用数据集也律例了该任务的处理。为了收场这一倡导,CVPR 2024论文《Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation》起初结合 ChatGPT-4和音频建造步履来构建高保真情怀调动东谈主类语音。有计划到得到与动态补全的神态调动音频相对应的真正3D姿势注目极其贫窭,本文提议了一种新颖的弱监督试验政策来饱读吹泰斗手势调动。 具体来说,为了增强过渡手势相对于不悯恻感手势的协调,本文将两个不悯恻感手势序列之间的时期关联示意建模为格调领导,并将其注入到过渡生成中。本文进一步遐想了一种情怀搀和机制,该机制基于可学习的搀和情怀标签为过渡手势提供弱监督。临了,本文提议了一个要害帧采样器,不错在长序列中提供有用的驱动姿势指示,使得粗略生成不同的手势。多数的实验标明,所提议步履优于通过在本文新界说的神态调动任务和数据集上微调单一神态对比步履而构建的起初进模子。
该论文第一作家为祁星群(香港科技大学),通信作家为郭毅可栽种(香港科技大学)和柳崎峰栽种(香港科技大学)。协作家包括仉尚航助理栽种(北京大学/诡计机学院视频与视觉时期接头所)以及潘佳豪、李鹏、袁瑞斌、池晓威、李孟非、罗文寒副栽种和雪巍助理栽种(以上作家均来自香港科技大学)。
二十三、 多模态妄语语模子指代感知指示微调步履
多模态妄语语模子是一类以妄语语模子为基础集成多种信息模态处理才智的东谈主工智能模子,与传统的多模态模子比拟,其应用妄语语模子的刚劲推理才智,在万般视觉任务和多模态贯串任务中阐扬出刚劲的后劲。 现存的多模态妄语语模子一般专注于图像级别的内容贯串,无法对图像中的特定倡导进行细粒度分析,况且模子构建过程中需要多数的指示微调数据和试验资源,严重律例了其在万般视觉任务和多模态任务中的应用。为了处理这个问题,CVPR 2024论文《Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs》提议了多模态妄语语模子指代感知指示微调步履。该步履起初应用现存数据集的标注通过东谈主工遐想万般化的指代感知基础任求收场了指示微调数据集构建。为了进一步提高数据的万般性,步履提议了自洽自举的数据生成经由,该经由不错将放肆密集倡导标注数据集滚动为坐标框-姿色多模态数据。论文使用适配器同期对视觉编码器和妄语语模子进行微调,进一步增多了视觉编码器的细粒度图像贯串才智。实验完毕标明,该责任使用更少的微调参数目和指示微调数据量,在旧例多模态贯串任务、视觉定位等指代感知任务和多个多模态妄语语模子的评测基准上取得了最好的性能,举例,该责任在旧例多模态贯串任务GQA上高出使用50M数据的Qwen-VL步履5.2%。在视觉定位等指代感知任务上,在评测基准MMBench上,该责任高出第二名mPlug-Owl 5.6%。
该论文第一作家为轩诗宇(北京大学),通信作家为张史梁长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括郭清沛(蚂蚁集团)和杨铭博士(蚂蚁集团)。
二十四、 基于多模态定位大模子的可泛化东谈主体要害点定位步履
已有东谈主体要害点定位步履从试验数据中学习东谈主体结构先验,进而用于推理未知东谈主体图像输入。这种学习范式的泛化才智受到试验数据的律例,即有限的数据集难以提供通用的东谈主体结构先验,这使得现存步履难以泛化到预计未知数据集东谈主体姿态以及检测新类型的东谈主体结构。为了缓解这一律例并提能手体形态感知步履的泛化才智,CVPR 2024论文《LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model》(Highlight)从另一角度局势化东谈主体姿态感知问题,通过推理东谈主体骨架要害点的文本姿色来定位其位置。基于这一念念路,提议了首个基于多模态妄语语模子的东谈主体姿态感知步履——多模态定位大模子LocLLM。定位大模子将东谈主体要害点定位任务局势化为一个问答任务,通过输入图像、对应的要害点姿色以及问题走动复对应的要害点坐标。实验完毕标明,本责任在多个东谈主体姿态感知数据集上取得了优异的性能。LocLLM在法式的二维与三维东谈主体姿态预计数据集上取得了77.6%准确率与46.6mm定位谬误,超越了传统纯视觉感知步履。在跨数据集泛化测试实验中,LocLLM在Human-Art数据集上取得了64.8%的性能,最初之前最好步履ViTPose11.0%的准确率。在新类型要害点检测实验中,LocLLM也最初基线步履24.1%的准确率,展现出优异的泛化才智。
该论文第一作家为王东凯(北京大学),通信作家为张史梁长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括轩诗宇(北京大学)。
二十五、 基于空间感知回顾的东谈主体要害点定位步履
针对现存东谈主体要害点定位模子存在准确率低下、诡计存储高与量化谬误的问题,CVPR 2024论文《Spatial-Aware Regression for Keypoint Localization》(Highlight)提议了一个高效的空间感知回顾模子,用来准详情位东谈主体要害点。空间感知回顾模子的中枢是将输入图像中的空间位置信息引入到回顾过程中,谴责平直回顾的难度。引入的空间位置先验也能赞助模子感知不同实例的疏导要害点,扩大了回顾模子的适用范围。所提议的模子具有高性能、高效力的优点,在多个东谈主体姿态预计任务,如二维/三维东谈主体姿态预计、全身姿态预计以及多东谈主姿态预计任务中均展现出最初的性能。举例在东谈主体姿态预计数据集 COCO Keypoint 上,本文所提议的要害点定位模子在保管原有回顾模子诡计量的情况下提高了17.5%的定位准确率,取得了准确率与效力的均衡。
该论文第一作家为王东凯(北京大学),通信作家为张史梁长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所)。
二十六、 基于多模态参考的绽放词汇识别
绽放词汇识别旨在识别绽放场景中的放肆感意思类别或倡导,赋予机器感知寰球的通用视觉才智。现存的绽放词汇识别步履主要通过向预试验视觉话语模子提供类别的文本姿色来界说绽放词汇分类器。文本的暧昧性和歧义性等问题会导致生成的绽放词汇分类器无法充分表征类别,影响绽放词汇识别的准确性。为了处理这一问题,CVPR 2024论文《OVMR: Open-Vocabulary Recognition with Multi-Modal References》提议了基于多模态参考的绽放词汇识别步履。该步履起初应用多模态分类器生成模块将多张示例图像交融成视觉令牌,并进一步使用话语编码器动态交融视觉令牌和文本令牌,生成了绽放词汇多模态分类器。为了减轻低质地图像或文本对于多模态分类的负面影响,基于偏好的交融模块复用示例图像来评估万般别对单模态视觉文分内类器及多模态分类器的偏好,并基于偏好权重动态交融各分类器,形成最终的高质地的交融分类器。所提议的步履具有广泛的泛化性,可即插即用至绽放词汇分类和检测等任务中,无需稀罕微调便可在稠密的下流任务中取得最初的性能。举例,在11个绽放词汇分类任务上取得了82.34%的平均准确率,高出只依赖文本的基线步履13%,并在使用疏导多模态数据的实验设立下高出了依赖微调的指示学习微调步履CoCoOp 1.87%。此外,在绽放词汇检测LVIS数据集上,此步履检测精度高出第二名MM-OVOD 1.9%。
该论文第一作家为马泽红(北京大学),通信作家为张史梁长聘副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括魏龙辉博士(华为)和田奇博士(华为)。
二十七、 基于梯度范数正则化的无参考图像质地模子抵挡挫折的戒备妙技
无参考图像质地评价(NR-IQA)是一项在无需参照原始、未受挫伤图像的情况下,对图像质地进行评估的任务。这种评估在诸如视频压缩、图像复原和图像生成等多媒体领域有着平凡的应用。尽管比年来照旧推出了多种NR-IQA模子,但它们都靠近一个共同的挑战:易受抵挡性挫折的影响。抵挡性挫折是指通过应用NR-IQA模子的障碍,对输入图像添加轻浅的、肉眼难以察觉的扰动,让NR-IQA模子在对图像质地的打分上出现大幅度偏差。为了草率这个问题,CVPR 2024论文《Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm Regularization》在NR-IQA领域初次提议了一种戒备政策。这种政策通过减小模子梯度的L1范数提高模子对轻浅扰动的健硕性,以增强模子的鲁棒性。表面分析清醒,模子对输入图像的评价分数变化幅度以模子对于输入图像梯度的ℓ1范数为上界。因此,该著述提议了一种范数正则化试验政策,通过正则化项管制梯度的ℓ1范数,增强模子的鲁棒性。实验完毕解说,这种试验政策不错有用地减少模子在抵挡性挫折下的展望分数变化,提高了模子的戒备才智。该著述是初次尝试戒备NR-IQA模子的抵挡性挫折,对于提高图像质地评价模子的安全性,具有进犯的趣味。
该论文共同第一作家为刘俣伽(北京大学)和杨晨光(北京大学),通信作家为蒋婷婷副栽种(北京大学/诡计机学院视频与视觉时期接头所),协作作家包括李鼎权(鹏城实验室)和丁健豪(北京大学)。
二十八、 面向真正场景去噪问题的高效自监督非对称盲点汇注
自监督去噪汇注由于其无需干净图像即可试验的才智而受到了平凡照看。关联词,真正寰球场景中的噪声常常是空间关连的,这导致很多假定像素间噪声寂静的自监督算法阐扬欠安。最近的接头试图通过下采样或邻域掩藏来突破噪声关连性。关联词,不才采形状图上进行去噪可能导致由于采样率谴责而产生的混叠效应和细节丢失。此外,邻域掩藏步履要么诡计复杂度高,要么在推理过程中不有计划局部空间信息的留存率。通过分析现存步履,不错看出在推行寰球的自监督去噪任务中得到高质地和纹理丰富的完毕的要害是,在原始输入分辨率结构上试验,并在试验和推理期间使用非对称操作。基于此,CVPR 2024论文《Exploring Asymmetric Tunable Blind-Spots for Self-supervised Denoising in Real-World Scenarios》提议了非对称可调盲点汇注(AT-BSN),其中盲点大小不错摆脱诊治,从而在试验和推理期间更好地均衡噪声关连性遏制和图像局部空间蹂躏。此外,所提议步履将预试验的AT-BSN视为一个元西宾汇注,粗略通过采样不同的盲点生成万般西宾汇注。试验时给与了一种基于盲点的多西宾蒸馏政策,以蒸馏一个轻量级汇注,显贵提高性能。在多个数据集上的实验完毕解说所提议步履达到了起初进的水平,并在诡计支出和视觉效果方面显贵优于其他自监督算法。
该论文统统作家均来自于北京大学,第一作家为陈世炎,通信作家为余肇飞助理栽种(北京大学/东谈主工智能接头院;诡计机学院视频与视觉时期接头所),协作作家包括张济远和黄铁军栽种。
二十九、 高速场景中未知时空对皆的跨模态脉冲诱骗通顺去暧昧算法
传统的基于帧的相机依赖曝光窗口成像,在高速场景中会出现通顺暧昧。基于帧的去暧昧步履费事可靠的通顺陈迹,难以在极点暧昧条款下复原明晰图像。脉冲相机是一种新式的神经形态视觉传感器,粗略输出具有超高时期分辨率的脉冲流,它不错补充传统相机中丢失的时期信息,并领导通顺去暧昧。关联词,在实质场景中,由于校准坐标的复杂性、拍摄过程产生振动而形成的开垦位移和时期轴偏移,将闹翻的RGB图像和一语气的脉冲流在时期和空间轴上对皆是一个挑战。像素的错位会导致去暧昧效果严重下跌。为处理此问题,CVPR 2024论文《Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment》提议了一种在未知脉冲和图像时空对皆情况下的脉冲诱骗通顺去暧昧框架,并遐想了包含基础暧昧排斥汇注、双向可变形对皆模块和基于光流的多表率交融模块的三阶段汇注。实验完毕标明,所提议步履不错在未知对皆情况下有用地领导图像去暧昧,超越其他步履的性能。
该论文统统作家均来自于北京大学,第一作家为张济远,通信作家为余肇飞助理栽种(北京大学/东谈主工智能接头院;诡计机学院视频与视觉时期接头所)和郑雅菁博士后,协作作家包括陈世炎和黄铁军栽种。
三十、 强度鲁棒的脉冲相机自动对焦步履
自动对焦律例对于相机有用的捕捉场景信息十分要害。关联词,由于脉冲相机纪录的脉冲流与图像流、事件流在场景信息表征上存在各别,目下费事针对脉冲相机遐想的自动对焦步履,使得其难以收场高速对焦以及高对比度成像。为了处理这一挑战,CVPR 2024论文《Intensity-Robust Autofocus for Spike Camera》提议了一种基于脉冲流的自动对焦有规画,包括针对脉冲流遐想的对焦度量——脉冲散度和相应的快速对焦搜索政策——基于脉冲流的黄金快速搜索。该有规画不错收场快速的合焦,且无需对变焦镜头的通盘调焦范围进行遍历。为了考据所提步履的性能,汇集了一个基于脉冲流的自动对焦数据集,其中包含不同场景亮度和体育场景下的合成数据和真正数据。在这些数据上的实验完毕标明,所提步履在准确性和效力上超越了其他步履。此外,在不同场景亮度下拿获的数据上的实验融会了所提步履在自动对焦过程中对光照强度变化的鲁棒性。
该论文第一作家为苏长青(北京大学)和肖长生(南昌航空航天大学),通信作家为熊博(北京大学),协作作家包括叶志远(南昌航空航天大学)、周游(南京大学)、程振(清华大学)、余肇飞助理栽种(北京大学/东谈主工智能接头院;诡计机学院视频与视觉时期接头所)和黄铁军栽种(北京大学)。
三十一、 基于三维逐点对应关系的可泛化穿着操作
衣物操作(举例伸开、折叠和挂穿着)对于将来机器东谈主完成婚庭助手任务至关进犯,但由于衣物类型(如上衣、裤子、裙子)、几何方式和形变的万般性,这项任务极具挑战性。尽管先前的接头粗略在特定任务中操作方式雷同的衣物,但它们大多需要为不同任务遐想不同的政策,无法引申到几何方式万般的衣物上,况且常常严重依赖东谈主工标注的奏效政策。为了处理上述问题,提高穿着操作的可泛化性、减少对东谈主工标注的依赖,CVPR 2024论文《UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence》提议应用衣物在特定类别中具有雷同结构的性格,通过自监督学习步履,学习归拢类别中具有不同变形的衣物之间的拓扑雀跃(逐点级,point-level)视觉对应关系。这种拓扑对应关系不错落拓顺应功能对应关系,从而领导万般下流任务的操作政策,仅需一次或几次示范。所提议步履在三类不同类别的衣物上进行了实验,触及三种具有代表性的任务,在多种场景中使用单臂或双臂操作,进行一步或多步操作,处理平整或凌乱的衣物,考据了所提议步履的有用性。
胖子行动队在线观看44该论文的共同第一作家是吴睿海(北京大学)和鲁浩然(北京大学),通信作家为董豪助理栽种(北京大学/诡计机学院前沿诡计接头中心),协作作家包括王一言(北京理工大学)和王昱博(北京大学)。
三十二、 针对物体为中心的的机器东谈主操作多模态大模子
机器东谈主操作依赖于准确展望构兵点和结尾施行器的场所,以确保操作奏效。关联词,基于学习的机器东谈主操作如果仅在模拟器中针对有限类别进行试验,常常难以收场平凡的泛化,异常是在面对多数类别时。因此,CVPR 2024论文《ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation》提议了一种改进的机器东谈主操作步履,应用多模态大型话语模子(MLLMs)的刚劲推理才智来增强操作的健硕性和泛化才智。通过微调注入的适配器,保留了MLLMs固有的学问和推理才智,同期赋予它们操作的才智。要害在于引入的微调范式,涵盖了对象类别贯串、可附近(affordance)先验推理和以对象为中心的姿态展望,以引发MLLM在操作中的推理才智。在推理过程中,所提议步履应用RGB图像和文本指示以chain-of-thought的方式展望结尾施行器的姿态。在建立驱动构兵后,引入了主动阻抗顺应政策,以闭环方式野心接下来的旅途点。此外,在推行寰球中,遐想了一种用于操作的测试时顺应(TTA)政策,使模子粗略更好地顺应面前的实质场景成立。
该论文第一作家为李晓琦(北京大学),通信作家为董豪助理栽种(北京大学/诡计机学院前沿诡计中心),协作作家包括沈妍(北京大学)、龙宇星(北京大学)、刘家铭(北京大学)、张明旭(北京邮电大学)和张仁睿(香港中语大学)。
三十三、 应用非参数汇注进行少样本3D场景分割
为了减少对大领域数据集的依赖,最近在3D分割领域的接头动手借助少样本学习。目下的3D少样分内割步履起初在“已见”类上进行预试验,然后评估它们在“未见”类上的泛化性能。关联词,先前的预试验阶段不仅引入了过多的时期支出,还在“未见”类上产生了显贵的领域差距。为了处理这些问题,CVPR 2024论文《No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation》(Highlight)提议了一种用于少样本3D分割的非参数汇注Seg-NN过火参数化变体Seg-PN。Seg-NN无需试验,通过手工遐想的滤波器索要雀跃示意,其性能与现存的参数化模子相当。由于排斥了预试验,Seg-NN粗略减轻领域差距问题并从简多数时期。基于Seg-NN,Seg-PN仅需试验一个轻量级的查询-维持传输(QUEST)模块,该模块增强了维持集和查询集之间的交互。实验标明,Seg-PN在S3DIS和ScanNet数据集上分别比之前的起初进步履提高了4.19%和7.71%的mIoU,同期减少了90%的试验时期,清醒出其有用性和高效性。
该论文第一作家为朱曙光(上海东谈主工智能实验室),协作作家包括张仁瑞(港中语)、董豪助理栽种(北京大学/诡计机学院前沿诡计中心)、刘家铭(北京大学)和高鹏(上海东谈主工智能实验室)。
三十四、 基于掩码聚类的绽放词汇三维语义分割
绽放词汇的三维实例分割是机器东谈主感知未知场景的第一步,亦然AR/VR应用中进行场景剪辑的第一步,有着进犯应用价值。关联词,由于三维数据标注和采集贫窭,目下费事大领域的细粒度三维实例标注。为了处理这一问题,已有接头起初借助二维实例分割模子生成二维掩码,再把柄相邻帧之间诡计的度量将它们合并成3D实例。与这些局部度量不同,CVPR 2024论文《MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation》提议了一种新的度量步履,即view consensus rate,以增强对多视角交互考据的应用。对于两个二维掩码,如果多数其他视角的2D掩码同期包含这两个2D掩码,那么这两个2D掩码应被视为归拢3D实例的一部分,应该被合并。这个被包含的比例被称为view consensus rate,并以此为边的权重,构建了一个全局掩码图,其中每个掩码是一个节点。通过对高view consensus rate的掩码进行迭代聚类,生成了一系列掩码类,每个掩码类代表一个专有的3D实例。本文提议的步履无需任何试验,即可在常用数据集ScanNet++、ScanNet以及MatterPort3D上取得了远超前东谈主责任的精度。
该论文统统作家均来自于北京大学,第一作家为严汨,通信作家为王鹤助理栽种(北京大学/诡计机学院前沿诡计中心),协作作家包括张嘉曌和朱炎。
三十五、 类别级多部件多要害三维方式装配
方式装配是通过摆设节略的几何部件来构成复杂的方式几何体,被平凡应用于机器东谈主自动装配和诡计机赞助遐想(CAD)建模。现存的论文侧重于几何推理,忽略了推行中结合不同构兵面的要害的物理匹配和装配的过程。奏效的要害优化装配需要知足方式结构和要害对皆的双重倡导。基于此,CVPR 2024论文《Category-Level Multi-Part Multi-Joint 3D Shape Assembly》提议了一种由两个层级的图示意学习构成的分级图学习步履,将构兵要害有计划到多部分装配任务中。一部分图以部件几何方式为输入来构建所需的方式结构,另一部分要害级图使用部件要害信息,侧重于匹配和对皆要害,结合这两种信息来收场结构和要害对皆的双重倡导。多数实验标明,所提议步履优于以往的步履,取得了更好的方式结构和更高的要害对皆精度。
该论文第一作家及通信作家为Yichen Li(斯坦福大学),协作作家包括Kaichun Mo(英伟达)、段岳圻(清华大学)、王鹤(北京大学/诡计机学院前沿诡计中心)、Jiequan Zhang(斯坦福大学)、Lin Shao(新加坡国立大学)、Wojciech Matusik(麻省理工学院诡计机科学与东谈主工智能实验室)和Leonidas Guibas(斯坦福大学)。
三十六、 结构诱骗的扩散模子抵挡试验步履
扩散模子在万般生成应用中展示了刚劲的才智。现存步履主要通过最小化加权的去噪得分匹配亏欠来进行数据散播建模,但其试验主要强调实例级优化,忽略了每个小批量中有价值的流形结构信息,而这些信息不错有用建面孔本之间的成对关系。为了处理这一局限性,CVPR 2024论文《Structure-Guided Adversarial Training of Diffusion Models》引入了结构诱骗的扩散模子抵挡试验步履(SADM)。在这一首创性步履中,让模子学习每个试验批次中样本之间的流形结构。为了确保模子捕捉到数据散播中的真正流形结构,提议使用抵挡式试验步履优化扩散模子生成器,遐想辩别器分辨真正流形结构和生成的流形结构。SADM显贵改进了现存的扩散模子,并在12个数据集的图像生成和跨域微调任务中超越了现存步履。其中,在ImageNet上以256×256和512×512分辨率进行条款图像生成,分别得到了1.58和2.11确面前最优级别的FID分数。
该论文统统作家均来自于北京大学,第一作家为杨灵,通信作家为崔斌栽种(北京大学/诡计机学院数据科学与工程接头所),其他协作作家均为崔斌栽种PKU-DAIR课题组实习生。
三十七、 TimeChat: 针对长视频时序定位任务的视频妄语语模子
CVPR 2024论文《TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding》旨在构建一个通用的、对时序敏锐的视频大模子TimeChat。该模子不错依据用户输入的指示,完成对视频的要害事件摘录、时序定位、高光检测等一系列时序敏锐任务。该模子包含两个要害模块:(1)交融时期戳信息的视频帧编码器:用于将每帧的视觉内容与该帧的时期戳绑定;(2)基于滑动窗口的视频 Q-Former:用于生成变长的视频token序列,以顺应万般时长的视频输入。此外,本文构建了一个指示微调数据集,包括 6 个任务和 12.5 万个试验样本,以进一步增强 TimeChat 的指示罢黜性能。实验完毕标明,TimeChat在多种视频任务上展示了刚劲的零样本时序定位和推理才智。举例,与之前起初进的视频大模子比拟,TimeChat在YouCook2上将F1 score和CIDEr分别提高9.2 和2.8;在QVHighlights上将HIT@1提高5.8;在Charades-STA上将R@1(IoU=0.5)提高27.5。
该论文共同第一作家为任抒情(北京大学)和姚林丽(北京大学),通信作家为孙栩长聘副栽种(北京大学/诡计机学院诡计话语学接头所),协作作家包括李世成(北京大学)和侯璐(华为)。
三十八、 基于卤莽匹配和归因区域对皆的抵挡蒸馏
抵挡蒸馏是一种有用提高袖珍模子鲁棒性的步履。与预期相背,性能超卓的西宾模子并不总能试验出更为鲁棒的学生模子,主要原因有两方面。起初,当西宾模子和学生模子在展望完毕上存在显贵各别时,使用KL散度进行展望值的精准匹配会侵扰试验过程,导致现存步履的性能下跌。其次,仅基于输出完毕进行匹配,律例了学生模子对西宾模子行径的全面贯串。为了处理这些问题,CVPR 2024论文《Adversarial Distillation Based on Slack Matching and Attribution Region Alignment》提议了一种名为SmaraAD的新式抵挡蒸馏步履。在试验过程中,该步履通过将学生模子照看的归因区域与西宾模子的归因区域对皆,促进学生模子更好地贯串西宾模子的行径。同期,给与愈加卤莽的匹配步履代替KL散度,提高试验效果。多数实验完毕考据了所提议步履在提高袖珍模子准确性和鲁棒性方面的有用性。
该论文的第一作家是尹晟霖(北京大学),通信作家是肖臻接头员(北京大学/诡计机学院元六合时期接头所),协作作家包括宋明轩(北京大学)和隆杰毅(Theta Labs, Inc.)。
论文开端:
[1] Xinyu Zhou, Peiqi Duan, Boyu Li, Chu Zhou, Chao Xu, and Boxin Shi. EvDiG: Event-guided Direct and Global Components Separation. In Proc. CVPR 2024 (Oral).
[2] Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi. EventPS: Real-Time Photometric Stereo using an Event Camera. In Proc. CVPR 2024 (Oral).
[3] Fan Fei, Jiajun Tang, Ping Tan, and Boxin Shi. VMINer: Versatile Multi-view Inverse Rendering with Near- and Far-field Light Sources. In Proc. CVPR 2024 (Highlight).
[4] Yixin Yang, Jinxiu Liang, Bohan Yu, Yan Chen, Jimmy Ren, Boxin Shi. Learning Latency Correction for Event-guided Deblurring and Frame Interpolation. In Proc. CVPR 2024.
[5] Yakun Chang, Yeliduosi Xiaokaiti, Yujia Liu, Bin Fan, Zhaojun Huang, Tiejun Huang, and Boxin Shi. Towards HDR and HFR Video from olling-mixed-bit Spikings. In Proc. CVPR 2024.
[6] Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, and Boxin Shi. Language-guided Image Reflection Separation. In Proc. CVPR 2024.
[7] Yifei Xia, Chu Zhou, Chengxuan Zhu, Minggui Teng, Chao Xu, and Boxin Shi. NB-GTR: Narrow-band guided Turbulence Removal. In Proc. CVPR 2024.
[8] Jianping Jiang, Xinyu Zhou, Bingxuan Wang, Xiaoming Deng, Chao Xu, and Boxin Shi. Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction. In Proc. CVPR 2024.
[9] Yunkai Tang, Chengxuan Zhu, Renjie Wan, Chao Xu, and Boxin Shi. Neural Underwater Scene Representation. In Proc. CVPR 2024.
[10] Heng Guo, Jieji Ren, Feishi Wang, Boxin Shi, Mingjun Ren, and Yasuyuki Matsushita. DiLiGenRT: A Photometric Stereo Dataset with Quantified Roughness and Translucency. In Proc. CVPR 2024.
[11] Ziqi Cai, Kaiwen Jiang, Shu-Yu Chen, Yu-Kun Lai, Hongbo Fu, Boxin Shi, Lin Gao. Real-time 3D-aware Portrait Video Relighting. In Proc. CVPR 2024 (Highlight).
[12] Yufei Han, Heng Guo, Koki Fukai, Hiroaki Santo, Boxin Shi, Fumio Okura, Zhanyu Ma, Yunpeng Jia. NeRSP: Neural 3D Reconstruction for Reflective Objects with Sparse Polarized Images. In Proc. CVPR 2024.
[13] Zongrui Li, Zhan Lu, Haojie Yan, Boxin Shi, Gang Pan, Qian Zheng, Xudong Jiang. Spin-UP: Spin Light for Natural Light Uncalibrated Photometric Stereo. In Proc. CVPR 2024.
[14] Rui Zhao, Ruiqin Xiong, Jing Zhao, Jian Zhang, Xiaopeng Fan, Zhaofei Yu, Tiejun Huang. Boosting Spike Camera Image Reconstruction from a Perspective of Dealing with Spike Fluctuations. In Proc. CVPR 2024.
[15] Yanchen Dong, Ruiqin Xiong, Jian Zhang, Zhaofei Yu, Xiaopeng Fan, Shuyuan Zhu, Tiejun Huang. Super-Resolution Reconstruction from Bayer-Pattern Spike Streams. In Proc. CVPR 2024.
[16] Yuan Zhang, Tao Huang, Jiaming Liu, Tao Jiang, Kuan Cheng, Shanghang Zhang. FreeKD: Knowledge Distillation via Semantic Frequency Prompt. In Proc. CVPR 2024.
[17] Guanqun Wang, Jiaming Liu, Chenxuan Li, Yuan Zhang, Junpeng Ma, Xinyu Wei, Kevin Zhang, Maurice Chong, Renrui Zhang, Yijiang Liu, Shanghang Zhang. Cloud-Device Collaborative Learning for Multimodal Large Language Models. In Proc. CVPR 2024.
[18] Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang. Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation. In Proc. CVPR 2024.
[19] Zhi Zhang, Qizhe Zhang, Zijun Gao, Renrui Zhang, Ekaterina Shutova, Shiji Zhou, and Shanghang Zhang. Gradient-based Parameter Selection for Efficient Fine-Tuning. In Proc. CVPR 2024.
[20] Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang, NTO3D: Neural Target Object 3D Reconstruction with Segment Anything. In Proc. CVPR 2024.
[21] Junyi Yao, Yijiang Liu, Zhen Dong, Mingfei Guo, Helan Hu, Kurt Keutzer, Li Du, Daquan Zhou, Shanghang Zhang. PromptCoT: Align Prompt Distribution via Adapted Chain-of-Thought. In Proc. CVPR 2024.
[22] Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo. Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation. In Proc. CVPR 2024.
[23] Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang. Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs. In Proc. CVPR 2024.
[24] Dongkai Wang, Shiyu Xuan, Shiliang Zhang. LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model. In Proc. CVPR 2024 (Highlight).
[25] Dongkai Wang, Shiliang Zhang. Spatial-Aware Regression for Keypoint Localization. In Proc. CVPR 2024 (Highlight).
[26] Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian. OVMR: Open-Vocabulary Recognition with Multi-Modal References. In Proc. CVPR 2024.
[27] Yujia Liu, Chenxi Yang, Dingquan Li, Jianhao Ding, Tingting Jiang. Defense Against Adversarial Attacks on No-Reference Image Quality Models with Gradient Norm Regularization. In Proc. CVPR 2024.
[28] Shiyan Chen, Jiyuan Zhang, Zhaofei Yu and Tiejun Huang. Exploring Asymmetric Tunable Blind-Spots for Self-supervised Denoising in Real-World Scenarios. In Proc. CVPR 2024.
[29] Jiyuan Zhang, Shiyan Chen, YajingZheng, Zhaofei Yu, Tiejun Huang. Spike-guided Motion Deblurring with Unknown Modal Spatiotemporal Alignment. In Proc. CVPR 2024.
[30] Changqing Su, Zhiyuan Ye, Yongsheng Xiao, You Zhou, Zhen Cheng, Bo Xiong, Zhaofei Yu, Tiejun Huang. Intensity-Robust Autofocus for Spike Camera. In Proc. CVPR 2024.
[31] Ruihai Wu, Haoran Lu, Yiyan Wang, Yubo Wang, Hao Dong. UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence. In Proc. CVPR 2024.
[32] Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen, Renrui Zhang, Jiaming Liu, Hao Dong. ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation. In Proc. CVPR 2024.
[33] Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Han Xiao, Chaoyou Fu, Hao Dong, Peng Gao. No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation. In Proc. CVPR 2024 (Highlight).
[34] Mi Yan, Jiazhao Zhang, Yan Zhu, He Wang, MaskClustering: View Consensus Based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation. In Proc. CVPR 2024.
[35] Yichen Li, Kaichun Mo, Yueqi Duan, He Wang, Jiequan Zhang, Lin Shao, Wojciech Matusik, Leonidas Guibas. Category-Level Multi-Part Multi-Joint 3D Shape Assembly. In Proc. CVPR 2024.
[36] Ling Yang, Haotian Qian, Zhilong Zhang, Jingwei Liu, Bin Cui. Structure-Guided Adversarial Training of Diffusion Models. In Proc. CVPR 2024.
[37] Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou. TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding. In Proc. CVPR 2024.
[38] Shenglin Yin, Zhen Xiao, Mingxuan Song女同 91, Jieyi Long. Adversarial Distillation Based on Slack Matching and Attribution Region Alignment. In Proc. CVPR 2024.