本周带来的 9 个 SOTA 模型分别用于6-DoF视频表示、文本到语音合成、视觉语言学习、视频生成;还有 1 个数据集用于目标检测。
Meta提出新型6-DoF视频表示法HyperReel,低内存消耗下,实现百万像素分辨率实时渲染
HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling
体积式场景表示是现有六自由度视频(6-DoF)技术的基础。然而,驱动这些表现的体积渲染程序需要在质量、渲染速度和内存效率方面进行权衡。为解决这个挑战,Meta 提出 HyperReel,一种新型的 6-DoF 视频表示法。HyperReel 将光线条件采样网络与基于关键帧的动态体表示相结合,以每秒18帧的速度实时渲染百万像素分辨率,同时在速度、质量和内存之间取得了理想的平衡。HyperReel 在内存要求小、渲染速度和实时渲染百万像素分辨率等多个方面均优于其他方法。
获取资源:
https://sota.jiqizhixin.com/project/hyperreel
微软提出文本到语音合成新模型Vall-E,只需录制3秒声音提示,即可模拟未见人声
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
微软提出文本到语音合成(TTS)新模型 Vall-E,从现成的神经音频编解码器模型中提取的离散代码训练的神经编解码器语言模型。该研究将 TTS 视为条件语言建模任务,在预训练阶段,用 6 万小时的语音数据对训练得到 Vall-E。Vall-E具有语境学习能力,只需录制3秒的未见过的说话人录音作为声音提示,就可以合成高质量的个性化语音。实验结果表明,Vall-E 在语音自然度和说话人相似度方面明显优于最先进的零试 TTS 系统。此外,该研究发现 Vall-E 可在合成中保留说话人的情感和声音提示的声学环境。
获取资源:
https://sota.jiqizhixin.com/project/vall-e
Meta提出目标检测数据集PACO,提供包含图像和视频数据中75个物体类别的部件掩码和属性
PACO: Parts and Attributes of Common Objects
目标检测模型正逐渐从仅预测物体的类别发展到提供物体实例的详细描述,因此需要提供更丰富注释的大型数据集。该研究提出目标检测数据集 PACO,它跨越图像(LVIS)和视频(Ego4D)数据集的 75 个物体类别、456 个物体部分类别和 55 个属性。同时,提供在 260K 个物体框上注释的 641K 个部件掩码,其中大约一半还用属性进行了详尽的注释。此外,该研究还设计了评估指标,并为数据集上的三项任务提供了基准结果:部分掩码分割、对象和部分属性预测以及零试实例检测。
获取资源:平台收录新数据集:2023/01/05
浙江大学等提出单试实例分割方法Box2Mask,仅用边界框监督即可实现准确的掩码预测
Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution
与使用像素级掩码标签的完全监督方法相比,box-supervised 的实例分割仅使用了简单的 box 注释,这引起了越来越多研究人员的关注。浙江大学联合阿里达摩院等机构提出单试实例分割方法 Box2Mask,它将经典的水平集进化模型集成到深度学习神经网络中,仅用边界框监督即可实现准确的掩码预测。在涵盖一般场景、遥感、医疗和场景文本图像的五个具有挑战性的测试平台上,实验结果表明 Box2Mask 方法在 box-supervised 的实例分割中表现出色。特别是,在 Swin-Transformer 架构下,Box2Mask 在 COCO 上取得了 42.4% 的 mAP 分数,与最近开发的完全掩码监督方法相当。
获取资源:
https://sota.jiqizhixin.com/project/box2mask
Meta提出简单高效的视觉语言学习算法CiT,将训练速度提高一个数量级以上
CiT: Curation in Training for Effective Vision-Language Data
大型视觉语言模型通常适用于许多下游任务,但需要花费高昂的训练成本。Meta 的研究人员提出 CiT,这是一种简单而高效的视觉 - 语言学习算法,将数据目标与训练相结合。CiT 可自动生成高质量的数据,以加速对比性图像 - 文本训练,并减轻了对离线数据过滤管道的需求,从而允许广泛的数据源(包括来自网络的原始图像 - 文本对)。实验表明,CiT 可将训练速度提高一个数量级以上,尤其是在原始数据量很大的情况下。
获取资源:
https://sota.jiqizhixin.com/project/cit
伦敦帝国理工学院等提出自回归扩散模型Diffused Heads,只需身份图像和音频序列,即可生成逼真说话头部视频
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation
在没有额外参考视频指导的情况下,说话式人脸生成很难产生头部动作和自然的面部表情。基于扩散的生成模型的最新发展支持更真实和稳定的数据合成,在图像和视频生成方面的性能超过了其他生成模型。基于此,伦敦帝国理工学院等提出一种自回归扩散模型 Diffused Heads,只需要一个身份图像和音频序列,即可生成一个逼真的说话头部视频。该解决方案能产生头部运动、眨眼等面部表情,并保留给定的背景。在两个不同的数据集上的评估表明,该模型取得了最先进的结果。
获取资源:
https://sota.jiqizhixin.com/project/diffused-heads
卡内基梅隆大学提出视频分割统一网络架构TarViS,可联合训练四种常见任务
TarViS: A Unified Approach for Target-based Video Segmentation
现有视频分割方法大多针对特定任务进行建模,无法推广到其他任务。受最近多任务方法的启发,该研究提出 TarViS,一个统一的网络架构,用于解决任何需要从视频中精确分割一组目标的任务。TarViS 将特定任务的目标编码为抽象的 “查询”,用于预测像素精确的目标掩码。将 TarViS 应用于四种不同的视频分割任务 (VIS、VPS、VOS、PET),结果显示 TarViS 模型可以联合训练所有任务,在推理期间可以在任务间无缝切换,无需进行任何任务特定微调。
获取资源:
https://sota.jiqizhixin.com/project/tarvis
哈尔滨工业大学提出DeepMatcher,用于局部特征匹配的Transformer深度网络
DeepMatcher: A Deep Transformer-based Network for Robust and Accurate Local Feature Matching
图像之间的局部特征匹配仍然是一项有挑战性的任务,特别是在极端的视角变化情况下。哈尔滨工业大学提出 DeepMatcher,一个基于 Transformer 的深度网络,用于局部特征匹配。DeepMatcher 模拟了人类在匹配图像对时的行为,包括通过 SlimFormer 层来聚合图像内 / 图像间的信息,以及使用层级策略来自适应地吸收来自各层的信息交换。实验表明,DeepMatcher 在几个基准上的表现明显优于最先进的方法,具有出色的匹配性能。
获取资源:
https://sota.jiqizhixin.com/project/deepmatcher
中科院等提出完全稀疏的3D物体检测器FSD,用于高效自动驾驶的远距离检测
Super Sparse 3D Object Detection
主流的 3D 检测器建立密集特征图的成本是感知范围的二次方,这使得它们很难应用到自动驾驶的远距离感知。为了实现高效的远距离检测,中科院联合图森未来提出完全稀疏的 3D 物体检测器 FSD。FSD 建立在一般的稀疏体素编码器和一个新的稀疏实例识别(SIR)模块上。在大规模的 Waymo 开放数据集的实验表明,该研究提出方法实现了最先进的性能。
获取资源:
https://sota.jiqizhixin.com/project/fsd
百度提出双向变分自编码器D3VAE,使用扩散、去噪和去纠缠机制来预测时间序列
Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement
时间序列分析在经济、金融等众多领域有着广泛的应用。然而,现实世界的时间序列数据普遍记录在短时间内,这导致深度模型与有限、有噪声的时间序列之间存在很大差距。基于此,百度等通过生成建模解决时间序列预测问题,并提出 D3VAE,采用扩散、去噪和去纠缠机制的双向变分自编码器 (BVAE) 。在合成和真实世界的数据上进行的广泛实验表明,D3VAE 显著优于竞争算法。
获取资源:
https://sota.jiqizhixin.com/project/d3vae
武汉大学等提出密集预测多任务学习新模型DeMT,结合了CNN和Transformer的优点
DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction
卷积神经网络和 Transformers 广泛应用于多任务学习(MTL)中的密集预测。武汉大学等结合可变形 CNN 和基于查询的 Transformer 的优点,提出一种新的 MTL 模型 DeMT,用于密集预测的多任务学习。在两个密集的图像预测数据集 NYUD-v2 和 PASCAL-Context 上进行的广泛实验表明,DeMT 使用的 GFLOPs 更少,在各种指标上明显优于目前基于 Transformer 和 CNN 的先进模型。
获取资源:
https://sota.jiqizhixin.com/project/demt
在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。