浙大蔡登团队:基于序列对比学习的长视频逐帧动作表征
浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习(CARL)框架,以自监督的方式学习逐帧动作表征,尤其是针对长视频;它考虑了时空上下文来提取逐帧表征,是一种基于Transformer的简单而高效的视频编码器。他们提出了一种新的序列对比损失(SCL),应用于通过一系列时空数据增强获得的两
浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习(CARL)框架,以自监督的方式学习逐帧动作表征,尤其是针对长视频;它考虑了时空上下文来提取逐帧表征,是一种基于Transformer的简单而高效的视频编码器。他们提出了一种新的序列对比损失(SCL),应用于通过一系列时空数据增强获得的两
在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。识别和生成是人工智能领域中的两大核心任务,如果能将二者合并到一个统一的系统中,这两个任务应该能实现互补。事实上,在自然语言处理中,像 BERT [1] 这样
学习有效的分子特征表征以促进分子特性预测,对于药物发现具有重要意义。最近,人们通过自监督学习技术预训练图神经网络(GNN)以克服分子特性预测中数据稀缺的挑战。然而,当前基于自监督学习的方法存在两个主要障碍:缺乏明确的自监督学习策略和 GNN 的能力有限。
分子表征已经从「图」扩展到「视频」了。两年前,湖南大学的研究团队,开发了具有化学意识的深度学习框架 ImageMol,用于从大规模分子图像中学习分子结构,可准确预测分子特性和药物靶点。现在,该研究团队将 ImageMol 进行了重大升级,提出一个基于分子视频的基础模型,称为 Video
无所不能的 GAN 又攻占了一个山头。近年来,GAN 在图像合成领域取得了惊人的成果,例如先前 DeepMind 提出的 BigGAN。