资讯

首次在 Video VAE 任务上引入文本信息作为语义指导,让视觉 token(作为 Query)与文本嵌入(作为 Key 和 Value)计算跨模态注意力,提升细节重建质量。 3.
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导 ...
在人工智能的图像生成与表示学习领域,变分自编码器(Variational Auto-Encoder, VAE)作为核心模型之一,长期面临 “后验崩溃” 难题 —— 隐变量的变分分布易向先验坍缩,导致生成样本多样性不足。向量量化变分自编码器(Vector Quantized-Variational Auto-Encoder, VQ-VAE)通过引入离散隐空间(码本)缓解了 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !扩散模型可以看作是一个层次很深的VAE(变分自编码器),前向(forward,或者译为正向)的过程 ...
创新性地结合VQ-VAE(Vector Quantized Variational Autoencoder)和SDFusion(Signed Distance Field Fusion)框架,实现了对破损区域的高保真重建,最终模型在Uniform Hausdorff Distance和Topological Morphology Distance评估中分别达到0.013-0.017和0.037-0 ...