近日,我校信息科学与技术学院丁丹丹副教授团队在点云压缩研究方面取得新成果,该成果以题为“YOGA: Yet Another Geometry-based Point Cloud Compressor”和“GPCC++: Enhanced Geometry-based Point Cloud Compression”发表在中国计算机学会(CCF)推荐的A类国际学术会议ACM Multimedia 2023上。国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域的最顶级盛会,也是中国计算机学会推荐的多媒体领域唯一的A类国际学术会议。ACM MM 2023将在加拿大渥太华举行,投稿量为3000多篇,录用文章902篇,录用率为29.3%。
点云作为三维空间中对象的有效表示,可以被三维传感器广泛地捕捉,其中每个点都具有对应的坐标和其他相关属性,例如颜色、反射率等,因此点云可以真实有效地表示任意三维对象。目前,点云已经被广泛应用于自动驾驶、混合现实、机器人、电子文化遗产等场景。由于点云通常包括数百万个甚至更多的点,这为点云的高效存储和传输带来了巨大的挑战。因此需要一种高效的点云压缩框架,尤其是针对具有多种属性的点云。运动图像专家组(moving picture experts group,MPEG)于2018年发布统一的点云模型压缩编码研究框架,有效提升点云几何信息和属性信息压缩编码的效率,既能有效应对海量点云数据的存储和传输,也能按需保留宏观信息和细节特征,在点云数据处理与应用中贯穿始终。如何在保证低失真率、高压缩比的情况下,提升点云压缩编码的效率,成为当前点云模型压缩编码的研究目标。
研究团队提出了一种基于学习的点云压缩方法YOGA。YOGA采用统一的基于端到端学习的方式来进行单独的几何和属性压缩,包括两层结构:在基础层使用G-PCC对下采样的缩略点云进行编码,并在G-PCC压缩先验的基础上,在增强层堆叠多尺度稀疏卷积,以有效地表征空间相关性对全分辨率样本进行压缩。此外,YOGA集成了自适应量化和熵模型组以实现可变速率控制,以及自适应滤波器以实现更好的质量恢复。YOGA在编码效率上显著优于最新的G-PCC压缩标准,例如,使用PCQM(点云质量指标)作为失真评估,BD-BR增益为25%。由于采用了稀疏卷积和并行熵编码,算法复杂度低,运行时间与G-PCC编解码器类似。
MPEG G-PCC点云压缩标准专为点云有损编码而开发,以实现互联网上的沉浸式服务。然而,有损G-PCC引入了几何和属性信息的叠加失真,严重影响了体验质量。因此,研究团队提出增强型G-PCC(G-PCC++),以有效解决压缩失真并恢复质量。G-PCC++将增强分为两个阶段:首先增强几何信息,然后将解码的属性映射到增强后的几何体以进行细化。具体地,对于几何增强,首先使用最近邻线性插值来生成更密集的几何表示,然后使用GeoNet进一步生成足够的候选点,并通过概率排序选择来恢复几何信息;对于属性增强,设计了基于最邻近点的高斯距离加权映射来对所有点重新着色,然后由AttNet进行细化以完成最终重建。G-PCC++是第一个同时完成几何和属性增强的方案。大量实验表明了G-PCC++的优越性:相比于G-PCC,在几何D1 (D2)上获得88.24% (80.54%)的增益,在属性Y (YUV)上获得14.64% (13.09%)的增益。此外,当联合考虑几何和属性时,G-PCC++相比G-PCC获得了高达25.58%的性能增益。
信息学院计算机应用技术专业2021级硕士研究生章骏腾为第一篇论文的第一作者,软件工程专业2022级硕士研究生张俊哲为第二篇论文的第一作者,丁丹丹副教授为两篇论文的通讯作者,杭州师范大学为第一完成单位。该成果接受国家自然科学基金面上项目、浙江省自然科学基金项目、Google CURP项目等项目资助。
作者简介:
丁丹丹,副教授,硕士生导师,主要从事计算机视觉、智能视频图像处理、智能视频编码、三维点云压缩编码与重建等方面研究,在国内外重要期刊与会议上发表相关论文50余篇,申请发明专利10余项,向国内外标准组织提交提案40项,获奖4项。曾担任ISO/IEC标准23001-1与23001-2的project leader,担任中国音视频编码标准组织AVS第13部分专题组联合组长,目前正在参与面向机器视觉编码(DCM)的标准化工作。