资讯
展览资讯 大型展会 灯光节 大型盛典 赛事 中标捷报 产品快讯 热门话题 艺术节 活动 演出 新闻 数艺报道 俱乐部签约
观点
大咖专访 观点洞察 书籍推荐 吐槽 设计观点 企业访谈 问答 趋势创新 论文 职场方法 薪资报价 数艺专访
幕后
幕后故事 团队访谈 经验分享 解密 评测 数艺访谈
干货
设计方案 策划方案 素材资源 教程 文案资源 PPT下载 入门宝典 作品合集 产品手册 电子书 项目对接
  • 0
  • 0
  • 0

分享

祝贺!AIR获CVPR 2022图像编码竞赛第一名

原创 2022-07-18

在CVPR 2022会议上,AIR助理研究员王岩博士与合作单位商汤科技团队一起荣获第五届深度学习图像压缩挑战赛(简称“CLIC”)图像编码赛道第一名,团队提交的图像编码方案在全部三个测试码点均取得了最佳的主观评分,同时具备所有深度学习方案中最快的解码速度,以绝对优势获胜。









冠军方案获奖证书

今年AIR与商汤科技联合提交的冠军方案基于两项关键技术。一是ELIC图像压缩模型及其使用的SCCTX联合上下文编码技术,这个模型具备目前最好的率失真和速度性能,相关论文ELIC:Efficient learned image compression with unevenly grouped space-channel contextual adaptive coding 被接收为CVPR2022口头报告。

另一个关键技术是比赛团队针对ELIC设计的主观质量优化方案,借助GAN、感知损失等技术在训练和后训练两个阶段为模型引入针对人眼感知的专门优化,目前这个方案相关论文:PO-ELIC: Perception-Oriented Efficient Learned Image Coding  也已被CVPR2022 workshop接收。该方案成功实现了深度图像编码压缩率与解码速度的双重突破。

摘要解析





ELIC:Efficient learned image compression with unevenly grouped space-channel contextual adaptive coding




作者何岱岚,杨孜名,彭维崑,马瑞,秦红伟,王岩
单位:商汤科技、AIR

会议:CVPR 2022

奖项:CVPR 2022 CLIC竞赛图像压缩冠军

摘要:近年来,基于深度学习的图像压缩技术已经拥有了显著的性能,甚至超过了最先进的手工设计有损图像编码器,并有望被大规模采用。出于实用性的考虑,从压缩性能和运行速度两方面对深度图像压缩模型设计进行深入的研究是必不可少的。王岩博士及研究团队观察到深度图像压缩模型中的能量集中特性,并受其启发首先提出了非均匀通道自适应编码,将所提出的非均匀分组模型与已有的上下文模型相结合,得到了一个空间-通道上下文自适应模型,在不影响运行速度的情况下提高了编码性能。这之后团队研究了变换网络的结构,并提出了一个高效的模型,ELIC,以达到最先进的速度-压缩率联合表现。该模型具有优越的性能,且支持极快的预览解码和渐进解码,使未来基于深度学习的图像压缩应用更具前景。






PO-ELIC: Perception-Oriented Efficient Learned Image Coding



作者何岱岚,杨孜名,于泓久,许通达,骆继祥,陈源,高宸健,史鑫杰,秦红伟,王岩
单位:商汤科技、AIR

会议:CVPR 2022

奖项:CVPR 2022 CLIC竞赛图像压缩冠军

摘要:在过去的几年中,深度学习图像压缩(LIC)已经取得了显著的成绩。最近的LIC方法在峰值信噪比和MS-SSIM方面都优于VVC。然而,低比特率的LIC重建存在模糊、颜色漂移和纹理缺失等画质问题。这些不同的画质问题使得图像质量评价的客观指标与人类主观感知的相关性变差。在本文中,王岩博士及研究团队提出了PO-ELIC,即面向人类主观感知的高效深度学习图像编码。具体来说,我们基于对抗训练技术改进了ELIC,它是最先进的LIC模型之一。我们采用了包括hinge对抗损失、Charbonnier损失和风格损失的混合损失函数,将模型向更好的主观感知质量微调。实验表明我们的方法可以在更低的比特率下取得和HiFiC相当的主观感知质量。



以比赛主办方提供的测试集解码速度为例,在BPP=0.3码点,相比于需要超过13000秒完成解码的第二名方案,该方案只需要460秒即可完成全部解码,已经超越VTM-intra等传统编码器基准了,在CLIC这个舞台上向“深度学习方案用于图像编解码太慢”这个认识第一次提出了挑战。在该码点,该方案也以2553的ELO分数超过了比赛方提供的所有传统编码器(分数最高的传统编码器AVIF只有不到2300 ELO)及深度学习方案。这个成绩暗示,深度图像编码技术不仅能在率失真性能的量化比较中取得优胜,并且在解码效率等方面也已具备投入实际应用的条件,基于深度学习的端到端数据压缩技术进入了新的发展阶段。

关注AIR公众号并回“CVPR图像压缩挑战赛”

获取完整论文下载


关于 CLIC 2022

CLIC 2022的主要组织者为Google、ETH、Apple、Netflix、Microsoft和Interdigital等学界、业界知名机构的学者与研究人员。自2018年开始,CLIC竞赛吸引了国内外最顶尖的深度视觉编码研究团队,是深度视觉编码社区参与度最高的比赛。比赛旨在借助竞赛的形式推动基于深度学习的视觉编码技术,帮助社区更好地了解深度图像编码、深度视频编码的发展现状及相比于传统编码方案的技术优势。从去年开始,图像编码赛道的评测指标改为人眼主观质量评测,关注如何借助深度学习实现对人眼感知友好的图像编解码器,具有非常强的挑战性与实用意义。




关于AIR



清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的应用研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Healthcare)是清华大学智能产业研究院的三个重点研发方向。
阅读原文

* 文章为作者独立观点,不代表数艺网立场转载须知

本文内容由数艺网收录采集自微信公众号清华大学智能产业研究院 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。

数字媒体艺术 新媒体艺术 科技艺术 图像编码

14435 举报
  0
登录| 注册 后参与评论