资讯
展览资讯 大型展会 灯光节 大型盛典 赛事 中标捷报 产品快讯 热门话题 艺术节 活动 演出 新闻 数艺报道 俱乐部签约
观点
大咖专访 观点洞察 书籍推荐 吐槽 设计观点 企业访谈 问答 趋势创新 论文 职场方法 薪资报价 数艺专访
幕后
幕后故事 团队访谈 经验分享 解密 评测 数艺访谈
干货
设计方案 策划方案 素材资源 教程 文案资源 PPT下载 入门宝典 作品合集 产品手册 电子书 项目对接
  • 0
  • 0
  • 0

分享

Meta发布通用图像分割SAM模型:计算机视觉领域的“GPT-3时刻”到来?| 「共同虚拟」案例库

原创 2023-04-17


日,Meta发布AI图像分割模型Segment Anything Model,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准的图像分割,突破性地提升了图像分割的效率。


点击视频,了解更多

以往的图像分割提供两种方法,一种是交互式分割,可以分割任何类别的对象,但需要人工迭代细化掩码的指导;另一种是自动分割,可以分割预先定义的特定类别对象,例如猫或椅子,但需要大量的手动注释对象进行训练,例如需要成千上万个猫的分割示例。这两种方法都没有实现通用和全自动化的分割。



SAM是这两种方法的结合,通过零样本学习和预训练模型技术,模型通过正确的提示,包括点击、框选、文本等,可以完成对任意图像的分割任务。SAM的训练数据集SA-1B包含超过11亿的高质量、多元化的掩码,使用者无需收集细分数据为用例微调模型。


SAM还允许使用者在Web浏览器上实时交互地进行注释,在保持质量的前提下提升运行速度。具体来说,经过图形编码器、提示编码器和轻量级掩码解码器的处理,SAM可以在50毫秒内完成图形分割。

 

传统的卷积神经网络、生成对抗网络等计算机视觉技术,存在需专项训练才能有效识别、大量标签数据的训练成本较高、对模糊提示词的泛化理解能力不足等缺点,随着基础模型中的迁移学习、零样本学习、多模态学习技术不断升级,SAM创新性地引入这些技术,解决了传统计算机视觉领域的难题。


业内对此技术也持相对积极态度,认为NLP领域的prompt范式延展到计算机视觉领域,可能彻底改变该领域传统的预测思路。英伟达人工智能科学家Jim Fan还在twitter上表示,计算机视觉领域的“GPT-3时刻”已经到来。


对于SAM的应用方向,Meta表示将拓宽诸如标记照片、审核内容和用户推荐这类技术的使用,并已在官网展示了SAM在AR和生物识别领域的应用场景。未来,SAM也可能在农业、医疗、遥感等科学领域和涉及图像、视频编辑的泛娱乐内容创作领域得到应用。



SAM发布后,很快出现了结合多种基础能力的衍生模型。例如由前微软亚研院首席科学家沈向洋博士创办的IDEA研究院,基于SAM、自有Grounding DINO模型、Stable Diffusion技术,研发出Grounded SAM模型,可以直接通过文本描述实现图片的检测、分割、生成。


计算机视觉领域也正在迎来通用模型趋势,与SAM同期发布的还有国内智源研究院的SegGPT,可通过Prompt完成任意目标的分割。随着计算机视觉领域模型泛化能力的提升,有望推动通用的多模态AI系统发展,在工业制造、通用机器人、智能家居、游戏、虚拟现实等领域得到应用。


Hello!

我们在为更加闭环、更加高效的服务模式做准备

欢迎加入限定白名单

与我们一起探索


abcf7556d340bb79f3c474250b86c851_640_wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1.jpg

image.png

阅读原文

* 文章为作者独立观点,不代表数艺网立场转载须知

本文内容由数艺网收录采集自微信公众号共同虚拟 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。

数字媒体艺术 新媒体艺术 科技艺术 计算机视觉 Meta

12980 举报
  0
登录| 注册 后参与评论