Meta推出AI抠图神器,机器视觉迎来高光时刻?

2023-04-10 19:00:00 来源:上海证券报·中国证券网 作者:

  当地时间4月5日,Facebook母公司Meta在推特宣布推出SAM模型(Segment Anything Model)并开源。该模型能够查找和分割图像和视频中的任何对象,实现一键抠图。同日,Meta还发布了自称有史以来最大的图像注释数据集,以及30页详解论文《Segment Anything》。

  SAM是首个专攻计算机视觉领域(CV)的图像分割基础模型,已在1100万张图像和11亿个掩码的海量数据集上进行了训练(比现有数据集大400倍)。基于大规模训练数据集,SAM取得的直接成果是,完成一个目标的注释只需要大约14秒,比过去COCO的完全手动基于多边形的掩码注释快6.5倍,比之前最大的数据注释工作快2倍。

  如果说此前势如破竹的GPT-4 已经做到“回答一切”,SAM的目标在于精准“分割一切”。相较于广泛可见的手动抠图功能,SAM在操作层面主要有以下几个方面的显著亮点:

  第一,万物识别。“零样本性能”是它的强大之处,在面对没有见过的物体时,SAM不需要额外训练也能将它识别出来。

  第二,可处理文本、关键点、边界框等多模态提示。如输入具体文字如“CAT”,SAM就可以在图片中分割出物体。

  第三,给出任意图片,SAM可以自动分割图像中的所有单品并一件件归类。

  第四,视频方面,SAM也能准确识别并快速标记,并自动用ID给这些物品进行记录和分类。

  第五,SAM接受来自其他系统的输入提示、输出物体信息到其他AI系统。既能够根据AR/VR头显传来的用户视觉焦点信息,来选择对应的物体。也可以通过成像编辑应用程序,将物体的mask变成3D,或用于拼贴等创造性任务。

  在过去不到一周的发酵时间里,该模型打开了市场对产业方面大规模应用的想象空间。SAM模型强大的分割能力,也让英伟达人工智能科学家Jim Fan在推特上将其称为“CV领域的GPT3时刻”。让市场最关心的问题是,哪些产业最有可能直接受益呢?

  综合多家券商观点,颠覆机器视觉领域是一致预期,“AI视觉”“AR”“VR”则成为高频关键词,工业自动化、自动驾驶、安防等领域同为期待商用方向。西部证券指出,Meta此次推出SAM预示着大模型在多模态发展方面更进一步,布局计算机视觉/视频的厂商有望在Meta产品推出的背景下持续受益。

  民生证券进一步研判,SAM模型可能不仅仅是计算机视觉领域的GPT3时刻,它的开源更可能是AR/VR领域的安卓时刻。XR在SAM的赋能下具备了通过图像理解现实的能力,在内容制作成本上会大幅降低,在使用场景上会大幅增加。SAM的出现,无异于为XR行业安装了一台核动力引擎。

  国盛证券则表示,预计1—5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5—10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。

  进一步梳理相关产业链,以下公司业务或与SAM模型发展存在关联:

  【AI视觉】

  摄像头是AI视觉的信息入口,涉及CIS/镜头/摄像模组等环节。

  ①CIS

  韦尔股份:国内图像传感器芯片龙头。

  思特威:安防CIS龙头。

  格科微:全球CIS龙头。

  ②镜头/摄像模组

  永新光学:国内光学显微镜领域头部厂商。

  宇瞳光学:深耕光学二十余载。

  ③3D视觉方案

  奥比中光:是全亚洲首家、全球第四家掌握3D视觉感知全领域技术的平台型科创企业。

  【视频与图像数据】

  千方科技:国内智慧交通行业领先企业。

  视觉中国:提供优质正版图片、视频等视觉内容及增值服务。

  网达软件:形成高新视频技术平台、融合媒体生态系统及AI视频大数据平台的三大业务板块。

  当虹科技:专注于智能视频技术的算法研究,尤其在视频编码压缩与AI解析识别方向形成核心壁垒,把控超高清视频传输关键环节。

  虹软科技:计算机视觉行业领先的算法服务提供商及解决方案提供商。

  万兴科技:提供为用户的图像进行各种高质量的AI处理和渲染,可实现相应算力的充分保障。

  【机器视觉】

  奥普特:拥有完整的机器视觉核心软硬件产品。

  柏楚电子:核心技术在于自主研发,集中在计算机图形学(CAD)、计算机辅助制造(CAM)、数字控制(NC)、传感器和硬件技术五大方面。

  天准科技:具备核心机器视觉能力的工业智能装备龙头,处于机器视觉产业链中游核心。(林玉莲)