Meta推出AI抠图神器，机器视觉迎来高光时刻？

　　当地时间4月5日，Facebook母公司Meta在推特宣布推出SAM模型（Segment Anything Model）并开源。该模型能够查找和分割图像和视频中的任何对象，实现一键抠图。同日，Meta还发布了自称有史以来最大的图像注释数据集，以及30页详解论文《Segment Anything》。

　　SAM是首个专攻计算机视觉领域（CV）的图像分割基础模型，已在1100万张图像和11亿个掩码的海量数据集上进行了训练（比现有数据集大400倍）。基于大规模训练数据集，SAM取得的直接成果是，完成一个目标的注释只需要大约14秒，比过去COCO的完全手动基于多边形的掩码注释快6.5倍，比之前最大的数据注释工作快2倍。

　　如果说此前势如破竹的GPT-4 已经做到“回答一切”，SAM的目标在于精准“分割一切”。相较于广泛可见的手动抠图功能，SAM在操作层面主要有以下几个方面的显著亮点：

　　第一，万物识别。“零样本性能”是它的强大之处，在面对没有见过的物体时，SAM不需要额外训练也能将它识别出来。

　　第二，可处理文本、关键点、边界框等多模态提示。如输入具体文字如“CAT”，SAM就可以在图片中分割出物体。

　　第三，给出任意图片，SAM可以自动分割图像中的所有单品并一件件归类。

　　第四，视频方面，SAM也能准确识别并快速标记，并自动用ID给这些物品进行记录和分类。

　　第五，SAM接受来自其他系统的输入提示、输出物体信息到其他AI系统。既能够根据AR/VR头显传来的用户视觉焦点信息，来选择对应的物体。也可以通过成像编辑应用程序，将物体的mask变成3D，或用于拼贴等创造性任务。

　　在过去不到一周的发酵时间里，该模型打开了市场对产业方面大规模应用的想象空间。SAM模型强大的分割能力，也让英伟达人工智能科学家Jim Fan在推特上将其称为“CV领域的GPT3时刻”。让市场最关心的问题是，哪些产业最有可能直接受益呢？

　　综合多家券商观点，颠覆机器视觉领域是一致预期，“AI视觉”“AR”“VR”则成为高频关键词，工业自动化、自动驾驶、安防等领域同为期待商用方向。西部证券指出，Meta此次推出SAM预示着大模型在多模态发展方面更进一步，布局计算机视觉/视频的厂商有望在Meta产品推出的背景下持续受益。

　　民生证券进一步研判，SAM模型可能不仅仅是计算机视觉领域的GPT3时刻，它的开源更可能是AR/VR领域的安卓时刻。XR在SAM的赋能下具备了通过图像理解现实的能力，在内容制作成本上会大幅降低，在使用场景上会大幅增加。SAM的出现，无异于为XR行业安装了一台核动力引擎。

　　国盛证券则表示，预计1—5年内，随着多模态的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5—10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。

　　进一步梳理相关产业链，以下公司业务或与SAM模型发展存在关联：

　　【AI视觉】

　　摄像头是AI视觉的信息入口，涉及CIS/镜头/摄像模组等环节。

　　①CIS

　　韦尔股份：国内图像传感器芯片龙头。

　　思特威：安防CIS龙头。

　　格科微：全球CIS龙头。

　　②镜头/摄像模组

　　永新光学：国内光学显微镜领域头部厂商。

　　宇瞳光学：深耕光学二十余载。

　　③3D视觉方案

　　奥比中光：是全亚洲首家、全球第四家掌握3D视觉感知全领域技术的平台型科创企业。

　　【视频与图像数据】

　　千方科技：国内智慧交通行业领先企业。

　　视觉中国：提供优质正版图片、视频等视觉内容及增值服务。

　　网达软件：形成高新视频技术平台、融合媒体生态系统及AI视频大数据平台的三大业务板块。

　　当虹科技：专注于智能视频技术的算法研究，尤其在视频编码压缩与AI解析识别方向形成核心壁垒，把控超高清视频传输关键环节。

　　虹软科技：计算机视觉行业领先的算法服务提供商及解决方案提供商。

　　万兴科技：提供为用户的图像进行各种高质量的AI处理和渲染，可实现相应算力的充分保障。

　　【机器视觉】

　　奥普特：拥有完整的机器视觉核心软硬件产品。

　　柏楚电子：核心技术在于自主研发，集中在计算机图形学（CAD）、计算机辅助制造（CAM）、数字控制（NC）、传感器和硬件技术五大方面。