Meta推出AI抠图神器,机器视觉迎来高光时刻?
当地时间4月5日,Facebook母公司Meta在推特宣布推出SAM模型(Segment Anything Model)并开源。该模型能够查找和分割图像和视频中的任何对象,实现一键抠图。同日,Meta还发布了自称有史以来最大的图像注释数据集,以及30页详解论文《Segment Anything》。
SAM是首个专攻计算机视觉领域(CV)的图像分割基础模型,已在1100万张图像和11亿个掩码的海量数据集上进行了训练(比现有数据集大400倍)。基于大规模训练数据集,SAM取得的直接成果是,完成一个目标的注释只需要大约14秒,比过去COCO的完全手动基于多边形的掩码注释快6.5倍,比之前最大的数据注释工作快2倍。
如果说此前势如破竹的GPT-4 已经做到“回答一切”,SAM的目标在于精准“分割一切”。相较于广泛可见的手动抠图功能,SAM在操作层面主要有以下几个方面的显著亮点:
第一,万物识别。“零样本性能”是它的强大之处,在面对没有见过的物体时,SAM不需要额外训练也能将它识别出来。
第二,可处理文本、关键点、边界框等多模态提示。如输入具体文字如“CAT”,SAM就可以在图片中分割出物体。
第三,给出任意图片,SAM可以自动分割图像中的所有单品并一件件归类。
第四,视频方面,SAM也能准确识别并快速标记,并自动用ID给这些物品进行记录和分类。
第五,SAM接受来自其他系统的输入提示、输出物体信息到其他AI系统。既能够根据AR/VR头显传来的用户视觉焦点信息,来选择对应的物体。也可以通过成像编辑应用程序,将物体的mask变成3D,或用于拼贴等创造性任务。
在过去不到一周的发酵时间里,该模型打开了市场对产业方面大规模应用的想象空间。SAM模型强大的分割能力,也让英伟达人工智能科学家Jim Fan在推特上将其称为“CV领域的GPT3时刻”。让市场最关心的问题是,哪些产业最有可能直接受益呢?
综合多家券商观点,颠覆机器视觉领域是一致预期,“AI视觉”“AR”“VR”则成为高频关键词,工业自动化、自动驾驶、安防等领域同为期待商用方向。西部证券指出,Meta此次推出SAM预示着大模型在多模态发展方面更进一步,布局计算机视觉/视频的厂商有望在Meta产品推出的背景下持续受益。
民生证券进一步研判,SAM模型可能不仅仅是计算机视觉领域的GPT3时刻,它的开源更可能是AR/VR领域的安卓时刻。XR在SAM的赋能下具备了通过图像理解现实的能力,在内容制作成本上会大幅降低,在使用场景上会大幅增加。SAM的出现,无异于为XR行业安装了一台核动力引擎。
国盛证券则表示,预计1—5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5—10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
进一步梳理相关产业链,以下公司业务或与SAM模型发展存在关联:
【AI视觉】
摄像头是AI视觉的信息入口,涉及CIS/镜头/摄像模组等环节。
①CIS
韦尔股份:国内图像传感器芯片龙头。
思特威:安防CIS龙头。
格科微:全球CIS龙头。
②镜头/摄像模组
永新光学:国内光学显微镜领域头部厂商。
宇瞳光学:深耕光学二十余载。
③3D视觉方案
奥比中光:是全亚洲首家、全球第四家掌握3D视觉感知全领域技术的平台型科创企业。
【视频与图像数据】
千方科技:国内智慧交通行业领先企业。
视觉中国:提供优质正版图片、视频等视觉内容及增值服务。
网达软件:形成高新视频技术平台、融合媒体生态系统及AI视频大数据平台的三大业务板块。
当虹科技:专注于智能视频技术的算法研究,尤其在视频编码压缩与AI解析识别方向形成核心壁垒,把控超高清视频传输关键环节。
虹软科技:计算机视觉行业领先的算法服务提供商及解决方案提供商。
万兴科技:提供为用户的图像进行各种高质量的AI处理和渲染,可实现相应算力的充分保障。
【机器视觉】
奥普特:拥有完整的机器视觉核心软硬件产品。
柏楚电子:核心技术在于自主研发,集中在计算机图形学(CAD)、计算机辅助制造(CAM)、数字控制(NC)、传感器和硬件技术五大方面。
天准科技:具备核心机器视觉能力的工业智能装备龙头,处于机器视觉产业链中游核心。(林玉莲)