“紫东太初”2.0全链条“中国造” 思考起来更像“人”

　　不光能读懂文字、图像，还能理解音频、视频甚至3D模型、传感信号，思考起来更像“人”。6月16日，中国科学院自动化研究所发布“紫东太初”全模态大模型。作为升级后的2.0版本，它不仅能力提升，还做到全链条“中国造”，打造出全栈国产化的通用人工智能底座。

　　何谓全模态大模型？“人的学习受到现实世界中视觉、听觉、触觉、嗅觉等各种信号的综合影响，每一类信号都是一种模态，人类的学习过程是全模态的，但目前最常见的大语言模型仍以文字、图片为主，对音频、视频等信息的识别能力不足。”中科院自动化所紫东太初大模型研究中心常务副主任王金桥介绍，在“紫东太初”诞生之初，科研团队就提出要像养育婴儿一样，为它营造全模态的学习环境。

　　2021年7月，全球首个千亿参数的多模态大模型“紫东太初”1.0发布，实现图像、文本、语音三类数据相互生成。历经近2年的迭代，“紫东太初”2.0的能力再升级，能“看懂”来自现实世界的影像数据、力触觉、工业传感信号等物联数据，可以像“人”一样综合运用多种信号进行思考。

　　给出一张救护车图片、一段森林救火视频和一段警笛音频，“紫东太初”能识别并讲述出一段完整的救援过程；而将一张图书馆的照片和汽车鸣笛声音频同时输入，它则快速发现了其中的矛盾，认为这段音频不太可能出现在图书馆场景之中。

　　在同样的参数量级中，多模态大模型的能力强于纯粹的语言大模型，这意味着“紫东太初”可以用更少的训练数据实现更优的效果，但对科研的挑战更大。王金桥说，得益于团队在多模态数据领域的多年积累，科研人员以语义为桥梁，将音频、视频、物联数据等模态联系起来，“在这条研发路径上，我们走在了世界前列”。

　　“从算法到硬件、算力，‘紫东太初’都是‘中国造’。”王金桥表示，大模型算法为中科院自动化所自研，以国产化人工智能硬件和框架作为基础，算力则由武汉人工智能计算中心提供支持，“在国产软硬件的支撑下，我们的大模型一样能跑得很好、很快。”

　　大模型所掌握的数据种类越多，与真实世界的交互能力就越强，在不远的将来，多模态大模型将普惠千行百业。目前，“紫东太初”大模型已在法律咨询、交通出行、医疗健康等领域开始引领性示范，并开放服务平台，支持各行业根据需求“组装”模块，输入行业样本数据产出自主可控的行业相关大模型。中科院自动化所所长徐波表示，未来3至5年，包括“紫东太初”在内的我国大模型技术，将在促进数字经济发展方面发挥重要作用，进一步提升各行业的劳动生产率。