商汤科技获颁上海临港新片区智算产业链链主!解析AI大装置能力,徐立的演讲实录来了!

2023-06-02 21:09:31 来源:上海证券报·中国证券网 作者:宋薇萍

  上证报中国证券网讯(记者 宋薇萍)6月2日上午,“AI引领时代,算力驱动未来”——临港新片区智算大会在临港中心举行。会上,商汤科技获颁“新片区智算产业链链主”。接下来,商汤科技将积极参与到临港智算产业链的协同融合和集聚发展。

  商汤科技是领先的人工智能软件公司,位于临港新片区的商汤科技智能计算中心承载着长三角开展大规模人工智能研发和产业化重任。

  会议现场,商汤科技董事长、CEO徐立进行了《算力的价值——AI大装置能力解析》主题演讲及大模型现场演示,分享了基于商汤大装置SenseCore实现的语言、气象、遥感等领域大模型的最新成果。他说,以大装置为基础,商汤打造高效率、低成本、规模化的下一代AI基础设施与服务,推进自身通用人工智能发展战略的同时,提供大模型算法、训练优化、推理优化、数据服务等,支持服务客户及生态伙伴训练大模型,赋能AGI时代生产新范式。

  以下是他的发言实录。

  算力的价值——AI大装置能力解析

  (商汤科技董事长兼CEO 徐立)

  刚刚听了书记的介绍,我也心潮澎湃。临港超前布局了整个算力的基础设施,特别是算力的聚集带来了新的生产范式。

  今天我想谈一谈,最近半年来,我们基于大装置、大算力取得的一系列新的成果。算力是新时代的能源,某种程度上,算力决定了市场的竞争力。

  这是一个很有意思的3D场景,以往构建这么一个大片区的场景,是需要很多的人工介入,而通过大算力的支持,结合神经渲染技术,能够在数小时里完成大片区的渲染和交互应用。

  4月份,我们发布了“商汤日日新SenseNova”大模型体系,当时,我们提出了新时代的算力、算法和数据之间的关系,可以用新的等式来表达。算力其实是整个模型能力的表达,算力等于算法或者说大模型的参数,去乘上它所处理的数据量。大模型时代参数越大,乘上的数据量越大,所需要的算力就越大。

  接下来分享一下,我们基于临港AIDC取得的一些成就。这些都是公开发布的大模型。首先我们在3月份的时候发布了开源的书生2.5模型,这是一个多模态、多任务的通用大模型,这个模型将感知智能推到了一个新的边界,能够处理大量通用的感知任务。

  举个例子,给一张简单的钟表图片,它可以识别出来现在是几点。类似于这样的感知和图片的标签,其实在诸多应用当中都有非常重要的推动作用,后面也会讲到。

  而且这样一个模型在三大主流视觉任务检测、分割、分类下的20多个公开数据集上面全部领先。包括后来发布的一些新的通用视觉模型的准确率,都没有我们当时开源的书生2.5的成绩高。

  我们再来看看第二个,人工智能赋能基础科学,即AI for Science。在气象气候预报任务中,全球中期天气预报是最重要的预测任务之一,同时理解地球本身复杂系统的一个运行,一直是人类的最终极目标。

  这是我们今年4月初发布的“风乌”AI大模型。这个模型建模了全球所有区域、高分辨率、37个大气高度场的全要素气象数据。用2018年的回溯数据来做预测,可以看到风乌的中期预报性能明显优于优于DeepMind的GraphCast模型,将全球中期气象预报的可用性能提高到了10天以上。得益于对高分辨率全球大气数据建模,我们可以解决一些突发的天气预报预测,可以准确地预测台风轨迹。这就是我们的大模型在这半年来带来的一些新的成果,在很多产业应用也会获得突破。

  这是我们在今年4月份发布的感知决策一体化的端到端自动驾驶解决方案UniAD,也是今年CVPR最佳论文的候选。首先,原来传统的无人驾驶,基本上是把感知、决策、规划分开,用不同的AI模型处理不同的任务。而在我们的大模型的体系下,将环视的图像通过 Transformer 映射得到 BEV 的特征,将感知、决策、规划在整体上做到了端到端的优化,能够用一个统一的通用模型来解决不同的模态问题。基于这样的解决方案,我们在一些数据集上超过了现有行业里面的最好成绩,比如车道线的预测准确率提升了30%,预测运动位移的误差降低了近40%,规划误差降低了近30%。因此,如果借助这样的一体化设计,未来无人驾驶会迎来更好的体验。

  这是我们在5月份发布的另外一个大模型——遥感大模型,利用书生2.5,可以处理不同的影像类型,不同的影像时间和谱段的遥感数据,并使它的泛化能力变得更强。我们推出的SenseEarth 3.0遥感大模型,涵盖25个语义分割模型,过去运行25个类别需要25个单位时间,现在只需要1个单位时间就可以完成25类数据的解译,大幅节省用户的时间成本。同时在解译精度方面,其中地物分割能力在百万级图斑验证集上的平均精度超过80%,直接满足各类业务场景的应用。

  比如这样一张遥感影像,我们的遥感大模型能够以非常快的速度,把数十类的标签打上去,从而完成各种类型的解译任务。


  接下来讲到开放世界的决策问题。我们在5月份基于我们的书生2.5,又发布了通才AI智能体GITM(Ghost in the Minecraft)。大家知道Minecraft《我的世界》这是一个非常流行的游戏,大概已经有2.38亿的销售量,月活超过1.4亿人次,也是各个游戏公司,以及像英伟达、DeepMind、OpenAI都在研究的游戏。


  我们之前从《星际争霸》的智能决策转到《我的世界》里面,也同时完成了一个世界第一的壮举,就是我们的引擎在里面能够收集到完整科技树的262种道具。举个例子,英伟达同期方法只能收到63种,OpenAI收到70多种,我们可以把场景当中所有道具全部收回来,这就是通过大模型的感知+决策,能够起到很好的效果。

  同样我们在获取钻石的任务上面,较之前最佳成绩(OpenAI提出的VPT方法),把成功率从20%提升到67%点多。这就是在我们临港AIDC上,推动的又一个的模型突破。

  4月份我们做了“商汤日日新SenseNova”大模型体系的发布,其中最关键的就是自然语言的大模型,在各类的模型测试中,包括开放式的对话、问答,以及一系列的综合性考试评测集中,都取得了非常好的效果。

  我想说的是,模型的评测并不关键,真正最关键的在于,模型本身是需要你跟它做交互,甚至是在更多情况下,知道它给出答案背后的逻辑,才能真正意义上体现大模型的能力。

  举个例子,我们用不同的语言来说“你好,世界”,然后再给出这样的一个表格设置,所以它很简单,首先考验它的知识量,其次还有一个结构化的输出。

  第二个问题,这个相对复杂一点,比如让巴菲特、成吉思汗和焦裕禄这三个人发生关联,完全风马牛不相及的三个人。首先大模型能够理解出来谁是谁,巴菲特是投资家,成吉思汗是军事家,焦裕禄是优秀的共产党员。但除此之外它还真正意义上能够找到他们身上的共同点:追求卓越、坚韧不拔,并且他们同时都关注社会问题,并且都拥有着很强的领导能力。所以可以看得出来说,除了理解这几个人的简单名字和故事之外,还能够真正意义上抽象出来背后的相似度。

  第三个问题,是我们展示过的多轮对话的超强理解能力。这篇文章讲的是沈从文第一次去上课,没有带课件,然后很紧张的一个故事。通过我们的问答,它也总结了沈从文在这个过程当中的表现,甚至我们可以问它沈从文为什么没有带课件,是因为他自己觉得已经准备好了,所以没有带课件,并且还能给出人物的关系,比如他是徐志摩介绍的等等,这一系列的内容,都可以通过一个简单的文本就把背后复杂的联系给解释出来。所以,未来如果给出更多这样的一些案例的话,其实是可以用机器来给出最后一个总结。

  今天早上,我问了它一个关于金庸的很有意思的问题,我说前段时间去杭州看到某地有金庸的一句话,“灵隐九里西湖路,云松伴青桑”,因为不是在一个开放的地方,所以我相信这句话其实网络上很少,它应该没有读过,所以我就问它知道后半句吗?

  我们的引擎就回答,“灵隐九里西湖路,云松伴青桑,烟波浩渺入望眼,白帆数点孤山傍。”我一听以为是真的,好好研究一下,发现其实不是。但即使不是真的,也可以看到它描绘了一幅美丽的画卷,从灵隐寺到西湖,几艘小船在水中荡漾,以及孤山的场景。他给出的这种深层的东西其实是很有意境的。

  我说其实原句我看了一下,应该是“灵隐九里西湖路,云松伴青桑;藏剑影,隐刀光,入门闻书香”。那么我说,你能不能为此写对一个下联,他说,当然可以。这样它写一个下联叫“清音十里钱塘潮,海鸥逐浪飞;听琴韵,观舞袖,临窗赏月明。”那么它下边是用“十里钱塘潮”,对“九里西湖路”,实际上它既知道西湖在什么位置,钱塘在什么位置,并且能够把整个的“入门闻书香”对应到“临窗赏月明”,所以这就是整个大模型的能力,不在于说它读没读过这句话,而在于在交互当中真正是可以展现出来对于事情背后的理解。

  除此之外,我们用这样的大模型,还赋能了代码的协作。商汤的人工智能代码助手,其实是支撑起来了我们行业大量的代码服务应用。这是除了GPT以外的,国产的性能最高的一个代码助手,同时我们也开放我们的接口给到合作伙伴。

  在过去的一个月内,我们把代码助手通过大装置,将推理效率提升了619%,也就是它可以用很低的成本完成代码的读写翻译。那么,未来我相信程序员的新的二八定律的诞生,也就是未来80%的时间都是用来跟机器去做对话,20%的时间才是真正的写,机器会完成我们大部分的人力工作。

  这是“商汤日日新SenseNova”大模型体系的整个路线图,我们从视觉、自然语言、多模态、AI内容生成,以及智能决策。我们在4月份的基础上,又画上了3~4个新的点,并且我们用这些大模型赋能了我们一系列的产品。包括 “商汤如影SenseAvatar”数字人视频生成平台,“商汤琼宇SenseSpace/格物SenseThings ”3D内容生成平台,“商汤商量SenseChat”中文语言大模型应用平台、“商汤秒画SenseMirage”文生图平台等,也希望我们有更多的产品能够接入到“商汤日日新SenseNova”大模型体系当中。

  今天,我们临港AIDC中已经有接近3万块的GPU,这也得益于临港的前期有一个面向长远的布局,所以我们的基础设施赋能了大量的成果,而这也只是在半年之内发生的成果。我们目前的算力已经达到5000P,在这之上我们相信未来可以有更好的开发者效率,并且都能够支持更多千亿规模的大模型算力训练。

  当然我们还有很多外部的客户,其实也取得了非常好的成绩,以后有机会再给大家分享。我们有超过40多个核心的KA客户,包括在基础科研领域、大模型领域,以及医疗等细分应用领域,都取得了非常显著的成果。我们也希望通过临港AIDC,我们的商汤大装置能够接入更多的产业合作伙伴,一起共同赋能算力新时代。