大模型“主创”聚首 共议技术路径升级

2024-03-25 10:55:39 来源:上海证券报·中国证券网 作者:谭镕 记者 宋薇萍

  上证报中国证券网讯(谭镕 记者 宋薇萍)3月24日,2024全球开发者先锋大会大模型前沿论坛上,阿里通义、腾讯混元、MiniMax ABAB、商汤商量、书生·浦语五个大模型的技术负责人“同框”,从大模型的数据、模型架构、效率、多模态、成本控制、场景适配等方面展开讨论,热议大模型技术瓶颈和未来演进方向。

  “合成数据会在未来大模型训练中扮演更加重要的角色,通过使用合成数据,有望使语言模型和多模态模型,仅靠自己便获得能力提升。”阿里通义算法负责人周畅表示,升级数据处理能力将是提升模型研发水平的重要方向之一。

  腾讯混元大模型算法负责人康战辉则从模型语义架构上分享了对技术路线的理解,他表示,Mixture of Experts (MoE)架构特性非常优良,当前部分优秀模型的良好性能表现,证明了该架构的可靠性和高效率。未来,参数量较小的“小”模型可能在应用端会表现出更好的效率和“性价比”,全模态输入输出的大模型将是下一阶段研究目标。

  从大模型赋能应用的角度来说,“规模化发展和各行各业的实践都表明,大模型在编程、办公、医疗、金融及互动娱乐等领域,都有助于提高工作效率。”稀宇科技技术副总裁安德森说,未来如何将大模型与其他工具结合是重点考虑方向。他说,用户的行为反馈将为创造更好的智能体提供重要依据。

  “大语言模型能够基于知识完成基础的用户交互,通过推理能力对复杂任务进行分析,并且以代码作为媒介,与现有的软件系统联结,以完成最终的任务执行。”商汤科技大装置执行总监成功说,在这种范式下,开发者使用代码这一天然语言,可以将大模型能力与应用开发更好地结合起来,推动技术在更多场景落地。

  上海人工智能实验室青年科学家陈恺则以短期、长期两个视角区分大模型对应用的赋能。他说,在短期内,大模型将以与现有业务系统的集成为主;从长期来看,传统的人机协作将以人为中心,随着大模型能力的提升,可能转向更加平衡的人机协作模式。