复旦大学邱锡鹏:新一代大模型将支持各种模态 与更多实际场景结合

2024-03-25 12:18:24 来源:上海证券报·中国证券网 作者:谭镕 记者 宋薇萍

  上证报中国证券网讯(谭镕 记者 宋薇萍)3月24日,复旦大学计算机科学技术学院教授邱锡鹏在2024全球开发者先锋大会大模型前沿论坛表示,过去一年见证了以ChatGPT为代表的单模态大模型趋向成熟。双模态大模型开始蓬勃发展,通过文本和图像的结合,或文本和语音的结合,可以支持更丰富的交互与创作,“开创了繁荣的AIGC时代”。

  邱锡鹏表示,当前,一体化多模态大模型初现端倪,可以支撑更复杂的多模态任务。而下一代多模态大模型应以语言为中心融合多种模态,任意模态组合输入输出,即“Any to Any”,并赋能应用场景和生产力变革。

  他说,当前多模态系统的开发方向是增强LLM的多模态感知能力,然而,该策略仅限于文本生成,不包含多模态输出。虽然以GPT-4为代表的开创性工作取得了多模态理解和生成的重大进展,但仅支持单一的非文本模态,如图像或音频。

  据悉,复旦大学邱锡鹏团队提出了多模态语言模型AnyGPT,可以以任意的模态组合来理解和推理各种模态内容,并能熟练地选择合适的多模态组合进行响应。

  “AnyGPT,即意味着对Any to Any的追求。”邱锡鹏表示,新一代大模型的交互将完全是多模态的,实现任意模态到任意模态的转化,大模型将与更多实际生活场景相结合,产生更多新“玩法”,未来的具身人工智能发展将重点追求多模态综合理解能力提升。