复旦大学邱锡鹏：新一代大模型将支持各种模态与更多实际场景结合

　　上证报中国证券网讯（谭镕记者宋薇萍）3月24日，复旦大学计算机科学技术学院教授邱锡鹏在2024全球开发者先锋大会大模型前沿论坛表示，过去一年见证了以ChatGPT为代表的单模态大模型趋向成熟。双模态大模型开始蓬勃发展，通过文本和图像的结合，或文本和语音的结合，可以支持更丰富的交互与创作，“开创了繁荣的AIGC时代”。

　　邱锡鹏表示，当前，一体化多模态大模型初现端倪，可以支撑更复杂的多模态任务。而下一代多模态大模型应以语言为中心融合多种模态，任意模态组合输入输出，即“Any to Any”，并赋能应用场景和生产力变革。

　　他说，当前多模态系统的开发方向是增强LLM的多模态感知能力，然而，该策略仅限于文本生成，不包含多模态输出。虽然以GPT-4为代表的开创性工作取得了多模态理解和生成的重大进展，但仅支持单一的非文本模态，如图像或音频。

　　据悉，复旦大学邱锡鹏团队提出了多模态语言模型AnyGPT，可以以任意的模态组合来理解和推理各种模态内容，并能熟练地选择合适的多模态组合进行响应。

　　“AnyGPT，即意味着对Any to Any的追求。”邱锡鹏表示，新一代大模型的交互将完全是多模态的，实现任意模态到任意模态的转化，大模型将与更多实际生活场景相结合，产生更多新“玩法”，未来的具身人工智能发展将重点追求多模态综合理解能力提升。

复旦大学邱锡鹏：新一代大模型将支持各种模态 与更多实际场景结合

复旦大学邱锡鹏：新一代大模型将支持各种模态与更多实际场景结合