凤凰大模型数据研讨沙龙在北京举行 凤凰卫视推出全新AI数据业务

2023-11-14 21:29:52 来源:上海证券报·中国证券网 作者:罗茂林

  上证报中国证券网讯(记者 罗茂林)11月13日,“数聚未来——凤凰大模型数据研讨沙龙”在北京举行,凤凰卫视执行副总裁兼运营总裁李奇,微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍,华为EI产品部部长尤鹏,智谱AI副总裁刘佳,MiniMax副总编辑苏彤等多位行业代表出席本次论坛,共同探讨高质量数据构建与基于数据驱动的大模型训练优化。

  凤凰卫视执行副总裁兼运营总裁李奇在致辞中表示,数据仍然是目前人工智能发展的短板之一。数据就像是人工智能时代的石油资源,它的开发和应用都将是一个系统工程,需要产业界无数企业共同参与。凤凰卫视作为一个立足香港、背靠内地、面向全球发展的国际媒体,也将是人工智能时代的积极参与者,期望发挥凤凰的媒体平台优势,为产业界建立一个共建共享的数据平台,共同推进人工智能的快速发展。

  微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍认为,围绕大模型,目前已经形成由基础设施层、模型层、应用层共同构成的AIGC生态体系。对于媒体而言,AIGC将带来内容生产方式的变革,AIGC时代的内容质量、效率及产量都将迎来高速发展。在未来,AI将创造出一种新型的“人机共存消费模式”。

  智谱AI副总裁刘佳认为,随着2020年ChatGPT的问世,生成式AI步入“第一阶段”。而在当前,市场已进入“第二阶段”,生成式AI开始在千行百业落地。刘佳形容说,之前我们找到了锤子,现在我们要发现更多的钉子,让大模型的能力应用落地。

  会上,中国科学院信息工程研究所研究员张潇丹介绍了“正向价值”对于大模型的重要性。她表示,虽然大模型正处在蓬勃发展的时代,但也存在诸多风险因素,比如虚假信息的生成、语言偏见等,这些风险源自于训练数据的偏颇、模型自身逻辑缺陷及缺乏纠错能力等,因此亟需建立大模型的正向价值体系。

  此次讨论沙龙上,凤凰卫视正式推出旗下面向AI时代的全新业务——“凤凰智媒AI数据业务”,并发布首批“中文访谈对话数据集”和“正向价值对齐数据集”。凤凰卫视融媒体研发副总经理冯伟表示,高质量的数据语料库是AI时代承载中华文化的新载体,凤凰数据的核心目标是为AI时代的中华文化传播奠定坚实基础,让AI与中华文化认知对齐更简单。

  其中,“中文访谈对话数据集”基于凤凰卫视访谈类节目生成,规模达百万轮次,连续对话的平均轮次超30轮次。“正向价值对齐数据集”的构建则以权威学术团队的研究成果为指导,由凤凰卫视专业内容团队人工撰写而成,规模达十万个问答对。

  除上述两个数据集外,凤凰数据还有多个数据集正在加工生成中,包括面向财经领域的评论数据集、面向视频内容理解领域的视频问答数据集、面向数字人领域的谈话动作数据集和语音合成数据集等。同时,凤凰数据也在同相关数据伙伴共同构建具有高价值和稀缺性的高质量数据集,包括华语图文对数据集、华语书籍数据集和网络流行语数据集。

  除了高质量数据集产品外,凤凰数据还将推出以数据为中心的一站式AI训练平台,计划于近期开放内测。平台将与高质量数据集市实现互联互通,确保数据在平台内的安全使用。平台也将提供一系列以数据为中心的服务,包括丰富的数据处理工具、可视化模型训练和微调套件、全面的数据和模型评估框架和多云异构的算力资源。

  据悉,2024年,凤凰数据计划分三批发布更多高质量数据集,并正式上线AI训练平台。同时,凤凰数据还将举行“Link+科技峰会”和“AI数据挑战赛”等系列活动,连接各界,解决行业痛点,共同推进AI与华语文化的认知进程。