当“语音”遇上人工智能——读《声音捕手：获取人们感受、隐私和金钱的智能语音营销》

　　当声音遇到AI技术时，一个崛起的新产业——“智能语音”开始重塑媒体沟通、营销传播、社会治理等的规范与结构。美国宾夕法尼亚大学传播学教授约瑟夫·图罗是媒体传播、营销与社会领域的顶尖学者，他在自己的专著《声音捕手：获取人们感受、隐私和金钱的智能语音营销》中创造性地利用多种信息来源，讲述了全球，尤其是欧美的智能语音产业的发展境况，展现了这个新兴产业如何形成，如何影响商业生态、法律和社会，同时引领人们看透被科技“巨头”伪装的表象，直面众人关心的诱导式监控、个人隐私数据保护、算法歧视等问题。

　　语音里藏着许多“宝藏”

　　“你的声音是独一无二的，它只属于你自己。”人的声音，是最好的个人身份识别符。声音不仅是一种物理现象，包含音调、速度、重音、停顿等生理学意义上的数据，而且还嵌入围绕声音的产生、感知和传播而形成的社会关系里。如今，语音分析主要用于验证一个人的身份。相应的手段便是语音认证，人们越来越频繁地借助它向银行、投资公司、电话公司等机构的工作人员证实自己与相关账户的关系。语音认证与指纹、面部识别、行为模式一样，可以用来识别某个人的身份。

　　在书中，作者提到，由于身体各神经之间存在联系，特定的情绪会影响声音的产生。这是因为支配喉部肌肉的神经与许多神经，尤其是迷走神经相联系，而迷走神经又会严重影响身体对情绪的反应。人们说话时会在不经意之间提供关于自己的其他信息，即语音里藏着“宝藏”。

　　譬如，许多研究证明了体重和声音之间存在一定联系。体重越重，男性的声音越高昂，而女性的声音越低沉。研究人员甚至可以根据5岁儿童的声音频率判断其体重。声音的某些特征可以揭示一个人的身高，并且与实际身高的误差不超过3英寸。个子高的人发出的声音与个子矮的人不同，这是因为前者有更长的声道和更大的肺。通过声音还可以大致判断一个人的健康状况，身体健康的人发出的元音明显更清楚，声音也能够传得更远，并且不会出现声音抖动。

　　有了这些发现之后，科技“巨头”们的研究人员还试图运用AI技术去挖掘人的声纹和某些身体特征之间的联系模式。具体做法是，在控制年龄、体重及其他身体特征等变量的条件下，将声纹加载到计算机上，然后让计算机去分析特定声纹与研究人员感兴趣的身体特征之间是否存在某种持续的联系。如果经过分析后发现存在这样一种联系，那么计算机就能在每个人的声纹中检测出那些特定的声纹。

　　比如，一个伴有咳嗽和鼻塞症状的女人对一款智能音箱说：“我饿了。”该设备在通过“处理语音数据，并对用户语音的音调、节奏、发声方式、颤动、和谐度加以分析”后，检测出说话人的语音异常，最终得出该用户感冒了这一结论。基于这一结论，智能音箱又询问对方是否需要喝鸡汤，在对方拒绝后，它又提议购买一小时即可送达的止咳糖浆。

　　这个情景让人觉得智能语音设备似乎可以给人们提供很多帮助。然而，人工智能程序的真正目标是，通过了解用户需要喝鸡汤及同意购买止咳糖浆的频率，推断这个人短期或长期的健康状况。关于用户健康状况的信息颇具市场价值，通过语音了解用户是否生病能使药房从中获利，它可以相应地为用户提供治疗建议、订购并配送处方药。

　　一旦语音被“定位”和“画像”

　　作者在调查研究过程中有一个新发现：营销科学家或企业家可以利用“语音”，通过人工智能技术对购物者身份和偏好进行实时洞察。这为营销者提供了一个崭新的工具，从而帮助他们更好地了解消费者，制定更精准的营销策略。

　　作者发现，亚马逊公司在其隐私政策中，有一个需要点击才能阅读的关于个性化广告的问答，其内容指出，它会使用人们和智能助理语音对话的文字转写稿，来进行受众“定位”和“画像”。谷歌公司则更加直白地在通用隐私政策中写道，当用户使用谷歌技术的音频功能时，它会收集并使用声音和音频信息，进行个性化的定向营销。作者认为，谷歌公司的目的仍旧指向了使用语音分析结果，补充它为顾客所创建的“个人画像”。

　　众多科技“巨头”提出的所谓“画像”，是基于语音的定向“个性化营销”，即通过收集用户的 “声纹”和声音信息数据，来构建一个虚拟版本的你并提前预判你的选择和行为，以提供非常丝滑的个性化推荐和服务。

　　作者认为，终极版本的“画像”，甚至能比活生生的营销人员，更能基于你过往的语音和购买行为，来读懂你的“言外之意”和预判你真实的购买意图。而这样的“画像”也将彻底融入大众生活之中，当你习惯性地用语音打开卧室灯、播放古典音乐时，就会被预判正在进行睡前阅读，再被不失时机地推送你可能感兴趣的书籍、广告或其他信息。

　　语音产业顾问布雷特·金塞拉通过对比研究也发现：“设计这些设备的初衷是为便捷化用户的生活提供帮助。随着时间的推移，用户会授予语音助手越来越多的权力，让语音助手代表用户完成某些任务。”

　　为了写作本书，作者还深入多家科技“巨头”公司收集素材，在调研和走访过程中，作者发现众多公司对“人们说话内容和说话方式”展开的分析，远远多于他们透露和展示出来的内容。他们等待着人们对语音设备运用规模的扩大，直到语音助手几乎融入人们的生活中。那时，这些公司才会进入“高速发展阶段”，将一系列关于人们的语音、人口统计特征、行为、心理统计特征和位置等数据，整合到近乎终极版的“画像”之中，让人们彻底习惯性地获得“个性化的购买建议、搜索结果、地图导航和广告”。

　　作者将这种全新的营销策略称之为“诱导式监控”。这是科技研究专家皮内洛皮·特鲁利诺在她2017年的博士论文中所发明的概念，是指企业通过积极向目标群体展现其产品的吸引力特征，以抵消客户的顾虑，让他们即使冒着被监控的风险，也认为购买和使用这些设备是值得的。正如特鲁利诺所指出的那样，“用户会被有关便利性、高效性和娱乐性的言论引诱，情愿交出个人数据，从而成为被监控的对象”。

　　审视语音画像背后的“螺旋效应”

　　智能语音行业中的一些专业人士正在传播这样的一种理念：哪怕是从一个人的背景和行为中得到的最有用的结论，也比不上更深层次的分析结果，因为这些分析会将各种特征与个人的用词及用词模式，甚至与人们声音的物理特征结合起来。很显然，他们的目标是利用“诱导式监控”来实现一种极端的个性化营销：要做到比用户自己更了解用户。营销者正试图获取大量的声音、话语内容及其他新型数据来实现这一目标。

　　像苹果、亚马逊、谷歌、特斯拉、三星、微软这样的科技“巨头”，它们拥有大量语音分析相关的专利。现在它们的智能音箱也在提取声纹进行识别，因此语音“画像”对它们而言更容易实现。但人们必须认识到，从某种意义上讲，它们是世界上最大的“广告公司”，而且它们有能力将声纹与其他的人口特征或者购买行为数据进行匹配，从而实现更加精准的广告推送，本质上会强化它们的“垄断地位”。

　　作者在书中毫不讳言地指出，关于隐私问题的争论会愈演愈烈，企业管理者有时候认为，消费者愿意为了获取便利而牺牲隐私，这或许正好进一步强化了个性化战略的“螺旋效应”：一方面，企业希望能够透过个性化来创造新的竞争壁垒；另一方面，消费者似乎也默认了这样的个性化，因为语音画像的歧视往往更容易，也更隐蔽。

　　具体来说，企业可以通过“诱导式监控”战略，避重就轻，夸大产品的优点，让用户不断地参与其中，并透露自己的身份信息，进一步扩大企业监控或追踪用户的空间，进而采用各种策略塑造用户的使用习惯。这个过程值得引起社会各界警惕。

　　随着人们日益依赖语音助手等触发式技术，个人贡献的数据将越来越多，此时的“自由”变成了你在企业为你提供的个性化选择中进行抉择，而企业的依据是，你的声音不会说谎，这些就是你想要的。特别是当数以亿计的人遇到数十亿个这样的个性化选择时，我们的社会或许就会面临某种危机及潜在风险，人们可能会习惯性地在生活的各个领域中失去真正的自由，从而陷入由生物特征驱动的“宿命论陷阱”。

　　无论是贝克的《风险社会》，抑或吉登斯的《失控世界》，都指向现代社会的一个共同命题，即技术与风险的关联性。对此，作者不忘提醒世人：语音产业是一把双刃剑。我们无须过多讨论一个笔尖能站多少位天使，而应该更多地了解技术发展及其背后的科技伦理问题。在这本书中，作者所着力做的，就是让人们意识到智能语音技术的现状和未来发展前景，意识到我们必须提前做好哪些应对策略和人文关怀。