《大西洋月刊》：智能音箱，想说信任你不容易-网络治理的专栏

《大西洋月刊》：智能音箱，想说信任你不容易

2018-11-28 12:21:11栏目：默认栏目 IP属地：北京市

来源：新浪美股

编译：柠楠

导读：《大西洋月刊》新一期封面文章称，声音的革命才刚刚开始。现在智能音箱是听话的助手，不久或将成为用户的老师、治疗师、密友、告密者……

我们全都为Alexa 、Google Assistant、Siri或其他智能音箱倾倒。笔者说它“智能”，是指其具备人工智能，能够进行基本对话、能上网，从而能够查找内容和为用户做事。各个年龄群体的“愤青”都怀疑他们的虚拟助手会偷听，这并不是没有道理的。智能音箱是公司监视我们搜索和购物的又一办法。由于必须能够听到“唤醒词”（引起注意让其服务的指令），即使未与智能音箱交互，它的麦克风也在倾听。

到2021年，虚拟个人助手数量几乎和全球人口一样多。

智能音箱制造商承诺，只有唤醒词之后的说话内容才会保存到云，而且至少谷歌和亚马逊让用户能够轻松删除对话。但是经常会发生一些古怪的故障，比如Alexa在未听到用户唤醒词的情况下录下一个家庭的私人对话发给他们联系人名单上的一位熟人。亚马逊解释道，Alexa一定是由听起来像Alexa 的词唤醒，然后误以为接下来的谈话是一系列的指令。这样的解释并不能让笔者释怀。

然而，对隐私的担忧并不能阻止这些设备进入我们的家庭。笔者问Echo销量多大时亚马逊未透露确切数字，但称有数千万。技术研究公司Canalys称，到去年年底，全球已安装了4000多万台智能音箱。根据目前的销售情况，Canalys估计，到今年年底，这一数字将达到1亿。据NPR和Edison Research今年的一项联合报告，有800万美国人拥有三个或更多的智能音箱，说明他们觉得有必要始终在声音所及范围内放一台智能音箱。另一家研究机构Ovum称，到2021年全球智能音箱数量几乎与人类相当。大约30年时间手机数量才超过人类，也许不到一半的时间Alexa及其类似智能音箱便能达到这一数量。

原因之一是亚马逊和谷歌正在大力推销智能音箱，在去年假日购物季大打折扣销售，业内评论家怀疑两家公司亏本甩卖。这些公司和其他科技公司都野心勃勃，希望统治“空间”——不是星际空间而是家庭、办公室、汽车等日常活动空间。在不久的将来，照明、空调、冰箱、咖啡机……甚至马桶都可以连接到语音控制系统。

正如微软在20世纪90年代将个人电脑产业捆绑在其操作系统一样，在智能音箱市场成功角逐的公司将把家电制造商、App设计师和消费者锁定在其设备和服务生态系统中。仅仅Alexa就能与逾3500个品牌的2万多个智能家庭设备配套使用，其声音来自耳机、安全系统、汽车等100多个第三方配件。

不过智能音箱也有其固有的魅力，这是一种超越消费主义的魅力。即使那些以健康的谨慎态度看待新技术的人也在寻找理由欢迎智能音箱进入家庭。在上述NPR/Edison的报告中，近半数最近购买智能音箱的家长表示，他们这样做是为了减少家里看屏幕的时间。

这一转变有可能造成广泛而深远的影响。人类历史是人类发明的副产品。新工具——轮子、犁、个人电脑——带来新的经济和社会秩序。它们创造、毁灭文明。电话、录音设备、广播等语音技术对政治历史进程的影响尤其巨大——语言和修辞当然是典型的说服手段。对希特勒集会的电台广播帮助一个独裁者上台。罗斯福的“炉边谈话”促使美国加入推翻这个独裁者的战争。

也许你认为与Alexa交谈只是用一种新的方式来做曾经在屏幕上做的事情：购物、看新闻、搞清楚小狗是生病还是不高兴而已。没那么简单。这不是用嘴和耳朵代替手指和眼睛，关闭用于完成这些任务的身体部位。我们说的是技术本身地位的变化——自动升级。当我们与智能音箱交谈时，我们会使它们的智能更接近我们自己的水平。

凭借曾经独特的人类语言能力，Alexa、Google Assistant和Siri的力量已经大于其部分之和。它们是软件，但又不仅仅是软件。就像人类的意识是神经元和突触造成的后果但又不仅仅是神经元和突触。它们能说话，这使得我们似乎将其作为有意识的东西对待。它们可能是无意识的非人，但它们的话语赋予其个性和社会存在感。

事实上，这些设备不再仅仅起着购物、看新闻等中介的作用。我们直接与智能音箱沟通而不是通过它们沟通。

目前，这些设备的潜力尚未完全显现，有可能胡乱处理你的要求。但随着智能音箱销量激增，其计算能力也指数倍增长。在我们的有生之年，这些设备很可能会成为更加熟练得多的谈话对象。当这一天到来时，它们就会完全融入我们的生活。凭借基于云的完美记忆力，他们将无所不知；由于占据了我们最私人的空间，它们将无所不在。而且由于它们那引人吐露肺腑之言的可怕能力，它们可以极大地左右我们的情感生活。这将是一副什么样的情景？

Alexa Experience现任副总裁雷德（Toni Reid）在2014年被要求加入Echo团队时还颇为不屑。当时她正在参加Dash Wand的开发工作，这是一种便携式条形码扫描仪和智能麦克风，能让用户扫描或说出他们想加入亚马逊购物推车的商品名称。Dash Wand的卖点很明显：更加便利用户从亚马逊购物。

Echo的卖点则不太明显。消费者干嘛要买一个告诉他们天气预报和路况的设备？然而雷德在厨房装上一台Echo后就明白了。她的两个女儿马上开始和Alexa聊天，好像和一个塑料圆柱体交谈是这个世界上最自然的事情。雷德自己也发现，即便Echo最基本、看似重复的能力对其环境也产生了深刻的影响。她告诉笔者，很惭愧好多年都没有听过音乐了，但家里一摆上这个设备，突然就响起了音乐。

雷德称，Alexa的美妙之处在于她使这种互动“无摩擦” ——这些产品的设计师和工程师常常说起这个词。无需走到桌子前在浏览器中输入关键词搜索，无需找到您的iPhone并输入密码。就像维多利亚女王时代庄园里理想的仆人一样，Alexa在后台徘徊，随时准备迅速而一丝不苟地为主人服务。

飞行器玩具，圆孩子的飞行梦

创意礼品，更好地表达你的心意！

不管怎样无摩擦是Alexa的目标，但眼下还存在相当大的“摩擦”。值得注意的是，智能音箱经常语无伦次，甚至在科技网站测试中经常超越Echo的Google Home也是如此。它们会误解问题、读错音节、给出奇怪的答案、为不知道一些广为人知的知识道歉。

随着Alexa变得越来越成熟，将Echo束之高阁将会更加困难。 Alexa人工智能团队首席科学家普拉萨德（Rohit Prasad）总结道，语境是Alexa实现这种成熟的最大障碍。 “你得明白语言是非常模糊的，” 普拉萨德告诉笔者。 “语义需要语境和地理背景才能明晰。”当你问Alexa今晚马刺队是否参加比赛时，它必须知道你是指圣安东尼奥马刺队（San Antonio Spurs）还是俗称马刺队的英国足球队Tottenham Hotspur。当你接着问他们下一个主场比赛何时进行时，Alexa必须记住上一个问题并理解“他们”指谁。亚马逊称这种短期记忆和语义回溯参考为“语境遗留”。到今年春季Alexa才具备回答连续问题的能力，用户不必再次说出唤醒词。

Alexa需要更善于领会语境才能真正唤起人们的信任。信任事关重大，不仅消费者将因Alexa搞砸太多请求而放弃使用，还因为Alexa不仅仅是一个搜索引擎。普拉萨德说Alexa是一个“行动引擎”。如果你问Alexa一个问题，她不是提供一系列答案，而是从很多答案中选择一个。

要理解让我们远离屏幕而接近声音的推动力量，大家必须明白声音心理学。一方面声音创造了亲密感。并非只有笔者向智能音箱袒露心声。有很多文章论述了智能音箱制造商一直面对用户表露抑郁和扬言自杀。我向技术高管咨询这个问题，他们说他们试图以负责任的态度处理这类交谈。例如，如果你告诉Alexa你感到沮丧，它会按照编好的程序回答：“你有这种感觉我感到很难过，须知你并不孤单，有些人可以帮你，你可以和朋友或医生说话，还可以拨打心理求助电话。”

为什么我们向电脑寻求安慰？通过机器，我们能透露自己羞愧的感情而不用感到难为情。“在与人智能音箱交谈时，人们的‘印象管理’较少，因此会透露更多心事，”南加州大学创意技术研究所计算机科学家、心理学家格雷奇（Jonathan Gratch）说。

我向纽约大学演讲家和语言学者Diana Van Lancker Sidtis求教，以更好地理解声音和情感之间的深层联系。令我惊讶的是，她给我介绍一篇她写的有关原始沼泽中青蛙的文章。她在文中解释道，每只青蛙的蛙鸣都是独特的，向其他青蛙传递自己是谁和身在何处的信息。进化几亿年后，人类发声器官凭借其更复杂的肌肉组织产生语言而不是呱呱叫。但是声音传达的不仅仅是语言。像青蛙一样，声音还传达性别、大小、压力水平等等个体识别标记。

当他人与我们交谈时，我们会同时听到单词、语法和韵律。然后我们寻找线索，了解发言者是什么样的人及其想说的内容，运用大量脑力以试图理解我们所听到的内容。已故人机关系研究先驱者纳斯（Clifford Nass）称：“大脑认为人类话语的每一方面都有意义。” 韵律通常在潜意识中传达，就像一股洪流把我们引向特定的情绪反应。

我们不能因为智能音箱的声音像人而不是真人便不再对其寄予感情。即使当Google Assistant提供索然无味的天气预报时，我的脑海中也浮现出了一位可爱的年轻服务员的形象。这并不是说我不懂我们互动的算法性质。我知道它只是软件。几百万年来我们一直对人类的发音做出反应，仿佛人声说明有人在旁边。我们适应一个声音可以与其来源脱离的想法只有一个半世纪的时间，而适应对话和声音像人的一个主体也许不是真人这种想法只有几年时间。

没有人的面貌不一定是智能音箱的短板，事实上也许还是它的长处。与面貌相比，声音能够更好地表达某些情绪。除了歌唱家或演员，我们对声音调节肌肉的控制一般不如对面部肌肉的控制熟练。即使我们努力压制真实感情，当我们说话时愤怒、无聊、焦虑等情绪常常会暴露。

声音无处不在同时又不可捉摸，我们不能确定是谁发出的声音，这就是声音力量的诡异之处。《美国心理学家》（American Psychologist ）2017年刊登的一项研究指出，如果人们交谈但不看着对方，那么他们更能辨认出彼此的感情，更加具有同理心。弗洛伊德早在实证研究证明之前就明白了这一点，所以才让患者躺在长椅背对着他，在患者进入如释重负的朦脓状态下不受其情绪干扰而倾听他们的心声。

智能音箱制造商希望利用这些心理学效应。亚马逊和谷歌均成立了“个性研究团队”，负责打造合适的智能音箱声音。某种程度上这是教科书式的品牌管理：这些设备必须宣传其制造商的形象。雷德表示，亚马逊希望Alexa的个性反映亚马逊智能、谦逊、有时还好玩的价值观。不过赋予智能音箱个性还使得声音迷人。

智能音箱应忠于自己被设定的性质，但声音不应显得怪异。这便是Google Assistant交谈与个性设计师James Giangola发挥作用的地方，他的工作是让Assistant的声音听起来自然。

比如，Giangola称，人们往往在句末而不是在句首或句中提供新信息。Giangola指出：“我说‘我名叫James’而不说‘James是我的名字’。” Giangola还举出一个例子，比如某人希望定6月31日的航班，但6月没有31日。所以智能音箱必须应对两项微妙的任务：说话不自然和反驳人类用户。

Giangola在电脑上快速输入，提取一段测试录音阐述自己的观点。只听一个男人的声音说道，定6月31日的航班。Assistant回答道，只有30天在6月。Giangola评论道，这样的回答听起来很生硬。他播放另一个版本的交谈录音，对同一请求Assistant的回答是“其实，6月只有30天”。

Giangola称，30天这一新信息出现在句末，而且插入“其实”一词温和地提出纠正，这样就显得更加自然。