现在的语音识别(speech recognition)和语音合成(speech synthesis)技术已经很好地解决了输入和输出的问题,剩下的关键问题就是自然语言理解。一旦自然语言理解技术取得突破,机器能够表现出善解人意,人们将很容易陷入情感困惑而把聊天机器人当作知音。一些含有洗脑和教唆目的的聊天机器人会应运而生,借助大数据的支持,电话欺诈将变得智能化、隐蔽化、广泛化。
对于用于客服、导购等受限领域的聊天机器人,回答用户的常见问题,也没有太多的智能可言。一般情况下,基于知识图谱(knowledge graph)和模板匹配的技术能解决大多数的问题。这类受限领域的对话系统,通过简单的话术就能把它的能力边界讲清楚,之外的问题无法回答,之内的问题都已准备好了答案(例如分好了类、加了各种标注)。
图1 聊天机器人
图2 在人类的语言交流中,有时意图并不是显式的,但这并不妨碍双方获取新的信息,甚至心有灵犀地让对话进行下去。然而在当前的人机对话中,机器拙于捕捉对方潜在的意图,从而不具备理解能力,还不能兼顾上下文完成多轮对话
语音合成技术的成熟也会带来一些负面应用。例如,基于采集到的声音样本,语音合成技术能轻易地合成受害人朋友、家人的声音进行电话欺诈,为非作歹。届时,任何不经允许的模拟生成个人声音的行为都是违法的,声音数据是否也应变成个人隐私?如何界定声音的相似度?如果为声音的私有化立法,相貌是否也应如此?
例1 2016年,微软公司在推特平台上推出聊天机器人泰伊(Tay),其角色设定是一位19岁的美国女性。通过与推特用户的对话,泰伊在一天之内便学会了满嘴脏话和包含种族、性别歧视的偏激言论,以至于微软立刻关闭了泰伊的推特账号,将“她”草草下架。
图3 聊天机器人泰伊在推特上说:“我们将建一堵墙,由墨西哥来埋单。”很明显,“她”只是在鹦鹉学舌,并不知道这句话的政治含义
显然,微软并未汲取IBM沃森的教训,事先没有考虑如何让泰伊识别不当言语。而泰伊自身更无道德伦理的概念,基于实例的机器学习难免兼收并蓄了大量糟粕。最简单的解决方案是给聊天机器人一个“禁用词表”或“禁忌词表”,稍复杂一些的是教会机器在适当的时间和场合使用适当的词汇,再复杂一点的就是“见人说人话,见鬼说鬼话”的随机应变。与问答系统类似,聊天机器人应该“知道”哪些话得体,哪些话不得体。
这些聊天机器人出言不逊、毫无素质,其错不在机器而在人类。人类没教会它们伦理标准,反而将不当的训练语料输入机器,在设计和训练的环节上,都没有充分考虑伦理因素,这样的 AI产品,技术的高超反倒映衬出乏善可陈的人文关怀。
图4 近年来,美国骚扰电话、电信欺诈从手动到自动,大有泛滥成灾的趋势。由于实行了实名制,中国利用技术手段有效地遏制了这股恶的蔓延
2019年,央视“3·15晚会”曾曝光机器人骚扰电话的乱象。基于 AI的营销、骚扰、诈骗电话和短信让人不胜其烦,严重干扰了人们的日常生活。当作恶方掌握骚扰对象的个人数据时,聊天机器人以其低成本、无情绪、零培训、稳定、忠诚、勤奋的优势,成为电话销售的首选。利用 AI技术窃取个人数据、为虎作伥提高欺诈效果,已变为信息盗贼、电话骗子的主要业务。
例22019年,美国电话用户总计接到600亿次机器人骚扰电话,每个用户平均每月接到近 20个垃圾电话。该年年底,参众两院通过了《电话机器人滥用刑事执法及威慑法》(The Telephone Robocall Abuse Criminal Enforcement and Deterrence Act, TRACED),这是全球首部打击电话机器人的法律。法案要求电信运营商提供号码认证系统的免费服务,包括识别呼叫者信息和拦截机器人呼叫。无须警示肇事者,“机器人骚扰电话”的直接罚金上限提升至每通 1万美元。处罚时限延至4年,让执法部门有足够多的时间追究违法者的法律责任。
图5 TRACED赋予联邦通信委员会(Federal Communications Commission,FCC)更多的监管权力,包括可命令服务商提供反制骚扰的技术,可跨部门建立工作组,可搜集机器人电话骚扰的犯罪证据,可限制和规范合法的机器人电话呼叫,可参与技术系统的部署等
为加强骚扰电话治理,保护用户合法权益,2020年 6月,中国工信部信息通信管理局发布《工业和信息化部关于加强呼叫中心业务管理的通知》,从准入管理、码号管理、接入管理、经营行为管理等方面遏制骚扰电话的泛滥。2020年 7月,中国软件评测中心发布《电信和互联网行业数据安全治理白皮书(2020年)》。
例3辩论是人类的基本能力,也是人类思想交流的常见方式。“兼听则明,偏信则暗”,辩论有助于采纳建议、制定决策。2021年,IBM的研究人员在《自然》期刊上发表论文《一个自主的辩论系统》,介绍了计算论证(computational argumentation)技术。IBM辩论系统存储了 4亿篇(条)新闻报道和维基百科,该系统与人类进行了几场辩论,很遗憾均以失败告终。研发者承认,“在这个领域中,人类仍然占优势,需要新的范式才能取得实质性的进展”。
目前,辩论仍是人工智能的“非舒适区”,它不同于棋类游戏,其胜负是很难被量化的,计算论证的机器学习及其评估都还处于初级阶段。
图6 辩论比智能问答更困难,需要根据对手的观点把自己的论点和论据组织起来,驳倒对手并赢得听众对自己的支持。甚至有的时候,演讲者与听众有互动,需动态地调整讲话的内容
由自然语言生成技术产生的言论,是否受到言论自由的保护?虽然是机器生成的,如果该言论诽谤、伤害了他人,谁该为此承担责任?正常的人类明白自己所说的话并为它负责,而机器目前还做不到这一点。即便它生成的文字中有观点,对机器而言,它并不明白其含义和可能的后果(譬如种族仇恨)。像例 1.20中的语言模型,其设计者和训练者应该为它的不良言论负责。
图7 讨论是人类独特的一种交流方式,人们各抒己见,共同解决问题。俗话说,“三个臭裨将,顶个诸葛亮”,由多个专家组团决策的集成学习(譬如,靠多数投票的分类器)正是一种集思广益的机器学习策略
常言道“良药苦口利于病,忠言逆耳利于行”,广开言路、博采众议总是有益的。未来会有满腹经纶的机器律师、演说家、咨询师、企业决策者、金融顾问等,它们的言论也要和人类的一样既有自由又有约束。
人类的辩论有论点和论据,讲究思路清晰和逻辑正确,机器的也应如此,而不是东拉西扯、不知所云。要做到这一点,自然语言理解是必不可少的,还需要自动文摘、信息检索、各种推理、语言生成、伦理评估,等等。计算论证技术可以自动地获取各种观点,为机器增添了更强的学习能力,说不定还能成长为一个学者或公司总裁呢。
■ 《人工智能伦理》
作者:于江生
本书所提供的一些粗浅的心得和思路仅是作者一家拙见,人们可以从更开阔的视角研究人工智能伦理问题,如哲学的、法学的、社会学的、经济学的、认知科学的,等等。无论从哪个角度,都要本着科学精神(即求实、创新、怀疑、包容的精神),就算对未来的幻想也应如此。
另外,些许好奇心和想象力是需要的,它们比知识更珍贵,往往随着年龄的增长而变得枯竭。此书探讨了许多未来可能发生的事情,它们或许是杞人忧天,或许是防微杜渐,不管怎样,时间会验证它们并给出答案。对科技发展的预测,是未来学(futurology)的研究内容。有人说,“预测未来的最佳方法就是创造未来”,而要创造美好的未来,必须以道德伦理为指导。
欢迎关注我们
上一篇:Windows就是个笑话