跳至主要内容

学徒(五)


时间倒退回三个月前。当第一波新闻宣传结束后,沉思公司正式展开了下一步企划。媒体的反响很不错,可这对于沉思公司来讲远远不够。沉思公司有着改革人工智能技术的远大目标,并不满足于浮于表面的大众关注。为了取得学术界的认可,沉思公司需要更严谨、切实的科学结论。学徒能演奏钢琴,但是到底演奏得有多好呢?作为人工智能,学徒的表现有多接近人类呢?找出这些问题的确切答案,才算真正证明了学徒的科学意义。

想要评定学徒的钢琴水平有多好、多接近人类,并不是一件容易的事。音乐的评判是主观的,不能像测量长度、质量、速度一样给出精确的数值。评判人工智能的好坏就更困难了。人工智能的发展仍处于初级阶段,没有一个世所公认的衡量标准。所以,沉思公司决定自行设计一套实验检测方案。如果设计成功,很有可能成为人工智能业界的一项基准化测试,在将来获得广泛的应用。

虽然明知不太可能成立,沉思公司的研究人员在一开始时还是尝试了建立一套机械化的数值测量体系。测试内容是演奏数首经典钢琴曲,其中包括了巴赫、柴可夫斯基、肖邦等著名音乐家的作品。测试的指标是演奏速度、强度、音符时长等数值。同时,研究人员统计了大量人类钢琴家的演奏数据,同样记录了以上的数项指标,以其作为基准参考数值。最后,将人工智能的测试数值与人类基准数值相比较,差异小于某个阈值则算为通过测试。

在实际进行之后,研究人员发现:由于人类钢琴家的演奏风格不同,基准参考数值本身存在比较大的方差,很难确定一个准确的范围。如果范围定的过大,几乎任意演奏都能通过测试。如果范围定的过于狭窄,那么连人类的演奏都可能被误判为机器演奏。

经过一段时间的调研过后,研究人员终于得出结论:要创造一个能判断演奏者是不是人类的程序,其难度不亚于开发一个演奏水平接近人类的人工智能。如此规模的项目,在短期内不具有可行性。

既然机械测试被排除,那么只剩下显而易见的唯一选项了,就是让人类来评判。于是有人提出进行图灵测试。

图灵测试是人工智能领域的著名测试,用来检测机器是否拥有智能。其大概内容是,测试人员与两个测试对象(分别为机器和人类)彼此不能看见,只能通过文字交流。测试人员可以向两个测试对象用文字提问,测试对象要作出回答。根据回答,测试人员要判断哪个是人类,哪个是机器。如果无法判断,那么就认为机器通过了图灵测试。

这个测试的核心思想是:我们很难对智能下定义,人类是唯一已知的智能,那么只好让人类去判断机器是否有智能。

这个测试历史悠久,是最早、最著名的智能检测提案。与此同时,图灵测试也经受了诸多批评。最有力的批评就是,这个测试的哲学根基非常不可靠。我们能不能仅凭外部表现就判断一个机器是否有智能呢?很多哲学家认为答案是否定的。比如说著名的思想实验「中文房间」。在这项实验中,一个不懂中文、只讲英语的人被关在一个封闭的房间里,只能用纸条与外界交流。同时房间里有一本用英文写成的手册,指示如何处理与答复中文讯息。房外的人在纸条上用中文写上问题,递进房间里。房内的人接到问题后,查阅手册,按照手册上的指示书写答复,再递交给房外的人。这样一来,尽管房内的人对中文一窍不通,房外的人却无法判断房内的人是否真的懂得中文。根据这个思想实验,图灵测试并不能真正判断机器是否拥有智能。即便机器通过了图灵测试,我们要如何判断机器是真的拥有智能还是仅仅表现得像是拥有智能呢?

好在沉思公司并不是一家哲学研究所。学徒项目的目标在于开发出能达到人类演奏水平的机器。至于机器是否真的懂得音乐,怎么样才算懂得音乐,就留待哲学家去考证吧。站在工程学的角度,如果一样东西长得像鸭子,游泳像鸭子,叫起来像鸭子,那么把它当成鸭子就没有什么不妥。
原始版本的图灵测试是检测自然语言的。受此启发,研究人员设计了音乐版的图灵测试。大体思路是,让测试人员盲听钢琴曲,然后判断是否是人类演奏。

为了完善测试,有许多细节需要处理。比如说,是现场演奏还是播放录音?是演奏整首还是截取片段?测试人员与演奏者之间可不可以有互动?
这些问题非常重要,因为测试人员很有可能凭借演奏细节的差异而不是演奏水平去作出判断,间接实现作弊。比如说,人类演奏很难、甚至说不可能保证零失误,而学徒则不会弹错任何一个音节。如果测试人员利用听到失误来确定对方是人类,那就违背测试的本意了。学徒是能够进行一定程度的互动的,比如说按照指示提高或降低演奏速度。但是考虑到作弊的问题,最终还是否决了测试中的互动。

经过研究探讨,正式的测试提案如下:

一,测试曲目为专家选定的五首钢琴曲:巴赫《平均律降e小调前奏曲与赋格》,海顿《D大调奏鸣曲》,肖邦《升c小调幻想即兴曲》,勃拉姆斯《间奏曲Op.117 No.2》,拉赫玛尼诺夫 《c小调音画练习曲》。限定五首曲目是为了控制工作量。

二,每首钢琴曲学徒都演奏了多个不同版本,以免演奏风格雷同导致被轻易识别。

三,人类演奏以上五首钢琴曲并录音。

四,从学徒与人类的录音中截取三十秒到两分钟之间的片段。这是为了剔除掉有明显人为失误的录音。

五,将以上录音打乱顺序后随机抽样分组。

六,挑选音乐专业人士作为测试人员。

七,测试人员将按顺序听到五组录音。每组录音包含同一曲目的十个演奏片段。这些片段可能是人类演奏的,也有可能是学徒演奏的。片段的选取完全随机,可能出现全部是人类演奏或全部是学徒演奏的情况。

八,对于每个录音片段,测试人员要判断是人类还是学徒演奏,同时对表演作出十分制的评分。如果判断为学徒演奏,还要对于与人类的相似程度作出十分制的评分。如有需要,测试人员可以要求反复聆听。

九,统计测试结果。

在测试提案通过后,沉思公司马不停蹄地展开了测试工作。学徒的演奏录音工作是最容易进行的,工作人员很快就准备出了大量录音。比较耗时的是征集人类录音和测试人员。

为了获取人类演奏数据,沉思公司与音乐院校合作,抽选钢琴专业优秀学生录音。这些学生都是未来的钢琴家,足以代表人类演奏的一流水平。这一点体现出了沉思公司对学徒的信心。如果选取的人类演奏与学徒的演奏水平差异过大,那么学徒将会被轻易识别出来。沉思公司认为学徒目前的水平是处于一流档次的。值得一提的是,为了防止演奏技术变形,这些学生并没有被告知真正的实验目的。如果学生知道了自己的演奏要与人工智能作比较,多多少少都会在心态上受到影响,录音恐怕就会产生问题。所以在明面上,院校方面仅仅声称这些录音将会用于大数据研究,甚至没有提到沉思公司。

沉思公司经过多方联系,征集到的测试人员总数达到数百人,来自世界各地。他们都是具有专业鉴赏水平的音乐从业人员,如音乐演奏家、音乐评论家、音乐教授等等。

由于测试的特殊性,沉思公司还请来了心理学专家对实验进行监督,避免由于心理因素干扰实验的准确性。参与此次测试的所有相关人员,无论是沉思公司的科研专家还是测试人员,都被要求客观严谨地面对测试。测试本身也预先考虑到了人类主观判断可能造成的误差。

等到一切准备完毕,测试终于正式开始了。所有的工作人员都既紧张又兴奋,期待着实验结果。由于测试人数众多,时间安排比较复杂。加上力求实验准确,为每位测试人员预留了充足的监听录音与思考的时间,所以单次测试的流程也拖得比较长。在资金、场地非常充足的情况下,整个测试还是用了一个多月。

 激动人心的时刻到了,工作人员迅速地在公司内部发表了初步的测试报告:

一,学徒的演奏录音在95%的测试中被判断为人类。同时,有接近5%的人类演奏录音被误判为人工智能。

二,正确判断出学徒是人工智能的情况下,测试人员为学徒接近人类的程度打出了9.2的平均分,为学徒的演奏水平打出了8.7的平均分。在误将人类判断为人工智能的情况下,测试人员为与人类相似度打出了9.6的平均分,为演奏水平打出了7.9的平均分。

结果出来后,整个公司上上下下所有人的情绪都沸腾了。这份测试结果充分说明了,学徒与人类在钢琴演奏上的相似程度已经近乎无可区分,而且学徒的表演即使在音乐专家看来也达到了一流水准。

人工智能的新里程碑正式诞生了!

评论

此博客中的热门博文

读古龙的《英雄无泪》

说起来这本书可以算是古龙最后一本像样子的小说。按照网上资料,《英雄无泪》出版于1979年,同年还有一本不知所云的《午夜兰花》。写《英雄无泪》时古龙刚过不惑之年,他的创意少了,可是笔力、精力都处于成熟期,假以时日未必不能更进一步、再攀高峰。只可惜命运给他来了一下狠的。古龙于1980年负伤入院,之后受健康状况的影响,创作力急剧下降,再也没有写出什么像样子的小说了。 《英雄无泪》篇幅不长,在古龙作品中算是比较中庸的一本,保持了古龙一贯的优点,同时也没能摆脱一贯的缺点。虽然难称佳作,却很能体现古龙的写作风格。 先说优点。古龙的一大特色是描写偏离主流、甚至畸形的人物,与金庸、梁羽生笔下高大上的主角们形成鲜明对比。《英雄无泪》表面上的主角是高渐飞,实际上的核心角色却是卓东来。卓东来先天残疾,不是「完整」的男人,而且母亲难产而死,双胞胎弟弟也胎死腹中,导致卓东来始终摆脱不了自卑与自责。同时他又是一个爱美、有野心、心狠手辣的人,理想与现实的对比造成他内心的矛盾,使他陷入了病态。卓东来耗费一生精力打造司马超群这个高大威武、武功盖世的英雄,司马超群像是他的弟弟、儿子、情人,更是他心中理想的投射。卓东来的人物塑造是循序渐进、层层展开的,一开始是华丽贵公子的形象,之后一步步地揭开黑暗面,使得这个虚构出来病态人物形象立体、令人信服。单凭卓东来这个人物,《英雄无泪》就值得一读。 古龙善于烘托悬疑气氛,情节发展快速流畅,在这一点上《英雄无泪》同样做的不错。《英雄无泪》开头迅速展开激烈的戏剧冲突,两大势力中一派要杀人,一派要保人,同时引出神秘的、使用一口箱子的杀手。随后的情节发展也是环环相扣,基本没有拖沓的地方。结尾谈不上多好,但大体上也把故事说圆了。 再说缺点。《英雄无泪》除了卓东来,其他角色的塑造都比较失败。 朱猛是卓东来的敌人,两人的争斗是故事主线。全书一直试图把朱猛写成一个英雄,动不动就借用旁观者的描述来印证朱猛的英雄气概。但是无论如何大碗喝酒、说话如何嚣张,朱猛的实际行动证明了他不过是一介莽夫,而且为了自己的私欲牺牲手下弟兄,与英雄两字毫不沾边。朱猛的武功和智谋都太弱了,对卓东来构不成真正的威胁,导致故事紧张感不足。 这本书的核心人物是卓东来,而占了最多篇幅的角色却是高渐飞。高渐飞是一个背景不明、性格模糊的人,在故事中像一个过客,莫名其妙地被写成了主角。看完全书后回想一下,高渐飞与整个故

读冰临神下的《死人经》

武侠小说衰落已久,老一辈武侠名家「金古梁温黄」中四位已经作古,硕果仅存的温瑞安也好多年没出过新书了。名噪一时的「大陆新武侠」同样归于平淡,成了明日黄花。在一片萧条的环境下,每当在网上聊起武侠,我总能看到有人提起《死人经》,称赞其为近年来罕有的武侠佳作。我起了好奇心,花大概一周的时间读完了《死人经》的第一卷《杀手少年》,聊聊想法。 这本书开头部分写的一般,主角惨遭灭门报仇雪恨这种故事实在太老套了。而且文字很平淡,人物对话写的尤其不好。写对话很考验作者的笔力,说什么话、怎么说话是塑造人物的重要手段之一。《死人经》里人物讲话差不多都是一个调调,而且偏书面语,给人感觉有点不自然。戏剧性强烈的地方、角色们互撂狠话时还成,日常对话就有些别扭。 很快地,这本书出色的情节就挽回文字上的那些小缺点了。主角被强盗掳走、卖到仇家金鹏堡里当奴隶,这时好戏才正式上演。主角在石堡里命悬一线,时刻处于危机之中,又处心积虑报仇,这段无论情节、风格、手法,明显是借鉴古龙的《白玉老虎》,专门培养杀手的金鹏堡几乎就是唐门的翻版。如同《白玉老虎》一样,《死人经》成功地渲染出压抑紧张的氛围,让读者时刻为着主角的将来提心吊胆。复仇故事讲究先抑后扬,主角前期越惨,后期复仇才越痛快。主角每天扛死尸,受虐待,自身无比弱小,处在石堡最底层,在绝望中拼命挣扎。主角陷害遥奴走火入魔、暗杀认识自己真实身份的杀手,随后被雪娘挟持,被设下三年内走火入魔的死亡期限,这一系列情节环环相扣,悬念迭起,写的特别好。读到这里,很惊讶于作者情节编排的老练,逐日连载的网络小说能维持这样稳定的质量真的很难得。雪娘教主角武功,让他和石堡千金上官如比武,这段明显是化用自《鹿鼎记》。主角落悬崖、奇遇大鹏鸟获得武功秘籍这段勉强算是俗而有力吧,武侠小说的主人公总是难逃落悬崖的命运。之后盗宝这段把之前的种种戏剧冲突一起引爆,处理的干净利落。 主角当上杀手学徒之后,故事陡然一变。虽说主角仍处在危机之中,却由被动转向主动。之前是受命运摆布,想放弃复仇也逃不掉,这时却开始主动出击了。主角从当初只有一腔愤恨的少年彻底转变成了冷静、聪明、阴狠毒辣的杀手。杀手学徒乱战这段写的很好,一群十余岁的少年间的血腥杀戮让人想到了《蝇王》。同时荷女这个角色开始登上前台,从配角变为两大女主角之一。荷女冷静沉着,办事滴水不漏,对主角衷心耿耿,几乎就是主角的女版化身。两人合练死人经

读格雷厄姆·格林的《人性的因素》

  据格林所说,他写《人性的因素》是为了创作一本摆脱暴力俗套的间谍小说,呈现英国秘密情报工作的真实样貌。他笔下的情报人员跟007毫无关系,像普通人一样为了一份薪水朝九晚五。如果这本书早一点写出来,我或许会更尊敬这种尝试。可是《人性的因素》出版于一九七八年,那时007的作者伊恩·弗莱明已经去世十多年了,约翰·勒卡雷的名作、写实派间谍小说的代表《柏林谍影》也出版十多年了,这时再来标榜真实未免有点故作姿态。事实上,这本书读起来非常像是约翰·勒卡雷的小说。格林和勒卡雷都曾在英国秘密情报局「军情六处」工作过,文风也比较相近,写出风格相似的小说倒也不出奇。 格林把自己的小说分成娱乐与严肃两类,后来渐渐不作区分,《人性的因素》就是两者混合。按照我的经验,这种主题太严肃的类型小说往往有点不伦不类,既不够娱乐,也不够严肃。就拿这本书来说吧,如果你期待读到紧张刺激的间谍故事,一定会大失所望。这本书采用了间谍小说中常见的「卧底」题材,故事一开始英国情报局发现情报泄漏,意识到内部有潜藏的双面间谍,之后展开了调查。格林并没有把双面间谍的身份作为悬念,很早便点明了主人公卡瑟尔就是双面间谍,前半本书都在描写卡瑟尔惶惶不可终日的心态。卡瑟尔的同事戴维斯为人冒失,成了卡瑟尔的替罪羊,被情报局毒害。卡瑟尔本打算以此为契机结束间谍工作,这时却意外地收获了重要情报,将情报传递给苏联后他的身份曝光,随即逃到莫斯科,故事就这样结束了。除了结尾卡瑟尔逃亡时的一些小波折,整本书没有什么悬疑可言,情节发展一望即知。尽管我早就做好了心理准备,读起来还是难免有些不耐烦。尤其是前半本过于冗长,让我一度想要弃书。 我能理解作者的写作追求,他就是要让故事平淡化、去浪漫化。可是这样一来小说的情节转折太过草率,反倒伤害了故事的合理性。比方说双面间谍的嫌疑人有很多,不单卡瑟尔和戴维斯,他们的上司、办公室里的秘书们都有嫌疑,总该仔细调查一下吧。虽说戴维斯的行为举止太不稳重、动不动作出把文件带出办公室这种不合规定的事,但并没有确凿的证据。格林懒得写戏剧化的推理情节,让调查人员莫名其妙地认准了戴维斯就是间谍,一点都没怀疑卡瑟尔,英国情报局的智力水准未免太低下了。还有卡瑟尔身份曝光的过程,一般来讲总要有些逻辑推演,可是小说中让一个南非官员简单地依靠直觉就怀疑卡瑟尔有鬼;英国情报局信了这个「直觉」,就派人直接去询问卡瑟尔,一点都不担心会打草