导读:IBM超级电脑“沃森”将于2011年2月与《危险边缘》节目历史上两位最成功的选手——肯·詹宁斯和布拉德·鲁特展开对决,看一看“沃森”能否在这档最抽象的文字游戏中击败最优秀的人类,同时展示这台超级电脑在其他领域的自然语言处理能力。
2010年12月15日,沃森研究项目主管埃里克·布朗(Eric Brown)接受了美国CNET网站记者丹尼尔·特迪曼(Daniel Terdiman)的采访,他在采访中谈到了这场“人机大战”,自信“沃森”能击败詹金斯、鲁特这样的《危险边缘》节目最成功的参赛选手,他们二人赢得的奖金总额超过575万美元。以下是这次采访的内容。
特迪曼:感谢你百忙之中抽出时间接受我们的采访。首先,你能否向那些不熟悉“沃森”计划的读者简要介绍一下这个计划?
布朗:好的,“沃森”计划是IBM正在寻求的一个“大挑战赛”计划,旨在开发能在《危险边缘》节目中与最成功的人类参赛选手对决的电脑系统。为解决这次“大挑战赛”,我们开发出自动开放域问答系统,即“沃森”。沃森是基于IBM“DeepQA”(深度开放域问答系统工程)技术开发的。
特迪曼:《危险边缘》为何会是一个值得让“深蓝”的继承者下战书的游戏?我了解原因,但我想知道是否有许多人会将《危险边缘》看作是一个可与国际象棋相提并论的智力挑战。
布朗:在“深蓝”问世之前,人们认为开发一套可以击败国际象棋大师的电脑系统是不可能的,这令其成为“大挑战赛”一个非常有趣的问题。但是,国际象棋定义明确,主要涉及数学,电脑可以轻易代表每一个游戏状态及相应步骤。《危险边缘》则要求电脑必须理解人类自然语言。与国际象棋不一样,人类语言完全是开放式的,往往模棱两可,需要上下文才能理解意思。虽然我们可以轻松理解人类语言,但开发理解人类语言的电脑系统却极具挑战性。《危险边缘》便是推动我们突破这项技术的了不起的途径。
特迪曼:我看过《为什么是危险》(Why Jeopardy)视频,有人说过的一句话给我留下了深刻印象,即如果你认为没有把握就不要回答问题。这种情况会发生在“沃森”身上吗?如果会发生,它为何不知道答案呢?
布朗:这是《危险边缘》节目的一个核心部分——如果你的回答错误,会受到惩罚,提示值会从你的得分中扣除——这与商战的情况一样,如果你因信息不全面作出错误的决定,你便会受到惩罚。这意味着“沃森”不仅要给出正确的答案,而且还要对答案相当有信心,以决定是否接受某个提示。至于“沃森”为何不知道答案,这里的问题或许就在于,“沃森”怎样可能知道所有问题的答案呢?
我们要考虑以下几个问题。首先,在参加《危险边缘》节目时,“沃森”必须全靠自身力量——它不能与互联网连接。“沃森”用于回答问题的所有内容都要提前进行确认,即在看到问题以前。
其次,《危险边缘》的线索包罗万象,涵盖各种各样的话题。事实上,我们分析了随机挑选的2万个提示样本,发现这些提示涉及2500种不同类型的事情。既然范围如此之广,我们不可能做到预测《危险边缘》问到的每个线索,并就相应的答案建一个数据库。作为“沃森”超级电脑基础的DeepQA技术可以读取数百万页文本数据,利用深度自然语言处理技术产生候选答案,根据诸多不同尺度评估那些问题。
最后,《危险边缘》线索通过复杂而棘手的人类自然语言来表达。仅仅理解线索所作出的提示,本身就是一个挑战。
特迪曼:简单地说,“沃森”用于回答问题的内容来源是什么?
布朗:“沃森”会运用百科全书、字典、新闻报道、书籍、网络内容等资源。
特迪曼:沃森团队如何认定“沃森”已经做好了与最优秀的《危险边缘》冠军选手对决的准备?
布朗:在开发“沃森”的四年间,我们主要以两种方式评估这套系统。首先,我们以成批的方式(如每次3000个问题)进行大规模测试以评估系统性能,实施错误分析,提高系统性能。基于这种多问题的表现可以让我们从统计学角度作出重要的性能评估。
我们评估“沃森”的第二个方式是,与《危险边缘》以前的参赛选手进行“陪练”比赛。在2009年冬天,我们与曾经出现在《危险边缘》的选手进行了79场比赛,在刚刚过去的秋天,我们与获得过《危险边缘》比赛冠军的选手进行了55场对决。这些陪练比赛让我们对沃森的性能有了深入认识。
特迪曼:你为何对“沃森”击败两位冠军选手满怀信心?如果其中一位选手最终胜出,你会有多惊讶?
布朗:我们对“沃森”颇具竞争力充满信心。但是,表演赛只有两场比赛,一切皆有可能发生。鉴于此,“沃森”或任何一位选手在连续两场比赛中可能会有运气不好的时候。这是我们进行陪练比赛的另一个原因——通过更多的游戏书写记录。
特迪曼:在完成了这些大规模测试以后,哪类问题对“沃森”的挑战最大?
布朗:由于我们尚未参加最终的表演赛,我无法给你一个确切的答案。不过,我可以告诉你,“沃森”获取正确线索的能力经常让我们大吃一惊。
特迪曼:在一段有关“沃森”的视频中,我注意到一个细节,当被要求确定R.E.M。歌曲的两个人的身份时,而提示为“它是我们所知道的世界末日”,首字母是“L.B。”,“沃森”对此意思完全理解错误,回答说,“我觉得应该是”。“沃森”需要作出哪些改变,才能克服对基本语言的错误理解呢?
布朗:这个问题的有趣之处是,人类或许将这个当作“基本的语言误解”,但让我们看一看究竟发生了什么。由于层层递进,那类线索颇具挑战性。你需要了解这首歌的歌词,知道“那个人”是干什么的,找到歌词中描写的那个人,清楚“首字母”是什么,比较首字母找到正确答案。这便需要复杂的信息分解和处理能力。
特迪曼:请告诉我从事这个项目最令你感到吃惊的地方?
布朗:我认为,最令人吃惊的地方是我们可以如此快地推动这项技术。这个项目刚刚启动时,我们的问答系统与《危险边缘》选手相比根本没有竞争性。在过去的四年,沃森团队取得了不可思议的进步,解决了无数个挑战,从自然语言处理运算到向外扩展、潜在因素。解决了这么多难题的确使人感到无比惊讶。
另外一个令我们吃惊的地方是,IBM公司内部、客户以及学术界对这种挑战的反应。由于这项技术的演示,人们才真正对《危险边缘》感兴趣。这对整个团队来说都是巨大的回报。
特迪曼:你的团队从沃森计划学到了哪些东西,可以应用于其他现实世界的计划或问题?
布朗:“沃森”是一项重要技术的应用,这项技术通过评估具有许多不同证据和运算法则的候选答案(或“假定”)做出更好的决定。我们看到这个方法在医学、商业智能、咨询台等领域具有诸多令人激动的应用。
特迪曼:最后一个问题,我喜欢做即时通讯采访有以下几点原因:相比电话采访或面对面采访,它使我的嘉宾可以进行更多的思考和更多的表达。我得到了一份完美的成绩单,即时通讯(IM)可以实现多任务操作。所以,如果你不介意,能否告诉我你在这次采访期间还从事别的事情了吗?
布朗:我接到了同事发来的一些即时信息,我与进出我所在会议室的一些人说了几句话。但在大多数时间,我都专心于这次采访。
特迪曼:非常感谢你接受采访。这个计划让我无比激动,我确实期待着它的结果。