超级电脑“沃森”如何战胜人类

作者：NEO 2011-02-24 17:15:22

IBM公司研制的超级电脑“沃森”以超出第二名两倍多分数的绝对优势，在美国智力问答节目《危险！》中击败两名人类对手，在连续三天的比赛中大获全胜。继1997年电脑“深蓝”与卡斯帕罗夫的国际象棋大战之后，这又一场有历史意义的“人机大战”再一次引起人们的好奇——

2月16日，IBM公司研制的超级电脑“沃森”以超出第二名两倍多分数的绝对优势，在美国智力问答节目《危险！》中击败两名人类对手，在连续三天的比赛中大获全胜。继1997年电脑“深蓝”与卡斯帕罗夫的国际象棋大战之后，这又一场有历史意义的“人机大战”再一次引起人们的好奇—

　　不但知识要丰富

　　理解能力还得强

　　《危险！》堪称美国历史上***的智力问答节目，每期节目由三名竞争者参加。比赛规则是答对得分、答错扣分，参赛者为了避免扣分，也可以对拿不准的题目选择不答。

　　参与了沃森系统研制的IBM中国研究院资深经理潘越告诉记者，《危险！》对于计算系统是一个巨大的挑战，因为它涉及学科广泛，涵盖了诸如历史、文学、政治、艺术、娱乐和科学在内的广泛主题，选手们要在很短时间内提供正确答案。

　　更困难的是，主持人提出的问题中会包含反语、双关语、谜语和一些意思深奥微妙的表达方式，让电脑领会这些表达方式相当困难。沃森之所以能够应付这种“狡猾”的试题，主要依靠的是它对自然语言的理解和高速的计算。

　　当沃森被问到某个问题的时候，100多种运算法则会通过不同的方式对问题进行分析，并给出很多可能的答案，而这些分析都是同时进行的。在得出这些答案之后，另一组算法会对这些答案进行分析并给出得分。对于每个答案，沃森都会找出支持以及反对这个答案的证据。因此，这数百个答案中的每一个都会再次引出数百条证据，同时由数百套算法对这些证据支持答案的程度进行打分。证据评估的结果越好，沃森树立的信心值也就越高。而评估成绩***的答案会最终成为电脑给出的答案。但在比赛中，如果连评估成绩***的答案都无法树立足够高的信心值，沃森会决定不抢答问题，以免因为答错而输掉奖金。而这所有的一切计算、选择与决策都在3秒钟之内完成。

　　通过语言和人类交流

　　“思考方式”另有一套

　　沃森的名字是为了纪念IBM的创始人托马斯·沃森先生，它是IBM25个科研工作者过去四年的研究成果。沃森评估了大约2亿页的内容(约一百万册书籍的价值)。在回答问题的时候，沃森是完全自给自足的，也就是说不需要和网络连接，沃森的技术可以理解自然语言的提问，分析数以百万计的信息碎片，并且根据它寻找到的证据提供***答案。

　　潘越介绍说，在三年前，IBM科研人员曾经给沃森做过一次测试，***次测试的结果很差。那时他们用已有系统(公用搜索引擎、问答引擎)来参加《危险！》的问答，当时回答的覆盖率和准确性大概只有20%和10%。而当时的人类选手覆盖率和正确性都能达到85%。因为差距太大，IBM科研人员没有采取提高原有系统性能的方法，而是从头构建新的系统。三年来，沃森的硬件不断演进，软件和硬件结合得更好。

　　如果和“深蓝”比较，从硬件上来讲，沃森的计算能力有了巨大的进步，而更大的差异还在于要面对的挑战和应对的算法方面。

　　国际象棋定义明确，主要涉及数学，所以深蓝是一台拥有强大推理能力和计算能力的计算机。

　　《危险！》则要求电脑必须理解人类自然语言。与国际象棋不一样，人类语言完全是开放式的，往往模棱两可，需要上下文才能理解意思。虽然我们可以轻松理解人类语言，但开发理解人类语言的电脑系统却***挑战性。

　　沃森系统负责人大卫·弗若斯说：“我们的目标是开发一台能更好地理解并通过语言与用户交流的电脑，但它理解和交流的方式并不需要与人一样。”

　　从娱乐向生活转换

　　沃森有多方面用途

　　参加《危险！》节目并不是沃森的***目标，它只是具有里程碑意义，通过一种有趣的、有意义的形式展现迄今为止其他电脑没有展现过的能力——可以通过人类的方式来和人类在广泛的知识领域进行沟通。

　　潘越说，沃森代表着计算机能力的一个重大飞跃，能够更精准地满足我们的信息需求和提问需求。它有效地提供信息，并且按我们的条件在众多的自然语言内容里搜寻关键知识。IBM正在努力让沃森从“娱乐领域”转向日常生活的应用领域。目前看来，沃森至少能在以下行业领域有所应用：电子、能源与电力、政府事务、卫生保健、保险、石油天然气、零售、通信、交通、银行与金融市场。

　　比如，在电子行业，沃森将扮演“产品顾问”和“设计顾问”的角色：凭借“深层问答”技能以及辨别自然语言细微差别的能力，帮助消费者明白如何***地使用、连接和体验智能的产品与服务，将消费者的需求、愿望、问题反馈给电子产品制造商，以便改进产品设计。

　　再比如，对于医生来说，沃森是一个存储大量事实依据的帮手。沃森可将相关信息融入到临床和业务决策中，帮助医生更好地为病人服务。

　　■链接

　　中国团队帮沃森“百晓”

　　在研制沃森系统的全球团队中， IBM中国研究院的团队负责为沃森系统采集、分析和使用各种结构化的知识，利用结构化和高可靠的知识提供问题解答，排除让系统显得“愚蠢”的答案，以及帮助沃森系统提高其学习能力。中国研究专家甚至为中国团队的工作起了个具有中国特色的名字：百晓，寓意让计算机系统无所不知。

　　专家点评

　　人机对决精彩瞬间

　　三轮比赛中，沃森在***、二轮几乎抢答近90%题目，第三轮抢答逾60%，答对率逾95%。但它在三天比赛里也答错7题，其中有两个“经典”错误。

　　IBM中国研究院参与沃森项目的专家点评了其中的部分问题，在此特选登如下。

　　沃森的巨大能力

　　问题：每5年选举一次，它有来自7个组织的736名成员。

　　答案：议会(美国)。

　　点评：沃森正确。回答了这道题，置信度是66%。这道题对沃森来说是有点难度的，可利用的关键词比较少，都是数字，每5年选一次，736名成员，7个组织，这是什么呢？沃森还是找到了正确答案，就是议会。

　　问题：尽管马耳他语从意大利语中引入大量单词，但是它是从这个闪米特语族的一个方言发展而来的。

　　答案：阿拉伯语。

　　点评：这道题是沃森答对的，置信度是95%。题目的关键词就是马耳他语和闪米特语族。和他们最相关的语言可以确定是阿拉伯语。尽管出现了意大利语，但是对于正确答案来说，意大利语这条线索没用。我们的沃森也没有被它所干扰。

　　沃森的灵活智慧

　　问题：99美分可以帮我从这家瑞典的连锁店买到一包4个的Ytterlig杯垫。

　　答案：宜家。

　　点评：这道题是人类选手鲁特尔回答的。沃森也得到了正确答案，但是由于置信度比较低，39%，在当时沃森的分数也是领先的。所以保守起见，沃森没有回答。

　　沃森的弱项

　　问题：USPS寄送这个东西的价钱，最小的是3.5×5英寸，价格是28美分。

　　答案：明信片。

　　点评：这道题是人类选手詹宁斯回答正确的。沃森毕竟只是个机器人，没有生活经验。

　　问题：这个语言的方言包括吴语、粤语和客家话。

　　答案：中文。

　　点评：可惜这道题不是沃森答对的，是詹宁斯答对的。沃森可能没有很好地理解“包括”二字，把广东话放在正确答案上，因为广东话和粤语的关联度很高，而中文被排在了第二的位置。

　　沃森的低级错误

　　问题：这个城市以二次世界大战的一位英雄及一场知名战役，分别命名它***的与第二大的机场。

　　答案：芝加哥。

　　点评：人类选手都答对了，但沃森竟答多伦多——“无知”到不知多伦多并非美国都市。沃森在数据库中找不到充分的证据，确认“芝加哥”、“机场”、“芝加哥的机场”与“二次世界大战”这几个关键词之间的关系，所以它被弄糊涂了。

　　问题：美国老牌饼干奥利奥何时***推出。

　　点评：詹宁斯答“20年代”，主持人说答错了，但沃森仍接着回答“1920年代”(它不知20年代与1920年代是同一概念)。

责任编辑：常疆来源： 51cto.com

IBM Watson