本篇文章4153字,读完约10分钟
10月11日,在ibm中国研究院主办的“从大数据到识别计算”研讨会上,ibm沃森技术再次引起业界关注。
“沃森技术”实际上是指ibm超级计算机沃森( watson )拥有的ai )人工智能)技术,由不到100台ibm power7服务器组成,通过并行化计算,进行语法语义分析、基于知识库的检索、知识库的检索,
年3月3日,美国电视的智力测验节目《危险边缘( jeopardy! 》中华生( watson )击败两名人类冠军取得胜利,曾轰动一时。 这也被认为是ibm成功的商业营销,但当时越来越多地与ibm当时提倡的“智慧地球”联系在一起。
随着大数据应用的兴起,沃森( watson )成功与大数据对接,与“智慧地球”相比,大数据似乎很朴素。 为了更好地了解沃森的技术,笔者查阅了网上的资料。 其中,infoq采访了ibm中国研究院的张雷博士的复印件,对沃森的技术进行了更深入的公开,其全文如下:
智商:张博士,你好! 我想大家都通过了《jeopardy》! ’节目告诉了华生的威力。 从接受人类语言的提问,到用人类语言回答,都要让机器进行这个过程,以保证相当高的正确率,听起来有点不可思议。 能列举一下沃森在答题时背后发生了什么吗? 其技术原理是什么样的?
张雷:沃森拿到问题后,将进行一系列的计算,包括分析语法意义、逐知识库搜索、提取替代答案、搜索替代答案的证据、计算和综合证据强度等。 综合运用自然语言解决、知识表达和推理、机器学习等技术。 从单一知识源或少数算法可知,使问题回答系统达到与人类相近的水平并不容易。 因此,沃森的首要技术原理是探索大量的知识来源,从许多角度使用非常多的小算法,综合评价和学习各种可能的答案。 这大大减少了系统依赖少数知识源或少数算法的漏洞,从而大大提高了性能。
infoq:14年前,“深蓝”以其大规模的计算和列举能力战胜了国际象棋世界冠军卡斯帕罗夫。 沃森目前的成功,在多大程度上依赖于其强大的计算能力,在多大程度上依赖于人工智能理论自身的迅速发展?
张雷:应该说都起了很大的作用。 显然,人工智能行业的许多技术已经应用于该系统。 另一方面,如果计算能力没有进步,计算速度的提高可能也会有障碍。 几年前,沃森用好的服务器回答问题花了两个多小时。 凭借ibm power 7强大的并行处理能力,在3秒内进行了压缩。 此外,强大的计算能力也大大加快了开发过程。 我们大量采用了java语言和机器学习,但这些都需要很强的计算能力作为支撑。
infoq :华生与同样致力于回答问题的计算知识引擎wolfram|alpha,以及著名的人工智能项目cyc有何相同和不同?
张雷:据我所知,wolfram|alpha首先依靠的是人工结构化数据作为知识来源,而沃森则以现有的非结构化数据为主,适当辅以一点结构化数据。 两者的计算方法也完全不同。 wolfram|alpha主要是基于规则的匹配和计算,华生主要是统计推理。 与cyc相比,沃森并没有构建基于形式逻辑的知识库,而是直接采用了用现有人类语言编写的知识,例如各种百科全书。 cyc以形式化的逻辑推理为基本计算方法,但沃森以统计推理为主。
infoq :沃森看起来像一个决策系统。 作为决策系统,不仅要给出答案,还必须提供相关的依据。 在沃森系统里怎么做? 另外,如果被告知回答错误,华生是否有自我学习和完全的能力?
张雷:沃森系统的一个重要步骤是评估替代答案的可靠性。 这个可靠性被数百个算法从各种各样的立场得到了好评。 例如,关键字一致度、时间关系的一致度、地理位置的一致度、类型的一致度等。 沃森在任何立场上都可以得到定量的可靠性评估。 另外,这些评价算法所依赖的知识源也是可追溯性的。 华生可以根据需要为客户提供答案的依据。
华生在参加比赛之前,先从历史数据中学习。 例如,如果回答错了过去节目的问题,从那里学习一点新闻。 参加比赛时,它依赖以前的学习结果,但也进行简单的在线学习。 例如,可以指导其他选手从已经回答的同一类型的问题中总结出一点优势,然后回答这样的问题。 另外,如果问错了问题,华生还会调整游戏战略。 因为华生可以说拥有初步的自我学习和完整的能力。
语义网技术在沃森中的应用
infoq :在沃森系统中,从各个地方收集到的庞大的知识是如何表现和管理的? 如果发生知识不一致,怎么解决?
张雷:非结构化知识首先用原始副本表示,结构化知识采用类似rdf的表示和管理方法。 当知识不一致时,沃森通过学习过去的许多主题,发现在那个游戏中是更可靠的知识,在那个游戏场景中是不可靠的。
infoq :据介绍,沃森使用的是包括rdf /链接数据在内的semantic web技术。 华生为什么选择了这项技术? rdf和linking open data的思想在沃森系统中是如何起作用的?
张雷:链接数据是一个非常重要的结构化知识源。 考察了在沃森研发的初期阶段,应该如何利用这个重要的知识源。 为了直接回答比赛中的问题,我们采用了linked data,特别是dbpedia、imdb等。 我们还利用了链接数据来帮助沃森评估答案的类型。 不仅如此,沃森在其他许多场合还参考了一点rdf和linked data的思想。 例如,从副本中发掘出的一些知识以三元组的形式表现出来; 如果字符串表示的对象不明确,则使用uri表示不同的对象。 利用rdf三元组的谓词作为语义提示等。
infoq (沃森还应用了本体( ontology )和逻辑推理等其他semantic web技术吗? 沃森强大的运算能力能应对时间多、干扰多的推理指控吗?
张雷:沃森应用了本体来评估答案的类型。 例如,评价哈利·波特是否是文学作品。 dbpedia可能会告诉你哈利·波特是小说,但本体体验会告诉你小说是文学作品。 在沃森系统中,应用了基于简单本体的逻辑推理,如上下位关系、不交叉关系( disjointness )等。 这些简单的逻辑推理可以用简单快捷的方法实现。
infoq (在本体工程的实践中,沃森是如何将dbpedia、yago、wordnet等不同的本体结合在一起的? 是否与主体的映射和转换有关?
张雷:很多主体是分别采用的。 因为华生需要学习这些本体论在这个问答环境中差异的可信度。 对yago和wordnet来说,它们有着天然的对应关系。 其他的本体映射和变换也几乎没有被采用。
infoq :请简要介绍一下严格的含义和浅近的含义,以及华生是如何平衡使用这两种技术的?
张雷:我不知道“严格的词义”和“浅见”是否有正确的定义。 我的理解是,“严格意义”涉及符号化、形式化的逻辑体系,一般来说是精确的、无二义的。 每个符号的含义在逻辑系统内由其他符号准确解释和定义。 “浅见”与自然语言或常识相关,具有一定的模糊性。 两者有不同的适用性。 沃森通过采用机器学习的方法,学习在什么样的场合应该应用什么样的方法。
沃森代表着自然语言解决和人工智能技术的突破
智商:沃森说:“jeopardy! 》击败人类选手,人工智能再次成为热门话题:沃森被认为是人工智能迅速发展的里程碑; 有人认为人工智能前途光明; 另一个人担心机器越来越聪明。 华生面对人工智能历史上的多次失败,无疑是成功的人工智能实践。 作为沃森项目的参与者之一,能谈谈沃森在人工智能实践中的成功经验吗? 人工智能前景怎么样? 另外,你认为有必要担心人工智能吗?
张雷:对于人工智能实践来说,沃森的经验表明,依靠单一或少数算法并不容易成功。 依赖于许多小算法的集成更容易发展。 这似乎和生物界的多样化有相似性。 另外,沃森也证明,人工智能技术已经取得了相当大的进展,通过大规模整合这些技术,许多看起来不容易的问题从“不可处理”变成了“可处理”。 例如沃森说,以前人工智能中的知识获取瓶颈( knowledge acquisition bottleneck )似乎成了可以处理的问题。
对人工智能的担忧在现阶段是不必要的。 我们还没有看到机器有自我意识。 所有功能都由人控制和提供。 现阶段,人工智能技术,包括沃森在内,是用来帮助人而不是代替人的。
智商:华生说:“jeopardy! ’也可以用于那些行业吗? 与其他行业相比,需要那些额外的努力吗? 华生有做不到的事情吗?
张雷:沃森代表着自然语言解决和人工智能技术的突破,可以应用于医疗、金融、电信、政府服务等多个行业。 例如,在医疗行业,医疗记录、文案、杂志、研究资料都是用自然语言写的。 这是以前流传下来的计算机难以理解的语言。 能够从这些文件中马上找到准确答案的系统将会给医疗领域带来巨大的变化。 ibm最近与nuance通信企业签署协议,宣布在医疗领域探索、开发沃森计算系统的先进分解能力,实现商业化。 当然,华生要真正为这些行业服务,可能需要做出额外的努力,例如准备相应的专业信息库。 华生并不是万能的。 对于主观问题和依赖个人生活经验的问题,华生现在无法回答。
华生的未来
infoq :华生将来会有2.0版吗? 如果有,下一步做什么?
张雷:沃森下一个开发计划是将沃森应用到前面提到的医疗、金融、通信、政府服务等实际生活的各个行业。
infoq :像沃森这样的巨大系统不是普通公司所能拥有的,但提供服务是广泛必要的。 在这种情况下,沃森今后会考虑提供云服务吗?
张雷:沃森确实是一个巨大的系统。 具体来说,它运行在不到100台ibm power7服务器上。 所以,那也不是可望而不可即。 许多公司和组织已经有100多台服务器。 当然,沃森服务更多问答请求所需的机器数量将会上升。 因为,也不排除通过云服务提供沃森。
infoq :最后,能介绍一下ibm中国研究院在沃森项目中的主要工作和成果吗?
张雷: ibm中国研究院在开发沃森系统的过程中,发挥了重要的作用。 我们为沃森系统收集、分解和采用各种结构化的知识,利用结构化的可靠知识提供问题的答案,有助于消除使系统显得“愚蠢”的答案,提高沃森系统的学习能力。 来自ibm中国研究院的许多技术成果被纳入沃森系统,一些研究成果为整个科研团队提供了参考和参考。
标题:“大数据认识计算 IBM沃森技术揭秘”
地址:http://www.sdsxywx.com/sdss/4185.html