本篇文章3306字,读完约8分钟

最近加热了病毒·史密斯主演的电影《I,robot》。 在故事中的时代,地球上每15个个体就有一台人类智能机器人,从员工助理到家庭保姆,机器人渗透到人类生活的方方面面,它们不仅成为人类有力的工具,而且成为人类家庭的一员。 的机器人与人类交流,理解人类的意图,最终能够独立思考,进化成拥有人类的思想。

““沃森”来了:大数据原来可以这样玩儿”

这让笔者想到了ibm的“沃森”人工智能计算机。 虽然目前沃森和电影中的智能机器人还有不少差距,但沃森和这些智能机器人有相似之处。 可以识别人类的自然语言,运用人类的思维特性来表达意思并做出决定――IBM将其大致称为“识别计算”。

““沃森”来了:大数据原来可以这样玩儿”

结合目前最热门的大数据趋势,这种“识别计算”方法为大数据的应用和拆解提供了新的途径。 想想看,如果我们对着电脑说点什么,就会得到最想要的结果。 例如,“在哪里开设下一家店好呢? 在哪里可以买到最便宜的衬衫? 这样的症状该怎么诊断呢? ……看起来像科幻电影中的桥,但实际上这是大数据和解体追求的终极目标。

““沃森”来了:大数据原来可以这样玩儿”

虽然目标很远,但华生的诞生给我们展示了目标的雏形。 最近,ibm又将“沃森”应用于云环境的开发平台,开放api,让公司开发自己的“沃森”APP,构建“沃森”生态圈,将“沃森”应用于更广泛的行业 ibm还建立了“沃森”拷贝库,可以提供沃森的拷贝。 这包括一般和专业的新闻,如医疗保健。

““沃森”来了:大数据原来可以这样玩儿”

通过开放沃森的api,建立生态系统,沃森把大数据的终极目标又向前迈进了一步。

“华生”“谁? 你怎么工作?

给人工智能计算机命名ibm创始人,表明ibm对“沃森”寄予了很大的期望。

沃森出生于ibm 2006年开始的“认知计算”研究开发项目中,但在此期间,IBM并没有透露多少信息。 年2月,沃森出道,在美国电视节目《危险边缘》中战胜人类冠军而名声大噪。 在节目中,华生能够分解理解人类的语言,准确地给出答案,并且显示出比人类更快的解答速度,这让我很吃惊。 机器代替人脑的时代会到来吗?

““沃森”来了:大数据原来可以这样玩儿”

这并不是机器首次战胜人类,1997年,ibm超级计算机“深蓝”在国际象棋比赛中战胜了当时的世界冠军卡斯帕罗夫,成为了第一台战胜人类的智能计算机。 尽管都是人工智能的产物,但“沃森”和“深蓝”有很大的不同。 “深蓝”中收藏了有限数量的国际象棋走法,根据数据规则预测将棋的走法。 事实上,“深蓝”解决的是比较确定的机器语言,而“沃森”却大不相同,它解决的是人类的自然语言。

““沃森”来了:大数据原来可以这样玩儿”

与确定的机器语言相比,自然语言对一台机器来说非常不确定。 因为有无限的表现方法。 ibm系统和科技部power systems全球实验室服务总监ian jarman举了以下例子。 爱因斯坦出生在德国的乌尔姆,他知道计算机也能识别这种结构化的数据。 但是,如果换成“有一天,otto从乌鲁木齐众多城市景观的画中选择水彩画作为他出生地的纪念送给爱因斯坦”等自然语言,计算机将难以回答爱因斯坦是在哪里出生的。

““沃森”来了:大数据原来可以这样玩儿”

沃森在《危险边缘》中展现出的是超强的对自然语言的理解能力。 当然,要得出正确的结果,光有对自然语言的理解是不够的,还需要从很多结果中筛选出最合适的。 ian jarman先生曾说明过沃森的工作原理。 分解沃森的问题和主题,从答案的来源生成假设,从证据的来源评价假设和证据,进行整合和排名的可靠性计算,给出可靠水平的答案。

““沃森”来了:大数据原来可以这样玩儿”

一般来说,华生得出正确结果的关键是建立基于证据的假设。 如果你问问题的话,计算机会产生很多答案,华生会收集一些证据支持那些答案,根据对不同答案的评分做出最好的选择。 沃森还具备适应能力和学习能力,沃森可以进行互动对话,吸收人们带来的新消息,细化和改进决策和回答。

““沃森”来了:大数据原来可以这样玩儿”

“华生”和“大数据”

自然语言的理解、证据的发现、评价是华生具备的三大能力,凭借这种“识别计算”能力,华生在当前的大数据浪潮中可以起到很大的作用。

大数据已经被认为是“金矿”,如果不能从中提取“金”,大数据也就没有价值了。 由于大数据具有数量多、速度快、多样化、不明确等优势,数据的收集、保存、管理和分解并不简单,如何简化多种多样的数据,实现人脑般的认识和评价,发现新的相关和模式,并

““沃森”来了:大数据原来可以这样玩儿”

沃森的实际工作过程其实是一个完美的大数据观察过程。 识别理解自然语言是解决非结构化数据的过程,找到证据是从不同来源的大数据中检索的过程,评价是对证据评分,做出最佳决策的过程。 例如,用谷歌搜索,输入关键字可能会产生数十万条结果。 哪个结果最适合自己,需要自己评价。 沃森所做的就是充分理解我们的意图,从海量的结果中选出最合适的,而不是人类分解决定的过程。

““沃森”来了:大数据原来可以这样玩儿”

有了这些能力,华生在大数据行业将会有非常光明的前景。 为什么这么说呢,因为医疗领域的医疗记录、文案、杂志、研究资料等很多领域的数据资料都是用自然语言写的,这些都是计算机难以理解语言的。 在零售、旅游、金融、电信、服务等领域,也有大量以自然语言保存和制作的资料。 如果存在能够从这些自然语言资料中迅速找到正确答案的系统,将会给领域带来巨大的变化。

““沃森”来了:大数据原来可以这样玩儿”

ian jarman表示,沃森不再是电视节目的明星,现在进入医疗、金融和呼叫中心领域提供支持服务。 例如在医疗行业,沃森在从各种新闻来源收集数据的同时凝练起来,向医院、医生、医生提供购买医疗的建议和咨询意见。 在美国德克萨斯大学md anderson癌症中心,沃森已经向医生提供了建议,有助于治疗许多复杂的疾病和癌症。

““沃森”来了:大数据原来可以这样玩儿”

沃森的业务通过几个关口

ibm将沃森作为面向大数据市场的重要工具。 为了使沃森进入越来越多的领域,ibm最近宣布建立沃森的生态系统,为合作伙伴提供技术、工具和api编程接口。 我们希望沃森利用云服务和访问工具来帮助他们开发认知计算软件和系统。 第一批合作伙伴包括零售业的fluid、医疗行业的md buyline和健康管理行业的welltok。 另外,ibm建立了沃森的拷贝库,供应商可以向沃森提供拷贝。 这包括一般和专用的新闻,如医疗数据资料。

““沃森”来了:大数据原来可以这样玩儿”

寻找伴侣是ibm的习性,很有效。 例如,ibm power systems在中国实施的“天工计划”和“天合计计划”,大幅提升了power服务器的市场覆盖面。

树木不能变成森林,沃森为了扩大应用行业,有必要建立自己的生态圈。 ibm更擅长的是硬件和大数据观察工具,要将沃森应用到医疗等专业性领域,需要借助具有深厚领域背景的合作伙伴的力量。 而且,沃森给出正确答案的关键是用丰富的证据支持结果,这需要广泛的新闻来源,沃森文案库的建立更需要ibm、合作伙伴和顾客的合作。

““沃森”来了:大数据原来可以这样玩儿”

那么,是不是沃森的合作伙伴越多、生态环境越大,沃森就越容易找到必要的结果和支持的证据呢? ibm是否应该像谷歌一样向所有人开放华生的拷贝库,让所有人都为数据资源做出贡献? 笔者认为这不是理想的状态。 沃森需要广泛的新闻来源,但前提是这些新闻必须是可靠的。 沃森必须从中寻找证据支持结果,所以新闻来源的可信度很重要,如果根据大量错误证据给出错误答案,后果会非常严重。

““沃森”来了:大数据原来可以这样玩儿”

华生和谷歌不同的地方。 谷歌有大量的新闻来源,其中有些是可靠的,有些是不可靠的。 大量新闻的检索也会增加系统的负荷。 我想这也是目前ibm慎重选择沃森搭档的原因。 将来,沃森可能不会向公众公开新闻来源的路线。 因为新闻评选不是容易的事件。 但是,使用沃森提供公共云服务是个好方法,公众可以更快速准确地检索和展示专业建议,省去自己筛选和评价的麻烦。

““沃森”来了:大数据原来可以这样玩儿”

另一个问题是,沃森仍然局限于理解英语语言,没有多语言版本。 也就是说,在复杂的语言环境中,沃森自然语言理解的特征也消失了。 例如中国有很多方言和表达方法,对一个中国人来说也很难理解很多语境。 请考虑一下。 让机器理解“打倒鸭子”,简直就像是不可思议的事件。 但是,支撑沃森的power服务器、symphony、infosphere等基础技术在中国上市,即使浪费时间,未来“打倒鸭子”的方言版沃森也可能会横空诞生。

““沃森”来了:大数据原来可以这样玩儿”

最后,沃森所代表的识别计算,为大数据的未来描绘了美丽的形象,使人工智能又迈进了一大步。 未来的大数据APP可能没那么简单,但我们只要对着计算机,甚至是手机说我们的诉求,就能迅速得到最准确的答案。

标题:““沃森”来了:大数据原来可以这样玩儿”

地址:http://www.sdsxywx.com/sdss/4086.html