本篇文章1317字,读完约3分钟
大数据技术涉及的行业非常广泛,从硬件基础设施到数据库再到上层APP,大数据技术的身影遍布it APP应用的各个层面、各个地方。 但是,要从大数据中挖掘价值,这个重任必须是拆解技术。 那么,大数据观察技术的研发难点是什么? 未来如何快速发展? 为此,比特角采访了ibm大数据研究所的总监aya soffer。 她领导ibm全球12个研究所进行研究开发。 她领导的ibm研究所介绍说,没有对已经成熟的技术进行商业研究开发,而是重视预见性和划时代的研究。 那个工作的想法是三大部分。 第一,如何从非结构化的流媒体数据中提取数据以帮助决策和分解。 例如
从音频和视频中提取特殊数据来决定分解; 二是数据可视化。 如何使分解后的结果可视化才能让业务顾客理解。 三是可视化与地理位置新闻相结合,如港口监控所有船只,根据异常情况结合人员拆解进行评估,实现更快的拆解。
问:我说过正在研究关于语音、视频的大数据应用,这些数据在大数据观察中,其技术课题在哪里? 目前在那些方面有进展吗?
aya soffer :目前,各个音频、视频的解决,已经在很多系统中进行得很好,但如何理解视频背后的含义,即语义分解和语境分解,这是目前的技术难点。 例如,很难从一张或多张照片中提取出两台车有可能发生碰撞的特征。
问:非结构化数据是大数据中最常见的部分。 以自然语言翻译为例,目前存在两种方法。 一是利用语言学家的方法,根据语言理论进行翻译。 另一种形式是谷歌这样的匹配法,无论语法和规则如何,都以原文和(互联网上的)翻译数据为对象,找出最近、翻译结果最常被引用的。 你认为哪种方法适合现在的APP环境? 还是你觉得哪个有效?
aya soffer :这两种方法并不矛盾。 根据实际应用场景,使用两种方法。 基于统计的方法,依然会持续快速发展。 如果我们对错误的容忍度很高,基于统计的方法就会奏效; 在我们要求精度的情况下,有必要适用于以前流传下来的做法。
问:机器学习是大数据应用中非常流行的形式,但流派众多,什么种类可以接受?
aya soffer :机器学习现在主要有两种倾向。 第一个是更深入地学习。 即如何在没有人工干预的情况下,通过大规模的计算进行深入的学习和分析。 另一个大趋势是适应性学习。 也就是说,继续利用自己设置的反馈机制对模型和算法进行自我调整。
问: IBM研究所研究的这些技术应用于产品需要多长时间?
aya soffer :至少需要1-2年。 我们也和产品部合作了一点点的创新。 这些创新将在一两年内变成商业化的产品。 但是,如果是非常跨时代的创新,需要的时间就会非常长。 例如watson系统从2006年开始制作,但商业化还不到一年。 但是,目前外部环境的快速发展要求软件的开发周期越来越快,云计算使得这些创新能够更快地提供给市场。
问: IBM今年收购了许多与大数据相关的公司,对当前的研究方向有什么影响? 如果收购的技术和我们研究的项目重合了,你怎么解决?
aya soffer :收购是件好事。 也就是说,我们不需要重新创新。 收购的产品肯定已经有一定的技术沉淀物。 我们实验室将对新收购的产品进行一定的技术合作以提高它。
标题:“IBM实验室总监谈大数据前沿趋势”
地址:http://www.sdsxywx.com/sdss/4164.html