本篇文章1162字,读完约3分钟
apache软件基金会终于发布了最新的hadoop 2数据观察平台,引起了舆论对大数据发展的美好憧憬。 以前,我写过一篇文章《hadoop应用大数据不就行了吗》,分析了国内大数据市场的现状。 hadoop 2的发表会像舆论预想的那样刺激大数据的应用和迅速发展吗?
我想先看看,hadoop 2进行了那些改善吗? 据相关文章介绍,hadoop 2最大的改进是推出了yarn数据解析和服务引擎,以改进map/reduce,并向hadoop 2文件系统( HDFS )添加高可用性功能。
可以看到一点技术细节。 要访问hadoop数据,需要开发Java APP应用程序来实现map/reduce,这使得学习变得有点困难。 除此之外,还可以使用hadoop数据按照近似数据库范式解析数据。 在该hive数据仓库中,可以使用类sql的hivesql查询语言创建查询并将其转换为mapreduce任务。 但是,hadoop仍然受限于单线程性。 其极限是依次执行mapreduce任务、hive查询、hbase操作等。
hadoop开发社区也意识到了这个问题,在hadoop2上进行了改进,将map/reduce升级为Apache yarn ( Yetanotherresourcenegotiator )。
yarn项目负责人arunmurthy指出,hadoop1.0和2.0的区别在于,前者所有事件都面向批量解决,而后者允许多个APP,可以在内部访问数据。
换言之,通过分离这些功能,hadoop集群资源的管理对于可以由当前的map/reduce系统解决的事件变得越来越强大。 其主要管理方法类似于操作系统解决任务,一次不再限制一个操作。
有了yarn,开发者可以像多个第三方工具一样,直接在hadoop内部开发APP,而不是在外面筛选数据。
从hadoop 1.0到2.0对客户来说没有本质区别。 只是,从技术的立场出发,简化技术开发的难度不是质的变化,而是量的积累。 对最终用户来说,map/reduce和yarn都只是资源的调度和招聘方法。
因为,无论是hadoop 1.0、2.0,其最大的贡献还在于为解决大量结构化数据提供了采用x86等廉价手段的机会,这也是大数据应用被广泛宣传、和谈正在进行的首要原因 现在国内大数据APP需要的还是大数据服务的提供者,至于这些提供者是采用map/reduce还是yarn,不重要的不是工具,而是服务和结果。 无论是map/reduce还是yarn,都不是普通的非专业人士能够采用的。 采用电脑没那么简单。 现在需要的是能够采用map/reduce和yarn的人,需要提供专业的服务。
hadoop 2促进了大数据的应用和快速发展,但国内的关键化问题还没有得到处理。 这是因为不乐观。
标题:“Hadoop都2了 大数据应用会迈上一个新台阶吗”
地址:http://www.sdsxywx.com/sdss/4169.html