本篇文章1912字,读完约5分钟
刘慈欣写的《三体》是硬科幻小说,木星的星环上有个叫星环的企业。 这家企业聚集了人类最优秀的科学家们,建造了太阳系第一艘超光速宇宙飞船——星环号。 在今年召开的hadoop峰会上,笔者会见了现实世界的星环企业。
星环新闻科技(上海)有限企业是一家高科技大数据创业企业。 由原英特尔亚太研发有限公司数据中心软件研发经理孙元浩创立,致力于开发包括apache hadoop2.0在内的大数据基础软件,超越了hadoop,成为开源hadoop版本的10x—— 在此次论坛上,星环科技发布了国内首款基于spark和hadoop2.0的大数据平台软件——transwarp data hub (以下简称transwarp dh )。
星环新闻科技发布会现场
稀疏计算框架比hadoop快
transwarp dh是基于apache spark计算框架的大数据平台软件,与开源的hadoop2.0相比,大数据观察的性能快10—100倍,另外transwarp dh 除此之外,transwarp dh还包括hadoop2.0、spark和shark,具有模块化、松散耦合的四层体系结构。 与此相反,不同的APP行业通过组件之间的灵活组合和有效的协作提供个性化的支持。
transwarp dh核心数据解决方案模块是基于内存的高效计算引擎spark驱动程序,与广泛采用的mapreduce框架相比,消除了频繁的i/o磁盘访问 另外,spark引擎使用轻量级的调度框架和多线程计算模型,与mapreduce的进程模型相比,除了调度和启动的开销非常低,还提高了系统的运行速度以外 在数据存储层的transwarp dh上构建hbase数据库的辅助索引和高维索引,以及在线存储和在线商务高级产品系统( OLAP )的低延迟 此外,transwarp dh还扩展了shark,提供了基于内存的高效分布式列式数据存储和索引,从而加快了对各种结构化数据的访问。 通过综合执行引擎和数据存储层的优化,transwarp dh比开源hadoop 2.0发行快10~100倍,数据全部加载到内存后,10秒内达到30亿条记录( 500gb的数据,
星环科技联合创始人兼cto孙元浩
大数据时代应该有的数据观察能力
大数据的真正价值在于解体,将大数据置于数据观察者手中,交互探索数据,获取发现的内在和发现的模式和趋势,展开进一步的解体和决策变得越来越重要。 孙元浩指出:“目前在nosql数据库中实施sql已成为趋势,transwarp dh支持完整的hiveql语句集,扩展hiveql,优化执行速度。” 优化的高速执行引擎spark支持交互式sql查询,从而实现实时和交互式分解。
transwarp dh包括高度优化的专有图形算法(构成专有的deepgraph算法库),能够高速分解相关关系互联网等图形数据。 由于transwarp dh和r统计引擎集成在一起,集群的节点都可以在本地执行r统计分解功能来解析hdfs或hbase的数据,因此transwarp dh成为大数据数据挖掘和可视化APP行业的利器。 transwarp dh还集成了机器学习算法库mahout,包括聚类分解、分类算法、频率相关分解和推荐系统等常用的机器学习算法。
具有数据观察能力且与现有系统的集成是transwarp dh重视的另一个问题,transwarp dh与现有成熟系统的集成涉及数据获取、数据观察和数据可视化。 以前传递的关系数据库中的数据可以直接作为数据源访问集群并参与计算分解,目前支持的软件有oracle、db2、musql。 数据观察层和r语言的整合带来了r的数千种统计算法; 数据可视化不仅可以向客户展示最终的分解结果,还可以帮助数据观察者发现和处理新问题的数据搜索。
合作伙伴支持计划
从市场面来看,星环科技推出了与各行业isv、系统集成商、hadoop服务商深入合作、共赢、期待长时间合作的合作伙伴支持计划。 孙元浩说:“我们希望产品能给合作伙伴带来新的大数据商机、新的顾客、丰富而长时间的回报。 此次公布的国内合作伙伴计划提出了8个针对合作伙伴的具体支持方案。 ”
1、通过系统的学习和实践,培养hadoop技术高手,为你所在的企业开展越来越多的自己的服务业务。
2、要能适应售前工程师的培养、大数据的项目
3、实施和设置引进工作人员的培养
4、为合作伙伴的重要项目提供售前计划支持
5、为合作伙伴提供poc和性能调优支持
6、定期以沙龙等形式更新国际最新的hadoop、spark等技术动向
7、定期分享国内最新成功案例和方案
8、潜在项目的共享
标题:“星环科技:国内首个Spark框架大数据平台软件”
地址:http://www.sdsxywx.com/sdss/4066.html