万物都是数
随着大数据落地的发展,越来越多的企业意识到了数据的价值。 但是,人们的统一认识,或者说大多数商业智能工作者的认识,都局限于结构化数据的逻辑。 也就是说,我们认为所有的数据最终都可以保存在数据库里。 也就是说,它是收集、清洗、整合的优秀数据。
事实上,当前数据的定义完全超出了数据库的存储逻辑,无论是关系还是最新的nosql或graph数据库,当前存储在数据库外的数据量都远远超过了数据库中存储的数据
在商业智能分解中,数据源包括网页、pdf、图像、音频、视频等,具有非常重要的价值。 例如,在新的零售场景下,人们对在线商品展示和商品包装等相关数据的分解的诉求越来越高。 商品的销售额和他的配置位置、商品包装的颜色等有什么关联? 怎么分解? 是否需要事先收集所有相关新闻,进行清洗以进行分解,然后结构化保存?
虽然需要收集和保存,但是很难用以前流传下来的商业智能清洗哪些数据并将其结构化。 随着技术的飞速发展,在成熟的相关分解工具中添加定制脚本可以灵活地分解上述问题。 另外,基于图像中的颜色模式、物体相似度等的检索和分解也有第三方支持。
顺便问一下,新时代的商业智能对所有事物该如何理解呢? 数据不是以前传递的数字或数据库的逻辑,而是数据已经需要添加到所有事物中的新的维和属性。 而商业智能的解体,必须突破以前流传下来的数据仓库和数据库的构想,提出在商业逻辑下各种脑洞大开的数据诉求和解体诉求。
数据架构的供应链思考
在商业智能中数据体系结构很重要它是所有商业分解的基础 数据体系结构是指如何存储和管理数据,存储在哪里,以及为什么要采用这种管理逻辑。 人们一般把这个问题直接局限于以前流传下来的数据库数据建模(关系和数据结构的设计),但数据架构的核心任务是设计一系列数据的供应链逻辑,数据生产、收集集成、逐一发送,费用
另外,数据架构还必须支持不同业务场景下的数据观察、数据科学相关数据解决的支持设计。 因此,数据架构更重要的是组织和设计完整的逻辑。 只有在这个抽象层次下,才能实现具体的存储和管理,有了目标,才能更容易地创建良好的数据架构。
说到商业智能数据架构,不得不说以前流传下来的数据仓库。 本质上数据仓库处理的是数据湖的问题,整合不同地方的数据实现关联是数据观察的基础。 数据仓库项目的周期通常比时间长、短半年几个月、长几年。 这也很容易理解,数据仓库构建过程中数据的贯通、清洗、关联、建模等不是短时间内可以完成的任务,而是与数据仓库项目的整体目标相关的。 如果要构建满足各种业务分解诉求的完美配套,要构建依赖于现有业务逻辑和数据生产的诸多复杂系统。
现实情况是,不同的数据源,甚至不同的数据维和碎片,对商业分解的价值也不同。 在这个过程中,对不同数据的预判缺失导致对整个etl的投资过大。 后来,有了hadoop之后,大家还是数据中心的构想,什么数据都写在hadoop里,以后再用再来找。 这样也出现了一点问题。 例如,在数据流场景中,您会发现将许多流数据持续保存在数据库中并不容易。 因为数据收集和数据查询本身是两个不同的场景和阶段。
总体而言,数据架构的设计包括四个不同的维度,数据的生产、收集集成、逐个发送和成本。 整理他们之间的逻辑,实现顺利的数据供应链目标。 其任何部分都可以灵活地支持各种方法。 比如数据的一个一个发送,模拟在线零售系统,我们有不同的一个发送系统,支持不同的渠道,比如中心仓库和地方仓库,电商仓库和渠道仓库等逻辑。 因此,新时代的数据架构可以是多条线并行的架构,不一定是完全中心化的数据仓库的设计逻辑。
商业智能与数据科学
传统商业智能的核心目标是数据可重用性,通过星型结构和范式模型的抽象支持各种数据的存储、查询和报告工作。 虽然商业智能本质上处理的是数据访问和部分数据搜索的目的,但是他们能够支持的问题并没有太大变化,所以对应的报告设计是相对固定的。 但是,在数据科学中,这种不变的数据结构和计算模型并不容易支持各种不同的算法,算法本身也在不断发展。
在商业智能系统的设计过程中,底层的数据结构会描述所有的东西,但背后的商业逻辑并不在意,经常通过通用的描述模型来实现。 例如,我们不知道某个商品的销售总额代表了什么意思,但与这个测量值相比,我们支持合计、平均等一系列的操作。 以前流传下来的数据仓库设计主要基于诉求背后的统一计算模型和逻辑进行抽象。
数据科学相关的分解问题,用统一的抽象结构和计算模型来描述并不容易。 简单地说,需要进行越来越多的统计学计算,如计算一点相关系数、从向量到矩阵的基本运算等。 不仅这些计算的多样性,复杂度和资源消耗都发生了巨大的变化,能够抽象出不同算法背后的标准计算模型也非常有限。 因此,很多数据科学家从事了特征工程的工作。 也就是说,他基于对不同算法和业务的理解进行了特征提取工作,并基于特征提取进行了各种算法的实验。 特征工程的本质是从抽象存储向抽象计算模型的过渡。
本质上,数据科学的数据架构可以类似于以前流传下来的商业智能架构设计的逻辑。 随着数据仓库和商业智能的迅速发展,许多方法和框架已经非常成熟,因此,当前企业在选择商业智能和数据科学时,都需要选择数据仓库(商业智能) 也有中间的道路,即根据商业智能和数据科学设计不同的数据存储抽象和数据模型抽象以支持各自的数据架构。
关于作者: [/s2/]
赵干坤壹看板创始人兼首席执行官
赵干坤博士,数据挖掘专家毕业于华中科技大学、新加坡南洋理工大学,在美国宾夕法尼亚大学完成了各搜索引擎相关的博士后研究。 其相关研究和应用在国际知名学术会议( www、kdd、aaai、cikm等)上发表了20多篇论文和讲座、2项国际专利技术。 历经好耶广告北京首席设计师、西班牙电信大数据科学家、aolchina发起人,创立脉博网和37degree。 具有深厚的数据挖掘技术背景和10多年的互联网领域经验,大数据以前传到了公司和网络广告应用设计师和实践者那里。 / br// h// br// h// br// br// h// h /
标题:“壹看板CEO赵乾坤博士:新时代商业智能需要全新解读”
地址:http://www.sdsxywx.com/sdss/62.html
心灵鸡汤: