“阿里正式向 Apache Flink 贡献 Blink 源码”-时代商报网

本篇文章6338字，读完约16分钟

引用:

正如去年12月在flink forward china峰会上承诺的那样，阿里巴巴内部的flink版本blink将于2019年1月底正式开源。今天，我们终于等到了这一刻。

阿里资深技术专家大沙详细介绍了此次开源blink的主要功能和优化点，希望与业内同仁共同推动flink社区进一步快速发展。

千兆以太网链接

github/Apache /链接/树/链接

blink概述

apache flink是德国柏林工业大学的博士生和研究生从学校开始的项目，初期称为stratosphere。年，stratosphere项目的中心成员离开学校开发了flink，将flink计算的主流方向定位为流量计算，同年将flink捐赠给apache，随后迅速孵化成为apache的顶级项目。目前，flink是业界最受好评的大型数据流计算引擎。

阿里巴巴去年尝试了采用flink。但是，蚂蚁的业务体积非常大，挑战也很多。那时的flink无论是规模还是稳定性都还没有得到实践，成熟度还需要研究。为了支持这么大的业务卷，我们必须在flink之上进行一系列的改进，所以阿里巴巴维持着blink这个内部版本的flink。

基于blink的计算平台于年正式上线。截至目前，阿里大部分技术部门都采用了blink。 blink在阿里内部纷繁的业务场景中得到锻炼和成长。在公司客户提出的性能、资源利用率、易用性等各种问题上，blink进行了比较改善。虽然目前blink在阿里内部使用最多的场景是流量计算，但在批处理计算的场景中也有很多业务被在线采用。例如，搜索和推荐算法业务平台采用blink进行流计算和批处理解析。 blink用于实现流批量一体化的样本生成和特征提取流程，可解决的特征数达数千亿，且每秒解决数亿条消息。在此场景的批处理解析中，一个作业可以解析的数据量超过400t。此外，为了节省资源，批处理解析作业与流计算作业和搜索的在线引擎在同一台计算机上运行。因此，我们可以看到，流批整合已经在阿里巴巴取得了巨大的成功。希望这次成功和阿里巴巴内部的经验能回归社区。

blink开源背景

其实我们从选择flink的第一天开始就一直和社区紧密合作。这些年来，我们也将蚂蚁对flink的改善推回了社区。我们从2010年开始将流式计算sql的大部分功能推回到了社区中，将运行时的稳定性与性能优化进行了比较。但是，blink本身快速迭代的速度非常快，社区有自己的节奏，很多情况下可能无法立刻推回我们的改变。对社区来说，稍微大一点的功能和重构必须在达成共识才能更好地保证开源项目的质量，但推送速度相对较慢。经过这几年的开发迭代，我们和社区之间的差距已经很大了。

blink有一点优秀的新功能。例如，社区版本中没有性能良好的批处理解析功能。在这期间，我们被问到了blink的各种新功能。人们越来越期待blink尽快成为开源。我们一直在考虑开源问题。一个方案是和以前一样，继续分解各种功能和优化，一个个和社区讨论，慢慢推回flink。但这显然不是大家所期待的。另一个方案是先将完美的尽可能多的代码开源，让社区开发者尽快试用。第二个方案将很快得到社区许多客户的支持。因此，我们每年都开始开源相关的准备。经过半年的努力，我们终于整理了大部分blink的功能，开源了。

blink开源的方法

我们之所以贡献代码，是为了能稍微尝试一下他们感兴趣的功能。 blink决不会单独成为独立的开源项目进行运营，他一定是flink的一部分。开源后，我们期待着找到最快的方法把blink merge放入flink中。 blink开源的目的只是希望flink变得更好。 apache flink是一个社区项目，必须和社区一起讨论blink以什么形式进入flink最合适，如何做出贡献是社区最希望的方法。

在过去的一段时间里，我们在flink社区征求了广泛的意见，但是我们认为将这次开源的blink代码作为flink的分支直接推回到apacheflink项目中是最合适的方法。他们还与社区讨论了计划迅速从merge blink迁移到flink master的方案。有关详细信息，请参见flink社区中讨论的flip32。我期待着这个merge能在短时间内完成。这样，我们之后的机器学习等其他新功能就可以直接推回到flink master了。我相信很快flink和blink就会完全合二为一。之后，阿里巴巴将直接采用flink进行生产，帮助社区一起维护flink。

此次开源blink的主要功能和优化要点

此次开源的blink代码在blink1.5. 1版的基础上增加了许多新功能，以及性能和稳定性方面的各种优化。第一个贡献是，阿里巴巴在流媒体计算中积累的新功能和性能的优化，完整的(可以通过所有tpc-h/tpc-ds，读取hive meta和data )，高性能的batch sql，以提高易用性为中心的功能)，包括对更高效的交互式编程的支持)，今后也将继续为flink在ai、iot和其他新兴行业的功能和优化做出贡献。有关此版本的blink发行版的详细信息，请参见blink代码根目录中的readme.md文档。下面，我们将按模块介绍blink的主要新功能和优化点。

运行时

为了更好地支持batch processing，应对阿里巴巴批量生产场景中面临的各种挑战，blink大幅改善了运行时架构、效率和稳定性。在体系结构方面，首先blink引入了可插拔结构，开发人员可以根据不同的计算模型和新硬件的需要实现不同的shuffle战略来适应。 blink还引入了新的调度体系结构，允许开发人员根据计算模型本身的优点定制不同的调度程序。为了优化性能，blink可以更灵活地将运算符组合到chain中，从而消除不必要的数据传输开销。在pipeline shuffle模式下，采用zerocopy降低了互联网层的内存消耗。在broadcast shuffle模式下，blink优化了许多不必要的序列化和反序列化开销。