基于Flink+Hive构建流批一体准实时数仓 | InfoQ 公开课-人工智能-热点资讯-野望文存-科技 
    欢迎来到野望文存-科技!
当前位置:野望文存-科技 > 热点资讯 > 人工智能 >  基于Flink+Hive构建流批一体准实时数仓 | InfoQ 公开课

基于Flink+Hive构建流批一体准实时数仓 | InfoQ 公开课

发表时间:2020-08-07 13:31:00  来源:野望文存  浏览:次   【】【】【

公司内部已经有一套 Hive 离线数仓,如今业务对实时性提出了更高的需求,但又不希望在 Hive 之外从头新建一套实时数仓、导致重复开发,怎么办?8 月 10 日 晚上 20:00,阿里巴巴技术专家李劲松现身 InfoQ《公开课》直播间,详细介绍如何借助 Flink 解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。

如何看直播?

扫描下方二维码进入直播群。不仅可以收看直播,还可以获得本次直播的 PPT,并且可以与其他志趣相投的小伙伴共同论道。群里福利抽奖、专家答疑、资料下载等诸多福利等着你。

更多福利

直播结束后,我们将进行福利抽奖!届时将在直播交流群中抽出三名幸运观众,为每人分别赠送《数据科学与大数据分析》书籍一本!敬请期待哦~

讲师及主题介绍

主题:基于 Flink+Hive 构建流批一体准实时数仓

基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗,甚至 导致重复 开发。

想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是, 借助 Flink 可以 实现已有的 Hive 离线数仓准实时化 。本次 InfoQ 公开课,将分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。

直播大纲
  • 离线数仓实时化的难点

    • Lambda 架构,成本较高

    • 使用第三方工具和调度工具的难点

    • 数据湖,新技术尝鲜不容易

  • Flink on Hive 准实时方案
    • 准实时数据摄入,Flink 如何做到准实时数据落地、精确语义

    • 准实时消费,Flink 如何用流的方式消费 Hive 表

    • 维表关联,Flink 以流的方式关联维表

  • 基于 Flink 构建 Hive 流批一体准实时数仓应用实践
    • 案例需求

    • 基于 Flink 的实时数据摄入案例

    • 基于 Flink 搭建实时 Pipeline 案例

听众受益
  • 了解流批一体数仓的构建和难点

  • 了解 Hive 实时化的思路和发展

  • 了解 Flink 相关技术思路

适合人群

正在探索和建设 流批一体 Hive 实时化数仓的同学。

讲师介绍

李劲松 ,花名之信,阿里巴巴技术专家, Apache Flink Committer 。2014   年起 专注于 阿里内部 Galaxy 流 计算框架;2017 年起开始 Flink 研发,主要专注于 Batch 计算 、 数 据结 构 与类型。

??点击【阅读原文】预约精彩直播

责任编辑:蔡学森