博客
关于我
汽车之家基于 Flink 的实时计算平台 3.0 建设实践
阅读量:464 次
发布时间:2019-03-06

本文共 1628 字,大约阅读时间需要 5 分钟。

摘要:本文整理自汽车之家实时计算平台负责人邸星星在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括应用场景、预算资源管控、Flink 伸缩容、湖仓一体以及PyFlink 实践等。


我们的应用场景与其他公司类似,涵盖了实时指标统计、监控预警、实时数据处理、实时用户行为、实时入湖、实时数据传输等多个方面。具体包括以下内容:

  • 实时指标统计:支持流量分析、车展大屏、818 实时大屏等功能,方便及时调整运营策略。
  • 监控预警:通过日志分析、性能监控和视频播放质量监控实现实时预警,快速定位系统问题。
  • 实时数据处理:支持实时数仓建设、内容中台和电商中台等业务。
  • 实时用户行为:基于用户行为记录用户画像,提升智能推荐效果。
  • 实时入湖:采用湖仓一体架构,解决传统Hive架构的时效性和灵活性问题。
  • 实时数据传输:支持多种存储引擎,高效处理数据传输需求。
  • 我们最初使用Storm平台进行实时计算开发,但由于高学习成本和开发门槛较高,于2018年引入Flink并建设了AutoStream 1.0平台。随后,我们逐步升级到Flink 1.9版本,并在AutoStream 2.0版本中引入了原生DDL和UDF上传功能。此外,我们还开发了健康评分机制和在线诊断功能,显著降低了平台的运维成本。

    AutoStream 3.0版本的升级则进一步提升了平台的功能。我们引入了智能伸缩容功能,优化了资源利用率。同时,平台整体架构也进行了优化,支持了湖仓一体架构的落地。


    预算资源管控是优化计算资源利用率的重要环节。我们通过以下措施实现了对计算资源的强控:

  • 资源划分规范:对服务器资源进行预算划分,避免过度使用和资源浪费。
  • 强控机制:与资产云系统对接,超出预算的任务无法启动。用户需优化低利用率任务,预算不足时可申请借资源。
  • 任务评估:平台规范中定义了低利用率任务的标准,并提供优化建议。
  • 资源监控:基于CPU使用率、内存使用率和空闲slot,识别低利用率任务。
  • 自动伸缩容:通过自动伸缩容功能降低用户调优成本。

  • Flink 伸缩容的引入主要针对以下痛点:

  • 降本提效:提升资源利用率,降低运维成本。
  • 降低调优成本:自动化资源管理减少人工干预。
  • 减少资源冲突:避免任务资源分配不合理导致的稳定性问题。
  • 我们的伸缩容功能包括:

  • 配置管理:支持定时触发、并行度和内存维度的灵活配置。
  • 资源调度:通过RescaleCoordinator组件实现任务重新分配。
  • 资源回滚机制:确保扩容失败时能快速恢复原有配置。
  • 资源持久化:将伸缩容结果保存至zk和HDFS,防止任务中断。

  • 湖仓一体架构的落地解决了Hive架构的痛点:

  • 提升时效性:通过Iceberg的增量快照机制实现10分钟级数据可用。
  • 支持upsert需求:Iceberg的v2格式支持批流一体。
  • 灵活Schema支持:支持动态Schema变更。
  • 我们在Iceberg的实践中做了以下优化:

  • Flink入湖支持:通过Flink的水标记机制实现精确入湖。
  • 账号体系打通:支持离线团队账号统一管理。
  • 元数据统一:基于HiveMetaStore实现湖仓元数据一致性。
  • 小文件合并:优化Iceberg的v2格式小文件合并机制。

  • PyFlink的引入主要针对人工智能团队的需求:

  • 支持Python生态:为AI开发者提供友好的实时计算框架。
  • 依赖管理:支持Jar、Python文件和第三方依赖的统一管理。
  • 简化开发:通过平台集成和UDF支持,降低开发门槛。
  • 我们还优化了PyFlink的部署和镜像制作流程,确保用户开发和部署的高效性。


    未来规划主要集中在以下几个方面:

  • 优化计算资源:进一步利用自动伸缩容和混合部署模式降低成本。
  • 探索流批一体:结合Flink的批处理能力和Iceberg的存储架构。
  • 持续优化PyFlink:扩展支持范围,提升用户体验。
  • 通过以上优化,我们希望在实时计算领域实现更高效、更灵活的平台建设。

    转载地址:http://knfbz.baihongyu.com/

    你可能感兴趣的文章
    Mysql 笔记
    查看>>
    MySQL 精选 60 道面试题(含答案)
    查看>>
    mysql 索引
    查看>>
    MySQL 索引失效的 15 种场景!
    查看>>
    MySQL 索引深入解析及优化策略
    查看>>
    MySQL 索引的面试题总结
    查看>>
    mysql 索引类型以及创建
    查看>>
    MySQL 索引连环问题,你能答对几个?
    查看>>
    Mysql 索引问题集锦
    查看>>
    Mysql 纵表转换为横表
    查看>>
    mysql 编译安装 window篇
    查看>>
    mysql 网络目录_联机目录数据库
    查看>>
    MySQL 聚簇索引&&二级索引&&辅助索引
    查看>>
    Mysql 脏页 脏读 脏数据
    查看>>
    mysql 自增id和UUID做主键性能分析,及最优方案
    查看>>
    Mysql 自定义函数
    查看>>
    mysql 行转列 列转行
    查看>>
    Mysql 表分区
    查看>>
    mysql 表的操作
    查看>>
    mysql 视图,视图更新删除
    查看>>