博客
关于我
汽车之家基于 Flink 的实时计算平台 3.0 建设实践
阅读量:464 次
发布时间:2019-03-06

本文共 1628 字,大约阅读时间需要 5 分钟。

摘要:本文整理自汽车之家实时计算平台负责人邸星星在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括应用场景、预算资源管控、Flink 伸缩容、湖仓一体以及PyFlink 实践等。


我们的应用场景与其他公司类似,涵盖了实时指标统计、监控预警、实时数据处理、实时用户行为、实时入湖、实时数据传输等多个方面。具体包括以下内容:

  • 实时指标统计:支持流量分析、车展大屏、818 实时大屏等功能,方便及时调整运营策略。
  • 监控预警:通过日志分析、性能监控和视频播放质量监控实现实时预警,快速定位系统问题。
  • 实时数据处理:支持实时数仓建设、内容中台和电商中台等业务。
  • 实时用户行为:基于用户行为记录用户画像,提升智能推荐效果。
  • 实时入湖:采用湖仓一体架构,解决传统Hive架构的时效性和灵活性问题。
  • 实时数据传输:支持多种存储引擎,高效处理数据传输需求。
  • 我们最初使用Storm平台进行实时计算开发,但由于高学习成本和开发门槛较高,于2018年引入Flink并建设了AutoStream 1.0平台。随后,我们逐步升级到Flink 1.9版本,并在AutoStream 2.0版本中引入了原生DDL和UDF上传功能。此外,我们还开发了健康评分机制和在线诊断功能,显著降低了平台的运维成本。

    AutoStream 3.0版本的升级则进一步提升了平台的功能。我们引入了智能伸缩容功能,优化了资源利用率。同时,平台整体架构也进行了优化,支持了湖仓一体架构的落地。


    预算资源管控是优化计算资源利用率的重要环节。我们通过以下措施实现了对计算资源的强控:

  • 资源划分规范:对服务器资源进行预算划分,避免过度使用和资源浪费。
  • 强控机制:与资产云系统对接,超出预算的任务无法启动。用户需优化低利用率任务,预算不足时可申请借资源。
  • 任务评估:平台规范中定义了低利用率任务的标准,并提供优化建议。
  • 资源监控:基于CPU使用率、内存使用率和空闲slot,识别低利用率任务。
  • 自动伸缩容:通过自动伸缩容功能降低用户调优成本。

  • Flink 伸缩容的引入主要针对以下痛点:

  • 降本提效:提升资源利用率,降低运维成本。
  • 降低调优成本:自动化资源管理减少人工干预。
  • 减少资源冲突:避免任务资源分配不合理导致的稳定性问题。
  • 我们的伸缩容功能包括:

  • 配置管理:支持定时触发、并行度和内存维度的灵活配置。
  • 资源调度:通过RescaleCoordinator组件实现任务重新分配。
  • 资源回滚机制:确保扩容失败时能快速恢复原有配置。
  • 资源持久化:将伸缩容结果保存至zk和HDFS,防止任务中断。

  • 湖仓一体架构的落地解决了Hive架构的痛点:

  • 提升时效性:通过Iceberg的增量快照机制实现10分钟级数据可用。
  • 支持upsert需求:Iceberg的v2格式支持批流一体。
  • 灵活Schema支持:支持动态Schema变更。
  • 我们在Iceberg的实践中做了以下优化:

  • Flink入湖支持:通过Flink的水标记机制实现精确入湖。
  • 账号体系打通:支持离线团队账号统一管理。
  • 元数据统一:基于HiveMetaStore实现湖仓元数据一致性。
  • 小文件合并:优化Iceberg的v2格式小文件合并机制。

  • PyFlink的引入主要针对人工智能团队的需求:

  • 支持Python生态:为AI开发者提供友好的实时计算框架。
  • 依赖管理:支持Jar、Python文件和第三方依赖的统一管理。
  • 简化开发:通过平台集成和UDF支持,降低开发门槛。
  • 我们还优化了PyFlink的部署和镜像制作流程,确保用户开发和部署的高效性。


    未来规划主要集中在以下几个方面:

  • 优化计算资源:进一步利用自动伸缩容和混合部署模式降低成本。
  • 探索流批一体:结合Flink的批处理能力和Iceberg的存储架构。
  • 持续优化PyFlink:扩展支持范围,提升用户体验。
  • 通过以上优化,我们希望在实时计算领域实现更高效、更灵活的平台建设。

    转载地址:http://knfbz.baihongyu.com/

    你可能感兴趣的文章
    mysql5.7免费下载地址
    查看>>
    mysql5.7命令总结
    查看>>
    mysql5.7安装
    查看>>
    mysql5.7性能调优my.ini
    查看>>
    MySQL5.7新增Performance Schema表
    查看>>
    Mysql5.7深入学习 1.MySQL 5.7 中的新增功能
    查看>>
    Webpack 之 basic chunk graph
    查看>>
    Mysql5.7版本单机版my.cnf配置文件
    查看>>
    mysql5.7的安装和Navicat的安装
    查看>>
    mysql5.7示例数据库_Linux MySQL5.7多实例数据库配置
    查看>>
    Mysql8 数据库安装及主从配置 | Spring Cloud 2
    查看>>
    mysql8 配置文件配置group 问题 sql语句group不能使用报错解决 mysql8.X版本的my.cnf配置文件 my.cnf文件 能够使用的my.cnf配置文件
    查看>>
    MySQL8.0.29启动报错Different lower_case_table_names settings for server (‘0‘) and data dictionary (‘1‘)
    查看>>
    MYSQL8.0以上忘记root密码
    查看>>
    Mysql8.0以上重置初始密码的方法
    查看>>
    mysql8.0新特性-自增变量的持久化
    查看>>
    Mysql8.0注意url变更写法
    查看>>
    Mysql8.0的特性
    查看>>
    MySQL8修改密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
    查看>>
    MySQL8修改密码的方法
    查看>>