本文共 1628 字,大约阅读时间需要 5 分钟。
摘要:本文整理自汽车之家实时计算平台负责人邸星星在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括应用场景、预算资源管控、Flink 伸缩容、湖仓一体以及PyFlink 实践等。
我们的应用场景与其他公司类似,涵盖了实时指标统计、监控预警、实时数据处理、实时用户行为、实时入湖、实时数据传输等多个方面。具体包括以下内容:
实时指标统计:支持流量分析、车展大屏、818 实时大屏等功能,方便及时调整运营策略。 监控预警:通过日志分析、性能监控和视频播放质量监控实现实时预警,快速定位系统问题。 实时数据处理:支持实时数仓建设、内容中台和电商中台等业务。 实时用户行为:基于用户行为记录用户画像,提升智能推荐效果。 实时入湖:采用湖仓一体架构,解决传统Hive架构的时效性和灵活性问题。 实时数据传输:支持多种存储引擎,高效处理数据传输需求。 我们最初使用Storm平台进行实时计算开发,但由于高学习成本和开发门槛较高,于2018年引入Flink并建设了AutoStream 1.0平台。随后,我们逐步升级到Flink 1.9版本,并在AutoStream 2.0版本中引入了原生DDL和UDF上传功能。此外,我们还开发了健康评分机制和在线诊断功能,显著降低了平台的运维成本。
AutoStream 3.0版本的升级则进一步提升了平台的功能。我们引入了智能伸缩容功能,优化了资源利用率。同时,平台整体架构也进行了优化,支持了湖仓一体架构的落地。
预算资源管控是优化计算资源利用率的重要环节。我们通过以下措施实现了对计算资源的强控:
资源划分规范:对服务器资源进行预算划分,避免过度使用和资源浪费。 强控机制:与资产云系统对接,超出预算的任务无法启动。用户需优化低利用率任务,预算不足时可申请借资源。 任务评估:平台规范中定义了低利用率任务的标准,并提供优化建议。 资源监控:基于CPU使用率、内存使用率和空闲slot,识别低利用率任务。 自动伸缩容:通过自动伸缩容功能降低用户调优成本。
Flink 伸缩容的引入主要针对以下痛点:
降本提效:提升资源利用率,降低运维成本。 降低调优成本:自动化资源管理减少人工干预。 减少资源冲突:避免任务资源分配不合理导致的稳定性问题。 我们的伸缩容功能包括:
配置管理:支持定时触发、并行度和内存维度的灵活配置。 资源调度:通过RescaleCoordinator组件实现任务重新分配。 资源回滚机制:确保扩容失败时能快速恢复原有配置。 资源持久化:将伸缩容结果保存至zk和HDFS,防止任务中断。
湖仓一体架构的落地解决了Hive架构的痛点:
提升时效性:通过Iceberg的增量快照机制实现10分钟级数据可用。 支持upsert需求:Iceberg的v2格式支持批流一体。 灵活Schema支持:支持动态Schema变更。 我们在Iceberg的实践中做了以下优化:
Flink入湖支持:通过Flink的水标记机制实现精确入湖。 账号体系打通:支持离线团队账号统一管理。 元数据统一:基于HiveMetaStore实现湖仓元数据一致性。 小文件合并:优化Iceberg的v2格式小文件合并机制。
PyFlink的引入主要针对人工智能团队的需求:
支持Python生态:为AI开发者提供友好的实时计算框架。 依赖管理:支持Jar、Python文件和第三方依赖的统一管理。 简化开发:通过平台集成和UDF支持,降低开发门槛。 我们还优化了PyFlink的部署和镜像制作流程,确保用户开发和部署的高效性。
未来规划主要集中在以下几个方面:
优化计算资源:进一步利用自动伸缩容和混合部署模式降低成本。 探索流批一体:结合Flink的批处理能力和Iceberg的存储架构。 持续优化PyFlink:扩展支持范围,提升用户体验。 通过以上优化,我们希望在实时计算领域实现更高效、更灵活的平台建设。
转载地址:http://knfbz.baihongyu.com/