openEuler Bigdata Meetup 回顾:大数据与 AI 时代的技术突破与实践

openEuler2025-07-03openEulerMeetup

2025 年 6 月 25 日,OpenAtom openEuler (简称“openEuler”或 “开源欧拉”) Bigdata SIG 在线上举办了以大数据与 AI 为主题的 Meetup 活动,这场持续近 3 小时的技术分享会通过 B 站同步直播,五位行业专家围绕实时数据库、分布式系统架构、智能查询优化及大数据生态管理等前沿议题展开深度交流,展现了 openEuler 在技术落地中的创新实践,让我们来回顾一下这场活动的高光时刻。

直播回放链接

https://www.bilibili.com/video/BV1D7KZzmEQH

Apache Doris:AI 时代实时数据分析的核心引擎

SelectDB 架构师朱伟以 “为 AI 数据就绪” 为主题,揭开了 Apache Doris 在实时分析领域的技术演进脉络。作为 2013 年诞生于百度、2022 年成为 Apache 顶级项目的开源实时分析数据库,Doris 已在超 5000 家中大型企业落地,从腾讯、字节等互联网巨头的用户行为分析,到制造业的设备数据监控,其每秒百万行的数据写入能力与亚秒级查询性能,正成为实时决策系统的核心支撑。

在 AI 与 Agent 技术爆发的背景下,Doris 针对数据实时性、响应延迟与迭代速度的需求,构建了三大应用场景:面向金融反欺诈与广告推荐等场景的实时分析引擎,已在字节落地超 30 万核的部署规模;作为湖仓融合方案的统一查询引擎,较 Trino 提升 3-5 倍性能,被顺丰、网易等头部企业用于替代原有架构;以及作为可观测性平台的日志分析核心,以 1/5 的存储成本实现两倍于 Elasticsearch 的性能。朱伟透露,Doris 即将推出的混合检索特性将支持向量数据库与结构化数据的联合查询,而 AI 算子能力可直接在 SQL 中调用大模型进行文本情感分析,其中混合检索功能将于 7 月发布预览版。

无冲突复制数据类型:异地多活系统的一致性破局之道

金蝶天燕研究员常智针对分布式系统中的数据一致性难题,带来了无冲突复制数据类型(CRDT)的实践探索。在异地多活架构中,传统主从模式面临跨区域访问延迟高的痛点,而对等多活架构的核心挑战在于解决分布式环境下的操作冲突。常智以 Counter 计数器与 Set 集合为例,阐释了先天无冲突数据类型的三大特性 —— 交换律、结合律与幂等性。

对于必须手动消解冲突的场景,常智提出基于向量时钟的冲突识别机制:为每个键值对维护 N 维向量(N 为节点数),通过比较向量值判断操作顺序。例如两地同时修改字符串值时,时间戳较晚的操作将被优先保留;而在删除与写入冲突中,“添加优先” 策略可避免数据丢失。该方案在金融交易系统中实现了 99.99% 的可用性,且对读写延迟影响小于 5%,完全兼容 Redis 命令生态,为异地多活缓存系统提供了高性能解决方案。

智能查询优化:AI 重构大数据查询的执行范式

中国人民大学信息学院博士研究生何家豪聚焦大数据查询优化的技术变革,直指传统优化器的三大痛点:基数估计误差导致的执行计划偏差、动态规划带来的搜索空间爆炸,以及缺乏历史经验复用的局限性。他以微软 AutoSteer 与阿里 Lero 为例,解析了 AI 辅助优化的技术路径:前者通过机器学习动态开关优化规则,后者利用神经网络修正基数估计。LEAP 则通过端到端的构造查询计划将在复杂 Join 场景中的执行时间缩短 54%

何家豪分享的下一代优化框架将机器学习嵌入查询执行阶段,实现动态自适应调整:它可以根据执行时的反馈信息对查询计划进行调整;并通过强化学习不断改善自身优化策略。在 3 个标准数据集中的测试结果中显示,这样的优化方式可以提升 Spark SQL 的性能高达 70%,展现了 AI 技术对大数据查询引擎的重构潜力。

BigTop Manager:大数据生态管理的自动化革命

Apache Ambari/Bigop PMC、Linaro 工程师吴治国揭示了当前大数据生态的管理困境:大数据组件版本兼容性管理粗放,Hadoop 生态组件(如 HDFS、Spark、HBase)版本组合缺乏系统性验证,导致生产环境频繁出现接口不匹配、数据读写异常等问题。作为 Apache 基金会的顶级项目,Bigtop 通过标准化组件打包、集成测试套件与配置模板库,为生态统一提供了基础支撑,而最新推出的 Bigtop Manager 则将自动化管理推向新高度。

该工具通过统一的 Web 页面进行运维,且提供 Prometheus 等基础服务进行监控告警等功能的全局管理,默认支持多集群、多 Stack 的部署方式,为用户提供了扩展性的同时解决市面上同类工具相应功能缺失的问题。吴治国透露,未来的版本将支持 Kubernetes 云原生部署,并引入大模型 Agent 实现智能运维能力,自动解析组件错误日志并进行相应的操作,进一步降低大数据集群的运维门槛。

鲲鹏服务器上 Spark 与 Velox 的优化实践

openEuler Bigdata SIG maintainer、Apache Bigtop committer 陈强在演讲中围绕鲲鹏服务器上 Spark 与 Velox 的优化实践展开,深入剖析了大数据计算引擎的性能瓶颈与解决方案。他指出,Spark 作为主流的分布式计算框架,支持 SQL、机器学习等多场景处理,但基于 Java/Scala 的实现难以充分利用 CPU 向量化指令集,且 Java GC 开销显著,制约了性能上限。为此,业界探索通过 Native 引擎优化路径,其中 Spark+Velox 方案通过 Gluten 层将计算任务转换为底层算子,借助 Velox 整合的向量化计算、内存管理等基础库,直接对接鲲鹏硬件加速能力(如 UADK 压缩引擎),实现对 ARM 架构的高效适配和优化。

在性能分析层面采用多维度监控手段:通过 Spark 原生 Web UI 定位 Job/Stage 层级的耗时节点;利用 nmon 识别 CPU 和磁盘 IO 等系统资源使用瓶颈点;使用 Jeprof 和 BPF 等工具分析内存分配等相关特征数据;借助 async-profiler 等工具抓取热点函数调用栈,以及 perf record 定位函数瓶颈点的代码片段。发现 CRC32 校验、内存分配等环节存在优化空间,针对这些瓶颈,团队实施了系列优化措施:在向量化方面,既通过 GCC 编译选项开启自动向量化,又手动集成 ARM NEON 指令集;硬件加速层面,将数据压缩任务卸载至鲲鹏专用加速器;内存管理上,替换为 jemalloc 分配器,显著降低上下文切换与缺页中断,使典型 SQL 任务执行时间从 64 秒缩短至 48 秒。

此外,陈强还介绍了 openEuler 社区 bigdata SIG,包括维护 Hadoop、Spark 等核心组件、孵化有潜力的大数据技术组件、社区间交流与合作、开源实习等交流渠道。介绍了参与 SIG 的各种方式,包括双周例会、订阅邮件等。