服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

行业新闻

恭喜OPPO!把大数据平台搬上了阿里云

作者:小编 点击: 发布时间:2025-07-23 10:30

  

恭喜OPPO!把大数据平台搬上了阿里云(图1)

  作为行业头部企业,OPPO的大数据平台积累了数百PB的数据和数十万个任务,覆盖OPPO软硬件、互联网服务等多种业务。

  但随着业务的不断发展,OPPO意识到未来的数据体量、任务规模和技术演进路径,都需要一种全新的基础设施来支撑。

  相比IDC,云提供的极致弹性资源调度、灵活的存算分离架构以及多维度可观测能力,更符合OPPO的长期规划。

  然而,如此体量和复杂度的大数据平台搬迁是一场攻坚战。在上云的过程中,既要保障海量数据603138)和任务的安稳迁移,还要做好云上大数据基础架构的建设。这两部分决定了上云的进度和稳定性,需要团队具有坚实的技术基础和对集群作业以及云上环境的清晰认识。这些复杂且艰巨的工作仅靠一个系统或一个团队无法完成。

  OPPO选择与阿里云合作,共同完成这次“联合技术攻关”,双方的合作贯穿上云全过程,成为了这次搬迁成功的关键。

  在IO调度上,项目初期当一些大任务在云上运行时,系统出现了读写不均衡、实例打满等问题。OPPO业务团队通过内部指标快速定位风险,阿里云则用内核采样工具追踪到了IO调度在高吞吐场景下的瓶颈成因。最终通过链路优化、架构调整,将最耗资源的任务转至独立链路,双方共同解决了吞吐受限的问题。

  面对夜间任务高峰时段算力不足的问题,为满足OPPO快速弹性调度的需求,双方围绕ACK组件上线做了多轮优化。从磁盘选型、镜像缓存策略到操作系统PageSize调整,最终节点上线时间成功从几分钟缩短至1分钟内。

  值得一提的是,双方在应急处理机制上也建立了快速协同流程。在几次规模化测试中,某类任务的“水位”Kaiyun开云总是突然上升,从而在短时间内达到ACK Coredns的性能瓶颈。OPPO发现问题后,第一时间联动阿里云技术服务团队介入,双方基于实时观测体系完成诊断,并迅速调整部署架构,将异常恢复时间控制在可接受范围内。

  在架构设计上,OPPO与阿里云也一致采取了“融合平台”的思路:统一的资源调度基座(ACK+倚天ARM)、统一的存储链路(OSS-HDFS+Jindo加速)、统一的可观测体系(ARMS+CMS+SLS),以及具备趋势感知的弹性调度机制(Delete Cost+模型预测),共同构建出一个既灵活可控的云原生调度平台。这一系列成果的达成,并不依赖某项技术的突破,而是基于双方在业务理解、架构能力、产品深度上的高度匹配。

  大数据完成上云只是第一步,如何在云上跑得更快、更稳、更省以及更自主,是OPPO大数据团队接下来要重点攻克的目标。

  如图所示,OPPO的大数据架构以云上的 Kubernetes(K8s)作为计算资源底座,采用阿里云对象存储(OSS)作为存储基础,并在上层调度与计算引擎层使用了业界主流的开源组件,如YARN、Spark和Flink。

  在这套架构中,还有几个自研组件发挥了关键作用:HBO、Curvine Cache 和 MCN。

  HBO(History Based Optimizer):这是一款基于历史任务运行数据的优化器,能够通过任务运行记录,智能调整资源参数,提升整体执行效率。

  Curvine Cache:基于Rust自研的高性能分布式缓存系统,旨在解决大规模数据处理过程中的 I/O 瓶颈问题。目前已正式开源,适用于提升数据访问速度并降低存储开销。

  MCN:一个基于HDFS NameNode改造的元数据路由组件,支持与云上对象存储系统的兼容集成,增强了平台在云环境下的数据透明迁移能力。

  第一,更省资源:借助HBO对任务参数的动态优化,有效压缩云上资源使用。例如,通过任务资源压实,云上ECS的物理CPU平均利用率可达80%左右。

  第二,更高稳定性:Curvine提供了高性能的读写能力,支持重写Spark Shuffle的底层逻辑,解决了Spark RSS在云盘下出现的热点问题,并同时兼容Map Local Shuffle,实现一套方案覆盖两种Shuffle模式,提升系统稳定性。

  第三,更快执行:云上的存算分离架构在一定程度上打破了“大数据移动计算、不移动数据”的初心。Curvine作为缓存中间层,在离线计Kaiyun开云算中承担热数据缓存角色,显著提升了数据读取速度;在实时计算场景下,也可用于缓存Checkpoint,缩短任务重启加载时间,加快任务恢复速度,同时还能有效控制OSS的读请求次数和峰值带宽成本。

  第四,更自主:大数据计算基于云上容器化方案实现高可用,核心技术在于大数据所依赖的存储技术有自有技术能力,如果要保持在云上技术可控自主度,解决不同平台间数据透明管理是关键。

  此外,OPPO通过将传统HDFS的NameNode改造成支持多种对象存储的元数据节点,既继承了HDFS在高性能和高可用方面的优势,又实现了数据的透明化迁移。

  这一系列架构增强手段,使得OPPO能够在云上真正做到算力利用最大化、任务运行更稳定、整体效率更高,为未来多集群环境下的灵活扩展打下坚实基础。

  OPPO这次大数据平台的搬栈上云,不仅是一次系统性迁移工程,也是一次面向未来的基础设施升级。

  对OPPO来说,数据不只是“一个平台”,而是“平台能力的一部分”,必须做好基础设施的准备。而云原生架构提供的弹性调度、统一资源池和策略化治理,恰恰是其中最重要的。

  因此,OPPO的这次搬迁不是终点,而是一个起点:通过基础架构调整,为下一代能力体系留出空间。这种空间,不是物理意义上的容量,而是系统演化的余地——当业务需要重构、模型需要上线、链路需要重排时,平台能在“不中断”的前提下完成切换。

  上云后,OPPO不再需要为少数高峰业务维持长期过量的算力配置,资源可以根据任务变化在分钟级完成调度。同时“任务治理”成为平台重点,更多运维规则被固化进系统和策略中。

  至此,从IDC到云,从任务调度到策略驱动,从资源使用到能力开放,OPPO大数据上云的不只是一种部署方式的转变,而是完成了从“资源”向“基础设施”的架构哲学转化。

标签:
相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线