服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

行业新闻

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中

作者:小编 点击: 发布时间:2025-05-06 23:32

  阿里云洛神云网络论文入选SIGCOMM25主会,相关实习生岗位火热招聘中

  本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

  阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。

  4月底,通信领域顶会 SIGCOMM 2025 公布了本届会议的入选论文,阿里云飞天洛神云网络2项核心技术Nezha(计算网络解耦下的vSwitch池化架构)和Hermes(用户态引导IO的增强型L7云负载均衡器)被SIGCOMM 2025主会双双录用,核心技术再次得到业界认可。阿里云网络坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在SIGCOMM、NSDI、INFOCOM、MobiCom等国外顶级会议上。自2020年以来,阿里云网络在SIGCOMM/NSDI两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了2021年浙江省技术发明一等奖、2021年中国计算机学会技术发明一等奖、2023年中国计算机学会技术发明二等奖以及2023年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图1)

  SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足20%。SIGCOMM 2025将于2025年9月8-11日在葡萄牙Coimbra举办,此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能从海量投稿论文中脱颖而出。

  Nezha是阿里云在vSwitch领域继Achelous和Triton之后的第三篇SIGCOMM论文,聚焦于计算实例的网络资源/性能池化。通过利用集群内所有的SmartNIC作为分布式vSwitch的弹性资源池,充分释放单个vSwitch的性能极限,提供单vSwitch接近裸机的百万级连接新建能力(CPS)、数倍的并发流能力、和数十倍的虚拟网卡密度提升。在此过程中,Nezha创新性地解决了vSwitch集群粒度池化带来的状态管理、容灾及负载均衡等关键挑战。论文详细阐述了阿里云的设计思考与技术实践,为更具弹性的下一代计算、网络解耦的数据中心部署形态提供了新的思路。

  在云数据中心中,SmartNIC加速的vSwitch被广泛用于为云服务器和容器等计算实例提供高性能网络服务。然而,由于网络虚拟化以及多租带来的开销,云服务器的网络能力长期受限于单个SmartNIC有限的物理资源而远低于裸机(指物理服务器间直连,无overlay,网络非瓶颈)的水平。例如,阿里云基于Triton卸载架构实现了主流云厂商中最高的单卡单服务器43万CPS,仍低于裸机的120万CPS。这就意味着在单个云服务器上,网络可能先于计算CPU达到瓶颈,而无法水平扩展(受限于单卡资源),尤其是一些流量重载的网络中间件服务。

  另一方面,在大规模的vSwitch部署运维中,我们还发现了用户对网络与计算资源的消耗是极其不均衡的。就网络而言,只有少数服务器上的用户网络需求高,vSwitch因卡上资源不足面临性能瓶颈(大约占0.01%),但是从集群角度看大量vSwitch/SmartNIC却处于相对空闲的状态(卡上的CPU和内存平均利用只有5%和1.5%)。这种资源“短缺”与“闲置”并存的问题,使得通过部署更高性能的SmartNIC或利用主机资源来解决过载变得成本高昂且效率低下。现有解决方案如Sirius虽然引入专用设备分担压力,但存在硬件成本高、状态同步复杂以及性能开销大的问题。因而我们开始探索寻求SmartNIC网络资源池化解法,让网络彻底摆脱单卡资源限制,与计算资源解耦。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图2)

  在Nezha这篇论文中,我们提出了一种计算网络解耦下的vSwitch池化架构,旨在调动整个集群粒度的SmartNIC资源池,来提升单个vSwitch网络性能上限。其核心思想是通过对vSwitch中虚拟网卡(vNIC)的数据包处理负载进行建模拆解,尽可能地卸载到远端SmartNIC以利用池化的资源。为了避免复杂的状态同步和传输开销,我们按有无状态的原则将vNIC网络负载拆解成前端和后端两部分,前端(无状态规则/流表)卸载到远端资源池,有状态的后端部分则保留在本地卡上进行处理。借助ECMP机制,远端节点池的性能也可以很容易地实现线性伸缩和容灾处理。

  Nezha是阿里云在vSwitch领域多年技术积累的成果,也是阿里云对下一代数据中心部署方向的探索。在计算网络解耦的大背景下,利用整集群的SmartNIC资源构建单节点vSwitch性能水平扩展能力,实现了高性能、低成本的vSwitch池化方案。在实际部署中,Nezha无需新增硬件,仅通过软件优化即可将CPS能力提升3~4.4倍,支持的并发流和vNIC数量分别提升5.04~50.4倍和超过40倍。作为云基础设施中的关键组件,Nezha不仅将vSwitch过载率降低了99.9%,其部署成本和复杂性也极低,为网络功能的进一步扩展提供了灵活性与高性能保障。

  在推出无侵入的多租服务网格架构Canal Mesh(SIGCOMM24)之后,洛神云网络团队再次带来了Canal系列的第二篇文章——Canal dispatcher:Hermes。Hermes聚焦于解决用户在L7层服务接入中面临难题的重磅论文,论文深入剖析了L7负载均衡worker进程之间负载不均的根本原因,并系统性地展示了阿里云在此领域的设计思路与创新实践。相比现有方案,Hermes将worker时延突刺的次数大幅降低了99.8%,同时使得L7负载均衡的云基础设施单位成本降低了18.9%。

  L7负载均衡(LB)在公有云中基于应用层数据进行流量调度,能够显著提升服务的性能、可用性和扩展性。作为主流云服务商的核心产品之一,阿里云的L7 LB集群已扩展至数十万CPU核心规模,支持每秒数千万次请求(RPS),服务于全球33个区域的租户。

  由于L7处理的复杂性(如HTTP路由、加解密、协议转换、压缩等),行业通常基于多核服务器或虚拟机部署。每个worker需要处理来自多个租户的流量,因此防止worker过载是确保租户间性能隔离的关键,而这依赖于高效的负载均衡机制。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图3)

  相较于L4负载均衡,L7连接请求的处理负载差异显著(如加密、压缩或简单的数据拷贝操作),内核无法仅根据队列中的包数量预测每个请求的具体负载。因此,现有基于内核的分发机制(如epoll和reuseport)无法满足L7负载均衡的需求。如上图所示,虽然数据包在NIC队列中分布均匀,但CPU利用率差异显著。这是由于不同连接请求的处理路径不同,处理时间变化较大。

  在Linux中,epoll是一种高效且稳定的I/O事件通知机制,广泛应用于现代互联网应用。然而:

  reuseport(Linux 3.9引入)允许多个socket监听同一端口,通过哈希算法将连接分发到不同的socket。尽管避免了epoll exclusive的LIFO问题,但其无状态哈希机制可能导致队列不均,使得时延方差较大,在极端场景下(如高流量租户发生哈希冲突)表现不佳。此外,当某个worker失效时,reuseport无法感知这一变化,仍会将连接分发到不可用的worker。

  在内核空间中,仅根据队列中的数据包数量难以准确估计连接处理的负载。而在用户空间中,可以通过更精细的指标(如事件数量、事件处理程序类型和事件大小)来估算每个连接的工作负载,从而实现更优的调度。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图4)

  基于上述测量结果和思考,我们提出了Hermes,其核心思想是将用户空间worker进程的多个状态指标作为L7负载均衡决策的重要依据,构建灵活高效的闭环连接分发控制机制,并通过eBPF以非侵入方式定制内核功能。Hermes将worker的可用性、待处理事件数以及累积连接数作为参考指标,并在原有的epoll事件循环中添加少量代码,用于收集这些指标并更新到内核。再基于这些指标为新连接选择worker,来实现worker间负载均衡。

  Hermes作为Canal系列的Dispatcher组件,是阿里云在L7负载均衡领域多年技术积累的结晶。基于用户态引导的I/O事件通知框架设计,相较于传统方案,实现了更精细的流量调度与租户隔离。L7 LB作为云基础设施中服务交付的关键组件,Hermes通过闭环控制与eBPF技术的结合,不仅解决了传统负载均衡中面对云上多种租户流量类型导致转发进程负载不均的问题,还提供了极高的可编程性和快速迭代能力,为未来支持更复杂的业务逻辑和服务形态奠定了坚实的基础。Hermes已在阿里云大规模部署,显著降低了时延突刺现象和部署成本,展现了其在高性能、高可靠性和灵活性方面的卓越优势。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图5)

  阿里云飞天洛神云网络专注于为阿里云包括ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与9所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM20)和Zoonet (CoNEXT22)、P4硬件网关Sailfish (SIGCOMM21)和LuoShen (NSDI24)、超大规模的网络虚拟化平台Achelous (SIGCOMM23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM24)、计算网络解耦下的vSwitch池化架构Nezha(SIGCOMM25)、公有云虚拟网络控制器平台Poseiden (NSDI24)、NFV弹性网元平台CyberStar (ATC24) 、首个服务网格平台Canal Mesh (SIGCOMM24) 和 面向7层LB的用户态引导I/O事件通知框架Hermes(SIGCOMM25)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验。

  加入我们,一起探索云和AI网络;目前暑期实习生火热招聘中,欢迎大家扫码投递,也可以通过邮箱(与我们联系。

阿里云洛神云网络论文入选SIGCOMM25主会相关实习生岗位火热招聘中(图6)

  近日,我国首个Kaiyun云超算国家标准GB/T 45400-2025正式发布,将于今年10月实施。该标准由阿里云联合多家机构起草,为云超算在高性能计算领域的应用提供规范。云超算结合传统HPC与云计算优势,解决传统HPC复杂、昂贵等问题。阿里云E-HPC V2.0是国内首批通过该标准认证的产品,支持大规模弹性计算,显著降低成本。新标准将推动算力基础设施迈向标准化、智能化新时代。

  解决方案评测|告别复杂配置!基于阿里云云原生应用开发平台CAP快速部署Bolt.diy

  本文介绍了基于阿里云CAP平台快速部署Bolt.diy的全流程。Bolt.new是一款强大的无代码对话网站构建工具,其开源版本Bolt.diy虽功能强大但部署复杂。阿里云的新解决方案简化了这一过程,通过函数计算(FC)和通义千问大模型能力,将数十步部署流程精简至“一键启动”。文章详细描述了从访问Web界面、提交请求到生成代码的步骤,并提供了系统提示词优化方案,以提升代码生成效率。此外,还对比了不同版本的Bolt.new,帮助开发者选择适合的方案。此方法适合希望快速落地项目的开发者,尤其在需要整合云服务时表现出色。

  阿里云百炼推出首个全生命周期MCP服务,支持一键部署、无需运维,具备高可用与低成本特点。该服务提供多类型供给、低成本托管及全链路工具兼容,帮助企业快速构建专属智能体。MCP(模型上下文协议)作为标准化开源协议,助力大模型与外部工具高效交互。教程涵盖简单部署、GitHub运营、数据分析可视化及文档自动化等场景,助您快速上手。欢迎加入阿里云百炼生态,共同推动AI技术发展!

  本文探讨了AI Agent的相关概念和技术细节,包括其定义、与传统软件的区别、构成组件、工作原理及优化方法。AI Agent是一种基于大语言模型(LLM)的智能代理,能感知环境、推理决策并执行任务。相比传统自动化软件,AI Agent具备更强的理解力和自主性,可处理复杂任务。文章分析了Chatbot向AI Agent演进的趋势及其驱动因素,并详解了提升AI Agent效果的关键要素如模型质量、工具选择和指令设计。此外,还讨论了Workflow与LLM的结合方式以及单智能体与多智能体系统的优劣,为理解和应用AI Agent提供了全面视角。

  本文介绍了如何通过alibaba-cloud-ops-mcp-server和MCP(Model Context Protocol)实现AI助手对阿里云资源的复杂任务操作。内容涵盖背景、准备步骤(如使用VS Code与Cline配置MCP Server)、示例场景(包括创建实例、监控实例、运行命令、启停实例等),以及支持的工具列表和参考文档。借助这些工具,用户可通过自然语言与AI助手交互,完成ECS实例管理、VPC查询、云监控数据获取等运维任务,实现高效“掌上运维”。

  Bolt.diy 是 Bolt.new 的开源版本,提供灵活的自然语言交互与全栈开发支持。基于阿里云函数计算 FC 和百炼模型服务,最快5分钟完成部署。新手注册阿里云账号后可领取免费额度,按指引开通相关服务并授权。通过项目模板一键部署,配置 API-KEY 后即可使用。Bolt.diy 支持多种场景,如物联网原型开发、久坐提醒、语音控制灯光等,助力快速实现创意应用。

  本文深入解析了Model Context Protocol(MCP)协议,探讨其在AI领域的应用与技术挑战。MCP作为AI协作的“USB-C接口”,通过标准化数据交互解决大模型潜力释放的关键瓶颈。文章详细分析了MCP的生命周期、传输方式(STDIO与SSE),并提出针对SSE协议不足的优化方案——MCP Proxy,实现从STDIO到SSE的无缝转换。同时,函数计算平台被推荐为MCP Server的理想运行时,因其具备自动弹性扩缩容、高安全性和按需计费等优势。最后,展望了MCP技术演进方向及对AI基础设施普及的推动作用,强调函数计算助力MCP大规模落地,加速行业创新。

  Qwen3是Qwen系列大型语言模型的最新成员,作为混合推理模型,其旗舰版本Qwen3-235B-A22B在代码、数学和通用能力测试中表现出色,与顶级模型DeepSeek-R1、o1、o3-mini等相比具有竞争力。小型MoE模型Qwen3-30B-A3B激活参数仅为QwQ-32B的10%,性能更优,甚至小规模模型Qwen3-4B也能匹敌Qwen2.5-72B-Instruct。Qwen3支持思考与非思考两种模式,可根据任务需求灵活调整推理深度,并支持119种语言,Qwen3在推理、工具调用及多语言处理等方面显著提升,目前已开源并在阿里云百炼平台上线,提供便捷体验。

  阿里云开启共享带宽新时代【二】:负载均衡,NAT网关,ECS都支持共享带宽啦

  阿里云洛神云网络论文入选SIGCOMM25主会,相关实习生岗位火热招聘中

  基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构

  企业级DeepSeek调用指南:通过私网连接(PrivateLink)实现DeepSeek R1模型的稳定接入

  【上云基础系列 02-01】通过SLB+1台ECS+ESS弹性伸缩,搭建一个精简版的上云标准弹性架构(含方案及教程)

相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线