AI 算力网络在工业互联网的应用场景和部署方式 2024
面向互联互通、柔性制造等工业互联网趋势,算力网络可以应用在工业内网和外网,对异构的算力节点进行编排管理,并通过与工业 SDN、IPv6 协议的结合,实现算力的实时感知调度,满足高带宽、低时延的新型工业视觉、工业控制、工业智能等业务需求,如图 5 所示。图 5 工业互联网和算力网络协同发展算力网络可以应用在工业内网,对边缘云、网关、PLC 等异构算力节点的进行编排管理。不同形态的设备在工业网络中所处
一、算力网络在工业互联网的应用场景和部署方式
面向互联互通、柔性制造等工业互联网趋势,算力网络可以应用在工业内网和外网,对异构的算力节点进行编排管理,并通过与工业 SDN、IPv6 协议的结合,实现算力的实时感知调度,满足高带宽、低时延的新型工业视觉、工业控制、工业智能等业务需求,如图 5 所示。
图 5 工业互联网和算力网络协同发展
(一)算力网络在工业互联网的应用场景
算力网络可以应用在工业内网,对边缘云、网关、PLC 等异构算力节点的进行编排管理。不同形态的设备在工业网络中所处的位置不同,所包含的芯片种类以及计算和存储能力不同,相应负责的业务也有所差异。
同一类业务中的不同任务可以分别在所对应的计算节点进行,例如边缘智能场景中的云中心训练模型,边缘节点进行推理决策,可以通过算力网络的调度更高效的实现。当前所对应最近的边缘节点负载较高,可以实时调度到附近负载较低的边缘节点执行业务请求。
算力网络可以应用在工业外网,对不同园区或不同工厂的云、边缘云等节点进行协同调度。
当前云化 PLC、云化网关的趋势促使计算节点和功能以虚拟化的形式部署,增加了节点之间的管理和调度需求。
且由于虚拟化技术和网络技术的提升,跨工厂、跨园区的远程控制、多点协作场景也逐渐涌现,例如通过云化 PLC 来进行远程控制作业,或者跨园区的多点 AR/VR来构建虚拟工厂,可通过算力网络实现对网络和计算资源的精准调度。
(二)算力网络在工业互联网的部署方式
工业互联网促进工业网络向灵活组网、IP 化的趋势发展,结合工业 SDN、IPv6 等技术,算力网络可以通过集中式或者分布式的方式实现。
当前工业生产(主要指离散工业)基本上都是“刚性生产”模式 ,制造环节中机器、设备、辅助工具等需要按照预先的设定进行互联。
未来工业生产大规模定制化的特点需要资源组织更加灵活和智能,工业 SDN 可以实现灵活化的组网,通过网络资源的动态调整,打破工厂内部网络刚性组织的局限,实现生产过程的灵活组织及生产设备的“即插即用”,适应智能机器自组织和生产线敏捷部署的要求。
算力网络可以与工业SDN 相结合,可以进一步促进工业灵活化生产的需要。通过增强工业 SDN 控制器,对网络中的计算节点算力信息进行感知和收集,同时结合网络链路的状态信息,选择最合适的计算服务节点和网络转发路径,满足新型的工业场景需求,且实现成本较低,易于部署。
工业现场网络基本采用总线和工业以太网协议,具备很强的专用性和私有性,为互联互通带来较大困难,通过协议转换等方式也存在效率和可靠性问题。
工业 IP 化是指将 IP 协议延伸至工业生产网络,以实现企业办公网络、生产管理网络、过程控制网络以及现场网络的端到端 IP 互联,有利于整个工业系统的全面深层次交互。
以 Profinet 、Ethernet/IP 等为代表的工业以太网协议已经支持为现场设备分配 IP 地址,并可以实现 IP 流量与控制信息的共线传送。
新一代 IPv6 协议当前已经在产业界逐渐应用,算力网络可以将 IPv6 协议作为统一的数据平面,利用 IPv6 协议的灵活可扩展特性,通过增强边缘网关/路由器/交换机等设备,实现对算力节点信息的采集;并通过IPv6 协议携带相应的信息,通告至工业网络中,实现分布式的算力感知和路由。
相较于集中式的实现方式,分布式方案的更高效更实时。
二、算力网络在工业互联网应用的关键技术
算力网络和工业互联网相结合的核心技术包括算力度量、算力感知和路由、在网计算、确定性网络、数字孪生网络等。
(一)算网度量
算力网络提供算力和网络的综合服务,需要统一的度量标准,网络的度量目前已经比较成熟,算力度量是对算力需求和资源进行统一的抽象描述,并结合网络性能指标形成算网能力模板,提供标准统一的度量规则 。
工业互联网生产中的业务专用性要求相对较高,差异化需求相对明显,对通信、计算、存储等方面的侧重各有不同。算力度量可以帮助衡量计算任务所对应的硬件要求,为优化整体的服务性能提供基础。
算网度量主要包括三个方面:
面向算力资源的度量。需要支持对算力资源的度量和建模,支持对运营商、服务提供商及第三方算力资源节点提供的算力进行可量化的能力描述。
面向算力需求的度量。需要支持对算力需求的度量和建模,支持对用户的算力需求的可分类分级的描述。
算力度量信息的使用。算力感知和调度中的策略决策模块或者是算网编排管理模块按照用户的需求,合理的分配算力节点完成计算任务。
(二)算网感知
算网感知是对用户、网络和算力资源和服务的部署位置、负载信息等的实时感知,需要打通网络领域、计算领域、应用领域的信息边界,为进一步的协同、调度、融合提供条件。工业互联网中 IT、OT 网络以及企业外网的算力资源分布广泛且差异化,对算力资源和状态的有效感知,可以促进提高算网的管控效率,提升整体的资源利用率。
算网感知主要包括三个方面:用户需求的感知。需要对用户或业务的需求进行感知,并进一步转化为对网络和计算的需求,可通过数据面报文封装或者控制面下发等方式。
网络资源的感知。需要对网络的资源情况,例如路径的带宽和时延状态进行感知,可通过带内和带外检测或者智能化预测等方式。
算力资源的感知。需要对计算的类型、负载、存储等情况进行感知,可以通过计算域网关收集信息,并通过网络路由协议如 BGP、IGP 等进行通告。
(三)算网调度
算网调度是通过融合计算信息的新型路由和协议,进一步实现高效的算网一体化调度,满足新型业务的端到端算网需求,提升整体资源利用率。工业视觉、AR/VR 等业务逐渐展开应用,对网络的时延和计算的性能同时提出了更高的要求,算力的感知和路由将在面向未来演进的新型业务中发挥优势,保障用户体验。
算网调度主要包括:
算力路由与寻址机制。需要研究从单一距离向量路由到算力、距离多要素叠加融合路由演进,基于 IPv6/SRv6 等协议进行继承性创新,探索 underlay、overlay 以及两者协同的多种技术路线,形成新型路由协议和寻址机制。
算网一体调度算法。结合算力路由信息表和业务需求,通过“算力+网络”的多因子联合计算,按需动态生成业务调度策略,将业务沿最佳网络路径调度到目的算力节点,实现算网一体调度。
(四)在网计算
在网计算面向网络和计算逐步一体化阶段,计算任务开始从网络边缘的数据中心逐渐迁移至网络内部,由交换机、路由器、网关、服务器等设备共同完成计算任务。
当前工业互联网中的计算节点种类、部署方式越来越多样化,边缘计算已经促进了业务的分布式部署,在网计算可以进一步加速工业互联网业务的处理,提供无处不在的连接和计算服务。
在网计算的发展还处在初级阶段,主要挑战包括:网络设备资源受限。
可编程网络设备片上存储资源及运算能力受限,限制了在网计算的功能卸载。
异构硬件统一抽象难。AISC、FPGA、多核 CPU 等异构芯片需要统一配置能力,面临挑战。计算原语碎片化,难以通用。应用相关的功能需要以可重用的原语形式配置到设备中,而非应用本身。
(五)算网确定性
确定性网络自提出以来,首先在车载网络、工业网络得以应用,当前工业以太网、时间敏感网络 等技术已经应用在工业互联网,IP 网络的确定性技术和标准仍在制定中 。面向工业互联网 IP 化等趋势,可以预见确定性网络将会应用在更广的范围。确定性网络提供更可靠、更精准的网络连接,和算力网络相结合,将为工业互联网提供端到端的确定性服务。
算网确定性主要包括:
网络和计算各自优化。如通过资源隔离+队列调度实现确定性网络,同时通过实时操作系统+线程锁实现确定性计算,从而保障端到端的算网确定性。
网络和计算联合优化。如通过 RSVP 扩展预留计算资源实现一体化的资源预留,通过队列调度扩展至线程排队实现一体化的任务调度,通过跨域延时标识协同不同服务域实现一体化的跨域协同。
(六)算网数字孪生
数字孪生网络是将数字孪生技术引入网络,构建一个具有物理网络实体及虚拟孪生体, 且二者可进行实时交互映射的网络系统 。在工业互联网中,数字孪生网络可以通过算力网络的计算能力以及实时调度能力更高效准确的采集数据和建模,同时可以与空间物理系统 (Cyber physical system, CPS) 相结合构建工业互联网虚拟孪生体,促进工业互联网的自动化、智能化运维和升级。
算网数字孪生主要包括:构建网数字孪生平台。利用数字孪生和意图网络构建虚实交互的算网数字孪生平台,为高效率的数据采集、虚实交互以及性能优化提供基础。“双闭环控制”。实现存、算、网资源的智能编排和调配以及创新优化策略的低风险、高效率部署。
(七)算力标识
针对专业性高、差异性大的工厂内智能任务,对算力资源与网络资源进行统一且可验证的标识可为算力调度提供基础。工业外网中算力的流通依赖于对不同数据中心算力标识的统一,且工业计算任务的保密性高,对于算网中存在的大量个人算力资源,亟需统一的标识实现算力的可信鉴权与溯源。
算力标识主要包括:
构建统一标识:工业网络中算力资源存在多样性,利用算力资源计算通信等属性对算力资源的唯一可扩展标识,可以更好地监控和管理算力资源的使用情况,及时发现并处理安全问题,保障算力资源的安全运行。
标识解析互联互通:由于工厂内网和工厂外网算力资源服务商存在多样性,工业网络算力标识解析系统需实现网络标识解析系统互联互通。
六、愿景
在工业互联网中,算力网络的核心作用是对网络和算力资源的统一纳管以及灵活的调度。
工业系统中存在多种形式的算力,在工业互联网边缘计算体系中,一般将边缘节点分为边缘控制器,边缘网关以及边缘云,这三种边缘节点均可部署算力,完成相应的工业计算类业务。
除此之外,包括工控机、数控机床等均可作为算力节点,在 5G、TSN、工业SDN 以及工业 IPv6 的新型网络连接下,实现更加灵活的数据转发和数据处理。
不同于边缘计算中的调度主要发生在多级边缘计算节点之间,在算力网络的模式下,也会普遍进行同级计算节点之间的调度,例如网关和网关之间,控制器与控制器之间等。
这种灵活的调度模式可以确保工业的控制以及计算任务第一时间得以处理,在广泛的算力节点分布下保持服务的一致性。同时,对于上一节提到的区域性的自治系统,由于算力网络对网络和计算资源进行统筹管理,也会全面的促进其发展和完善。
相信在数字经济战略以及新基建、东数西算等工程的驱动下,算力网络可以充分发挥其新型基础设施的作用,促进产业的智能化升级。
七、展望
算力网络是国内首创的融合网络和计算两大领域的新型技术,目标是构建灵活高效、绿色低碳的新一代融合信息基础设施,已经成为产业界的热点。
与工业互联网相结合,算力网络可以助力实现统一化、灵活化承载的工业互联网网络和计算平面,满足新型的工业应用需求。
目前,算力网络的发展尚处于起步阶段,演进路线和技术体系初具雏形,亟需产业界上下游联合推进,在算力度量、算力感知和路由、在网计算等技术方向实现突破。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)