Emrah: 从某种程度上说是的。能够动态高效地扩展资源而无需逐台登录,确实是云的一个重要特性。但它不仅仅是装满服务器的数据中心。 “云”更像是一个统称,这个术语涵盖了多种技术,这些技术提供可扩展且灵活的算力、存储和网络基础设施。
Emrah: 两者的本质区别在于基础设施的归属权。公有云的基础设施由第三方持有,并向客户提供服务与资源。其技术标准化程度高,对技术经验较少的客户更为友好。如果没有特殊顾虑,公有云是很好的选择,很多企业对此感到满意。
不过,当涉及定制化需求或需要使用特定技术时,公有云可能会带来挑战。若需要灵活性技术时,容器化、可迁移的技术方案更为合适。我的建议是在本地部署私有云,这样就能通过容器化和 Kubernetes 来编排工作负载,根据实际需求进行配置你的工作。
只要确保云端与本地基础设施之间的通信畅通,选择私有云还是公有云更多是企业偏好的问题。关键考量在于:是希望自主掌控基础设施及承担相应责任,还是选择外包以专注于核心业务。最终决策应当基于工厂的具体需求和使用场景来定。
Emrah: 我们现在所理解的云,大多源自2000年代初的云计算革命,那时引入了作为物理机虚拟化代表的虚拟机技术。
容器本质上是一种轻量级的虚拟机,而容器化则是将应用程序及其依赖项打包成独立单元的方法。Docker、Kubernetes 和 Helm 图表都属于容器管理工具。
Docker 是最常见的容器化平台,通过自动化流程实现容器封装。在开发阶段就会用到容器化和 Docker 工具。
而 Kubernetes 和 Helm 图表则用于部署阶段的大规模管理。Kubernetes 本质上是管理容器化应用的编排工具,Helm 图表则是预配置的 Kubernetes 资源包。
Emrah: 成本是关键考量因素。举例来说,如果企业已拥有剩余寿命5-10年的服务器基础设施,可能未来五年内都不愿为新技术追加投资。除非云解决方案在扩展性或灵活性等方面具有显著优势,否则不会轻易迁移。但最终还是取决于具体业务场景。
比如运行 GPU 密集型应用时,采用本地部署方案通常比云解决方案更经济,因为云端 GPU 运算成本极高。如果需要长期持续使用 GPU 资源,自建或租赁专用 GPU 数据中心的成本可能仅为云端的一半。这类情况常见于训练大预言模型 (LLM) 等 AI 公司,他们通常会自建或租用专用数据中心进行模型训练。
Sam: 最后,在结束这段简短但富有洞察力的对话,并为接下来的讨论做个铺垫——我很好奇您如何看待当前行业发展现状?我们更接近 “AI 无法独立实现” 的观点,还是处于 “AI 爆发已至,但云技术尚未就绪” 的阶段?
Emrah: 首先,我们需要明确 “AI 爆发” 的具体含义。在大型语言模型训练等领域取得了重大突破,但这些进展主要依赖 GPU 等现有技术的规模化应用,而这不一定与云技术直接相关。
当我们讨论 AI 训练技术的革命性变革(如 Transformer 架构的出现)时,其实是在既有模型理解上的演进。这导致对算力资源的巨大需求,而当前 GPU 供给正满足这一需求。从这个角度看,云并非瓶颈,真正关键的是 GPU 等底层技术。
不过,如果出现 AI 不再依赖 GPU 或采用新型计算工具的转折点,云就需要适配新技术。届时,我们可以整合全球互联资源来优化训练流程。
云可能需要发展的另一个领域是Kubernetes。虽然 Kubernetes 可与 GPU 协同工作,但对大规模 AI 训练的效率仍不理想。因此许多重要 AI 训练任务仍采用非 Kubernetes 部署方式。就这点而言,云技术确实需要进化,但在其他领域则是另一回事。
云与 AI 部署
无论是公有云还是私有云,云基础设施对需要处理海量数据的企业都至关重要。随着 AI 部署规模扩大,市场对算力 (包括 GPU) 的需求激增,这一趋势尤为明显。在下一篇博客中,我们将深入探讨云与 AI 技术之间的关系。
作者简介

Samantha 是 SmartFactory AI™ Productivity、Simulation AutoSched™ 和 Simulation AutoMod™的全球产品经理。在加入应用材料公司自动化产品事业部之前,她曾担任博世工业4.0项目经理,并曾任数据科学家一职。早期她还曾作为研究助理任职于橡树岭国家实验室地理信息科学与技术组。Samantha 持有田纳西大学诺克斯维尔分校数学硕士学位,以及北乔治亚大学达洛尼加分校数学学士学位。

Emrah带领团队为半导体制造商提供 AI/ML 解决方案及自动化软件产品的云转型服务。他是 SaaS 应用开发、云转型实践以及云计算优化与分析框架构建领域的先驱,拥有半导体制造、云分析和零售科学领域的多项专利,并在半导体排程与规划领域拥有丰富的研究经验。他的研究成果发表在 IEEE 和 INFORMS 等国际期刊,并在 IERC 和 INFORMS 等会议上进行过展示。他获得德克萨斯大学奥斯汀分校运筹学与工业工程博士学位,还拥有土耳其比尔肯特大学工业工程学士学位和硕士学位。