近日,AI 与数据加速平台 Alluxio 正式推出 Alluxio Enterprise AI 3.6 版本,该版本在模型分发、checkpoint 写入优化及多租户支持方面实现突破性创新。此次升级将帮助企业显著缩短AI模型部署周期、减少训练时间,并确保在多云环境中的数据无缝访问。
随着模型规模不断扩大、推理基础设施跨多区域部署,AI驱动型企业正面临日益严峻的挑战:将大模型从训练环境分发到生产环境会带来显著的延迟和高昂的云成本,同时,耗时的 checkpoint 写入流程则进一步拉长了模型训练周期。
“我们很高兴地宣布,Alluxio AI 加速平台的能力已从模型训练扩展到生产上的推理服务环境,进一步加速并简化了 AI 模型的分发流程,” Alluxio 创始人兼 CEO 李浩源表示,“通过与 AI 前沿客户的深度合作,我们正在持续突破行业的技术边界。”
Alluxio Enterprise AI 3.6核心功能
高性能模型分发
Alluxio Enterprise AI 3.6 利用 Alluxio 分布式缓存加速模型分发工作负载。凭借服务器本地缓存与内存池优化,通过在每个区域部署 Alluxio 缓存,模型文件仅需从模型仓库复制一次到该区域的 Alluxio 缓存,推理服务器即可直接从 Alluxio 缓存中读取模型,而无需每台服务器都去模型仓库做模型拉取,基准测试表明,将一个模型文件同时分发至同一个节点上的多个 GPU 时,Alluxio AI 加速平台实现了 32 GiB/s 的吞吐量,超出当前 11.6 GiB/s 网络带宽上限 20 GiB/s。
快速模型训练 checkpoint 写入
基于早前推出的 CACHE_ONLY 写入模式,3.6 版本新增 ASYNC 异步写入模式。在 100 Gbps 网络环境下,该模式写入吞吐量可达 9GB/s,将显著缩短模型训练过程中的 checkpoint 写入时间。通过先写入 Alluxio 缓存而非直接写入底层文件系统,该模式可避免网络与存储瓶颈。使用 ASYNC 异步写入模式时,checkpoint 文件将异步写入底层文件系统,进一步提升训练性能。
全新管理控制台
Alluxio 3.6 引入了功能全面的基于 WebUI 的管理控制台,以提升可观测性并简化管理流程。该控制台可展示集群关键信息,包括缓存使用情况、coordinator 与 worker 节点状态、读写吞吐量与缓存命中率等关键指标。管理员还可通过图形界面直接管理挂载表、配置配额、设置优先级与 TTL (有效时间)策略、提交缓存任务及收集诊断信息,无需使用命令行工具。
Alluxio Enterprise AI 3.6其他关键优化
多租户支持
本版本通过与 Open Policy Agent (OPA) 的无缝集成,实现了强大的多租户支持。管理员现在可以通过单一安全的 Alluxio 缓存,为多个团队定义细粒度的基于角色的访问控制。
多可用区故障转移支持
Alluxio Enterprise AI 3.6 新增支持多可用区架构下的数据访问故障转移,确保高可用性并提升数据访问弹性。
FUSE 虚拟路径支持
新增的虚拟路径功能允许用户自定义数据资源的访问路径,创建抽象层以隐藏底层存储系统中的物理数据位置。