新增部署任务 - 弹性部署服务

持久化存储配置

对象存储加速挂载

选择需要挂载的对象存储加速桶并指定容器内的挂载路径，所有节点共享挂载路径

共享存储卷

共享存储卷将挂载到指定目录

强烈建议您启用挂载共享存储卷并将数据保存到共享存储卷中，您的数据会被安全地存放在阿里云上，我们采用企业级安全标准保护您的数据隐私。

可用存储桶

按时打算打撒大山大水的按时

单区域桶

test2

单区域桶

发现 2 个存储桶需要配置区域后可用

这些存储桶缺少区域配置而无法挂载，请前往存储桶管理页面为这些存储桶添加区域

前往配置

选择 GPU 型号

A100-80GB

显存80GB

内存256GB

CPU64核

库存3台

1.68元/小时

实际按秒计费：0.0005元/秒

A100-40GB

显存40GB

内存192GB

CPU48核

库存26台

1.19~1.29元/小时1.65~1.79元/小时

实际按秒计费：0.0003~0.0004元/秒

H100

显存80GB

内存256GB

CPU80核

库存59台

2.05~2.25元/小时

实际按秒计费：0.0006~0.0006元/秒

L40

显存48GB

内存96GB

CPU32核

库存64台

0.99~1.09元/小时1.38~1.51元/小时

实际按秒计费：0.0003~0.0003元/秒

4090

显存24GB

内存101GB

CPU20核

库存370台

1.48~1.68元/小时2.06~2.33元/小时

实际按秒计费：0.0004~0.0005元/秒

A6000

显存48GB

内存128GB

CPU48核

库存0台

1.89~1.99元/小时

实际按秒计费：0.0005~0.0006元/秒

V100-32GB

显存32GB

内存128GB

CPU32核

库存0台

1.19~1.29元/小时

实际按秒计费：0.0003~0.0004元/秒

Titan RTX

显存24GB

内存96GB

CPU24核

库存0台

0.89~0.99元/小时

实际按秒计费：0.0002~0.0003元/秒

A5000

显存24GB

内存64GB

CPU32核

库存0台

1.39~1.49元/小时

实际按秒计费：0.0004~0.0004元/秒

服务配置

Flux (ComfyUI)

AI 图像生成与工作流平台

大小：2.1GB

更新时间：2024-05-01

查看文档

Qwen3-7B-Chat

通用大语言模型，适合对话场景

大小：8.5GB

更新时间：2024-04-20

查看文档

Stable Diffusion WebUI

流行的 AI 绘画平台

大小：4.2GB

更新时间：2024-03-15

查看文档

Jupyter Notebook

数据科学与交互式开发环境

大小：1.2GB

更新时间：2024-05-10

查看文档

最小节点数

系统保持的最小节点数，避免冷启动

最大节点数

同时运行的节点数量上限，用于控制成本。应根据预算和业务峰值合理设置

扩缩容队列监听端口

队列服务监听端口号，仅此端口的请求会触发弹性扩缩容，建议使用非特权端口避免权限问题

扩缩容与负载均衡策略

扩缩容策略配置

配置自动扩缩容策略，系统会根据队列延迟或资源利用率自动调整服务实例数量，确保服务性能和成本的最优平衡

队列延迟策略参数

扩缩容子策略

队列延迟阈值（秒）

队列平均等待时间超过此值触发扩容。过小会频繁扩容增加成本，过大会影响用户体验

空闲超时时间（秒）

无活跃请求时节点继续运行的最长时间。建议至少 5 秒以减少冷启动影响

单节点最大并发

每个节点同时处理的最大请求数

执行超时时间（秒）

单个作业允许的最长执行时间，防止异常任务占用资源。最长支持 24 小时

负载均衡策略配置

配置负载均衡策略，智能分配用户请求到后端服务节点，支持轮询、随机、最少请求和一致性哈希等多种算法，提升服务可用性和响应速度

基础均衡策略

加权最少请求（Weighted Least Request）

智能负载均衡，根据权重和活动请求数动态调整，自动分发活跃请求最少的节点

一致性哈希（Consistent Hash）

确保用户在会话期间能够被稳定地路由到同一个服务节点上。适用于 AI 推理、云端开发环境等有状态的长连接服务

轮询（Round Robin）

将请求依次、循环地分配给后端可用的服务节点。简单、公平，适用于无状态、短连接的应用场景

随机（Random）

从可用节点列表中随机选择一个来处理请求。适合于可以容忍极低概率负载不均的短连接、无状态服务

当前策略效果：

采用加权最少请求策略，实现智能动态负载均衡：

• 权重相等时：随机选择 2 个主机，选择活跃请求最少的节点，有效避免集群行为

• 权重不等时：使用加权轮询调度，活动请求多的节点权重会被动态降低

• 适用于请求处理耗时不一、可能产生长连接的应用场景

高级设置

共享内存

类似 Docker 的 --shm-size，配置容器共享内存 (/dev/shm) 大小。请基于程序实际情况配置，设置过大可能会占用更多系统内存资源，可能系统性能下降等问题。

我已阅读并同意《服务协议》