持久化存储配置
共享存储卷
共享存储卷将挂载到指定目录
强烈建议您启用挂载共享存储卷并将数据保存到共享存储卷中,您的数据会被安全地存放在阿里云上,我们采用企业级安全标准保护您的数据隐私。
按时打算打撒大山大水的按时
单区域桶test2
单区域桶发现 2 个存储桶需要配置区域后可用
前往配置 这些存储桶缺少区域配置而无法挂载,请前往存储桶管理页面为这些存储桶添加区域
选择 GPU 型号
A100-80GB
显存80GB
内存256GB
CPU64核
库存3台
1.68元/小时
实际按秒计费:0.0005元/秒
A100-40GB
显存40GB
内存192GB
CPU48核
库存26台
1.19~1.29元/小时1.65~1.79元/小时
实际按秒计费:0.0003~0.0004元/秒
H100
显存80GB
内存256GB
CPU80核
库存59台
2.05~2.25元/小时
实际按秒计费:0.0006~0.0006元/秒
L40
显存48GB
内存96GB
CPU32核
库存64台
0.99~1.09元/小时1.38~1.51元/小时
实际按秒计费:0.0003~0.0003元/秒
4090
显存24GB
内存101GB
CPU20核
库存370台
1.48~1.68元/小时2.06~2.33元/小时
实际按秒计费:0.0004~0.0005元/秒
A6000
显存48GB
内存128GB
CPU48核
库存0台
1.89~1.99元/小时
实际按秒计费:0.0005~0.0006元/秒
V100-32GB
显存32GB
内存128GB
CPU32核
库存0台
1.19~1.29元/小时
实际按秒计费:0.0003~0.0004元/秒
Titan RTX
显存24GB
内存96GB
CPU24核
库存0台
0.89~0.99元/小时
实际按秒计费:0.0002~0.0003元/秒
A5000
显存24GB
内存64GB
CPU32核
库存0台
1.39~1.49元/小时
实际按秒计费:0.0004~0.0004元/秒
服务配置
系统保持的最小节点数,避免冷启动
同时运行的节点数量上限,用于控制成本。应根据预算和业务峰值合理设置
队列服务监听端口号,仅此端口的请求会触发弹性扩缩容,建议使用非特权端口避免权限问题
扩缩容与负载均衡策略
扩缩容策略配置
配置自动扩缩容策略,系统会根据队列延迟或资源利用率自动调整服务实例数量,确保服务性能和成本的最优平衡
队列延迟策略参数
队列平均等待时间超过此值触发扩容。过小会频繁扩容增加成本,过大会影响用户体验
无活跃请求时节点继续运行的最长时间。建议至少 5 秒以减少冷启动影响
每个节点同时处理的最大请求数
单个作业允许的最长执行时间,防止异常任务占用资源。最长支持 24 小时
负载均衡策略配置
配置负载均衡策略,智能分配用户请求到后端服务节点,支持轮询、随机、最少请求和一致性哈希等多种算法,提升服务可用性和响应速度
基础均衡策略
加权最少请求(Weighted Least Request)
智能负载均衡,根据权重和活动请求数动态调整,自动分发活跃请求最少的节点
一致性哈希(Consistent Hash)
确保用户在会话期间能够被稳定地路由到同一个服务节点上。适用于 AI 推理、云端开发环境等有状态的长连接服务
轮询(Round Robin)
将请求依次、循环地分配给后端可用的服务节点。简单、公平,适用于无状态、短连接的应用场景
随机(Random)
从可用节点列表中随机选择一个来处理请求。适合于可以容忍极低概率负载不均的短连接、无状态服务
当前策略效果:
采用加权最少请求策略,实现智能动态负载均衡:
• 权重相等时:随机选择 2 个主机,选择活跃请求最少的节点,有效避免集群行为
• 权重不等时:使用加权轮询调度,活动请求多的节点权重会被动态降低
• 适用于请求处理耗时不一、可能产生长连接的应用场景
高级设置
共享内存
类似 Docker 的 --shm-size,配置容器共享内存 (/dev/shm) 大小。请基于程序实际情况配置,设置过大可能会占用更多系统内存资源,可能系统性能下降等问题。