共绩算力
共绩算力
持久化存储配置
对象存储加速挂载
选择需要挂载的对象存储加速桶并指定容器内的挂载路径,所有节点共享挂载路径
共享存储卷
共享存储卷将挂载到指定目录

按时打算打撒大山大水的按时

单区域桶

test2

单区域桶
选择 GPU 型号

A100-80GB

显存80GB
内存256GB
CPU64
库存3
1.68元/小时
实际按秒计费:0.0005元/秒

A100-40GB

显存40GB
内存192GB
CPU48
库存26
1.19~1.29元/小时1.65~1.79元/小时
实际按秒计费:0.0003~0.0004元/秒

H100

显存80GB
内存256GB
CPU80
库存59
2.05~2.25元/小时
实际按秒计费:0.0006~0.0006元/秒

L40

显存48GB
内存96GB
CPU32
库存64
0.99~1.09元/小时1.38~1.51元/小时
实际按秒计费:0.0003~0.0003元/秒

4090

显存24GB
内存101GB
CPU20
库存370
1.48~1.68元/小时2.06~2.33元/小时
实际按秒计费:0.0004~0.0005元/秒

A6000

显存48GB
内存128GB
CPU48
库存0
1.89~1.99元/小时
实际按秒计费:0.0005~0.0006元/秒

V100-32GB

显存32GB
内存128GB
CPU32
库存0
1.19~1.29元/小时
实际按秒计费:0.0003~0.0004元/秒

Titan RTX

显存24GB
内存96GB
CPU24
库存0
0.89~0.99元/小时
实际按秒计费:0.0002~0.0003元/秒

A5000

显存24GB
内存64GB
CPU32
库存0
1.39~1.49元/小时
实际按秒计费:0.0004~0.0004元/秒
服务配置
Flux (ComfyUI)
AI 图像生成与工作流平台
大小:2.1GB
更新时间:2024-05-01
查看文档
Qwen3-7B-Chat
通用大语言模型,适合对话场景
大小:8.5GB
更新时间:2024-04-20
查看文档
Stable Diffusion WebUI
流行的 AI 绘画平台
大小:4.2GB
更新时间:2024-03-15
查看文档
Jupyter Notebook
数据科学与交互式开发环境
大小:1.2GB
更新时间:2024-05-10
查看文档

系统保持的最小节点数,避免冷启动

同时运行的节点数量上限,用于控制成本。应根据预算和业务峰值合理设置

队列服务监听端口号,仅此端口的请求会触发弹性扩缩容,建议使用非特权端口避免权限问题

扩缩容与负载均衡策略
扩缩容策略配置
配置自动扩缩容策略,系统会根据队列延迟或资源利用率自动调整服务实例数量,确保服务性能和成本的最优平衡

队列延迟策略参数

队列平均等待时间超过此值触发扩容。过小会频繁扩容增加成本,过大会影响用户体验

无活跃请求时节点继续运行的最长时间。建议至少 5 秒以减少冷启动影响

每个节点同时处理的最大请求数

单个作业允许的最长执行时间,防止异常任务占用资源。最长支持 24 小时

负载均衡策略配置
配置负载均衡策略,智能分配用户请求到后端服务节点,支持轮询、随机、最少请求和一致性哈希等多种算法,提升服务可用性和响应速度

基础均衡策略

加权最少请求(Weighted Least Request)

智能负载均衡,根据权重和活动请求数动态调整,自动分发活跃请求最少的节点

一致性哈希(Consistent Hash)

确保用户在会话期间能够被稳定地路由到同一个服务节点上。适用于 AI 推理、云端开发环境等有状态的长连接服务

轮询(Round Robin)

将请求依次、循环地分配给后端可用的服务节点。简单、公平,适用于无状态、短连接的应用场景

随机(Random)

从可用节点列表中随机选择一个来处理请求。适合于可以容忍极低概率负载不均的短连接、无状态服务

当前策略效果:

采用加权最少请求策略,实现智能动态负载均衡:

• 权重相等时:随机选择 2 个主机,选择活跃请求最少的节点,有效避免集群行为

• 权重不等时:使用加权轮询调度,活动请求多的节点权重会被动态降低

• 适用于请求处理耗时不一、可能产生长连接的应用场景

高级设置
共享内存
类似 Docker 的 --shm-size,配置容器共享内存 (/dev/shm) 大小。请基于程序实际情况配置,设置过大可能会占用更多系统内存资源,可能系统性能下降等问题。
文档
反馈