Skip to content

hwua-hi168/quantanexus

Repository files navigation

QuantaNexus

alt text

QuantaNexus 是海文公司基于 Kubernetes(K8S)平台开发的AI云算力管理软件,主要实现基于混合GPU的人工智能大模型训练,高校实训,AI方向科研领域的实现等,已实现对主流 CNI 插件的基础适配,并支持 Kubernetes 集群管理、kube-virt 虚拟化、Ceph 存储集成及异构计算(GPU/AI 芯片)调度等核心能力。目前已经经过大规模集群测试,支持万卡集群;支持C2C商业运营,用户自己注册,充值算力自动申请VM和算力。支持声明式调度,支持队列式AI任务调度。

请帮忙点亮小星星和克隆.

gitee 镜像(每四个小时从github同步一次): https://gitee.com/hwua/quantanexus.git

WEB demo: https://www.hi168.com (公有云版)

加入我们的Slack

QQ支持群: 574087153

测试: 您可以根据本文档进行测试。 Issue: 您可以在issue提出问题,我们会尽快回复,并解答。 开发计划: 我们会持续的开发底层基础设施。

个人版定义: 安装本平台默认是个人版,如果您想要企业版,请联系我们的客服。 个人版限制: 500个cpu核心,50个用户,已经足够个人使用。

以下为详细功能支持详情:

一、安装选项

QuantaNexus分为两个部分,一个是Quantanexus-mgr作为集群的控制平面,另外一个是QuantaNexus集群服务简称Quantanexus-cs,提供webshell,镜像提交,S3存储桶等功能。作为多集群控制平面,Quantanexus-mgr可以控制多个K8S集群服务(集群安装Quantanexus-cs组件即可)。当然,你也可以将两个组件安装在一个K8S集群中,尽可能将两套组件分开在不同的namespace中,但是公共组件例如:cert-manager,ingress-nginx,prometheus,grafana这些都是可以重用的。

Quantanexus 依赖组件列表

安装 Quantanexus-mgr 需要预先安装以下核心组件:

组件名称 类型 必需性 说明
cert-manager 基础设施 ✅ 必需 用于证书签发和管理,为集群提供 TLS 证书支持
ingress-nginx 基础设施 ✅ 必需 提供 Kubernetes 集群的入口控制器,实现服务暴露和负载均衡
prometheus 监控 ✅ 必需 集群监控和指标收集系统,用于监控集群和应用性能
grafana 监控 ✅ 必需 数据可视化平台,用于展示 prometheus 收集的监控数据
longhorn 或 ceph 存储 ✅ 必需 longhorn 适用于测试环境,ceph 适用于生产环境

安装 Quantanexus-cs 需要预先安装以下核心组件:

组件名称 类型 必需性 说明
longhorn 或 ceph 存储 ✅ 必需 longhorn 适用于测试环境,ceph 适用于生产环境
cert-manager 基础设施 ✅ 必需 用于证书签发和管理,为集群提供 TLS 证书支持
ingress-nginx 基础设施 ✅ 必需 提供 Kubernetes 集群的入口控制器,实现服务暴露
prometheus 监控 ✅ 必需 集群监控和指标收集系统,用于监控集群和应用性能
grafana 监控 ✅ 必需 数据可视化平台,用于展示 prometheus 收集的监控数据
harbor 镜像仓库 ✅ 必需 容器镜像仓库,用于存储和分发容器镜像
minio 或 seaweedfs 对象存储 ⚠️ 可选 对象存储解决方案
gpu-operator AI ⚠️ 可选 仅在需要 GPU 调度时安装
volcano AI ⚠️ 可选 仅在需要 AI 任务管理时安装

说明:

  • ✅ 必需:安装 Quantanexus 的基本要求,必须提前部署。
  • ⚠️ 可选:根据实际使用场景决定是否安装。
  • 存储组件在测试环境中推荐使用 longhorn,生产环境建议使用 ceph。
  • 对象存储组件(minio或seaweedfs)根据实际需求选择其一即可,最小安装状态下可以不用安装。

提供多种安装方式,以满足不同环境和需求:

1.0 k8s集群已经搭建完毕,并满足上述条件,则推荐使用一键安装方式

    helm repo add hi168 https://helm.hi168.com/charts/ 2>/dev/null
    helm repo update hi168

    # 安装 QuantaNexus-mgr 控制平面
    helm install quantanexus hi168/quantanexus-mgr --version 1.0.0 \
    --namespace quantanexus --create-namespace \
    --set global.domainName=qntest002.hi168.com \
    --set global.masterNode=master1 \
    --set "global.masterNodes=master1\,master2" \
    --set global.workerNodes=worker1    
    
    # 安装 QuantaNexus-cs 集群服务·
    helm install quantanexus-cs hi168/quantanexus-cluster-service --version 1.0.0 \
    --namespace quantanexus-cs --create-namespace \
    --set domainName=qntest002.hi168.com 
组件 Helm参数文档
QuantaNexus-Mgr Helm参数
QuantaNexus-CS Helm参数

1.1 All-in-One 安装(从0开始)

适用于全新环境,一键安装完整的 Kubernetes 集群和 QuantaNexus 平台:

  • 自动部署 Kubernetes 1.28+ 集群,可以使用./install/kubeasz开源项目用来部署。
  • 预配置网络插件可选 flannel、calico、cilium、kube-ovn,建议使用calico。
  • 安装 kube-virt 虚拟化组件
  • 集成 Ceph 存储系统(支持 Ceph 17+ 版本)或者Longhorn 存储系统(支持 Longhorn 1.5.x )
  • 预装 Prometheus 监控系统
  • 自动配置 QuantaNexus-mgr 和 QuantaNexus-cs 核心服务
curl -LO https://github.com/hwua-hi168/quantanexus/releases/download/$(curl \
  -s "https://api.github.com/repos/hwua-hi168/quantanexus/releases/latest" | \
  jq -r .tag_name)/ezdown && chmod +x ezdown

# 1) 下载所有组件 
./ezdown -D 


# 2) 容器化运行kubeasz
./ezdown -S

# 创建新集群 k8s-01
docker exec -it kubeasz ezctl new k8s-01
2021-01-19 10:48:23 DEBUG generate custom cluster files in /etc/kubeasz/clusters/k8s-01
2021-01-19 10:48:23 DEBUG set version of common plugins
2021-01-19 10:48:23 DEBUG cluster k8s-01: files successfully created.
2021-01-19 10:48:23 INFO next steps 1: to config '/etc/kubeasz/clusters/k8s-01/hosts'
2021-01-19 10:48:23 INFO next steps 2: to config '/etc/kubeasz/clusters/k8s-01/config.yml'

# 3) 将容器运行命令加入alias,方便调试 
echo "alias dk='docker exec -it kubeasz'" >> ~/.bashrc && source ~/.bashrc

# 4) 创建一个集群
dk ezctl new k8s-01

# 5)安装一个集群
dk ezctl install k8s-01 

2025-11-19 13:15:53 [ezctl:188] ERROR invalid config, run 'ezctl new k8s-01' first
root@qni:~# dk ezctl new k8s-01
2025-11-19 13:16:31 [ezctl:145] DEBUG generate custom cluster files in /etc/kubeasz/clusters/k8s-01
2025-11-19 13:16:31 [ezctl:151] DEBUG set versions
2025-11-19 13:16:31 [ezctl:182] DEBUG cluster k8s-01: files successfully created.
2025-11-19 13:16:31 [ezctl:183] INFO next steps 1: to config '/etc/kubeasz/clusters/k8s-01/hosts'
2025-11-19 13:16:31 [ezctl:184] INFO next steps 2: to config '/etc/kubeasz/clusters/k8s-01/config.yml'


# 6) 配置集群/etc/kubeasz/clusters/k8s-01/hosts && /etc/kubeasz/clusters/k8s-01/config.yml
熟悉ansible的自然知道如何去配置集群.
后期会制作一些视频,供大家参考.

也可以参考install/README.md(./install/README.md) 进行手工安装。

1.2 现有 Kubernetes 集群安装

适用于已有 Kubernetes 环境的用户,需确保集群版本在兼容列表内:

  • Kubernetes 兼容版本:1.28.x、1.29.x、1.30.x
  • 依赖组件检查
    • CNI 插件(查阅兼容列表)
    • kube-virt(建议版本 >= 0.57.0)
    • Ceph CSI 驱动(支持 Ceph 17+)
    • Prometheus 监控系统(建议版本 >= 2.40.0)
  • QuantaNexus 控制平面部署
  • 组件集成与配置优化

二、QuantaNexus 对主流 CNI 插件的功能支持

功能模块 CNI 插件类型 flannel calico cilium kube-ovn kube-router
基础支持 QuantaNexus 适配 + CNI 原生能力
网络配置能力 静态 IP(Static IP) X X X
BGP 协议 X 暂不支持
VPC 网络隔离 X X X 暂不支持 X
服务与负载管理 LB + IPAM 集成 X X X
DSR(直接服务器返回) X X X
网络扩展能力 双栈网络(Double Stack) 暂不支持 暂不支持 暂不支持 暂不支持 暂不支持
网关(Gateway)管理 X 暂不支持 暂不支持 X X
集群网格(Cluster Mesh) X 暂不支持 暂不支持 X X

三、QuantaNexus 对 Kubernetes、kube-virt、Ceph 及异构计算的支持说明

3.1 Kubernetes(K8s)版本支持

QuantaNexus 从 Kubernetes 1.28 版本开始提供完整适配支持,包括但不限于:

  • 集群生命周期管理(部署、升级、运维监控);
  • 核心资源(Pod、Deployment、Service、ConfigMap 等)的可视化管理与调度优化;
  • 与 K8s 原生 API 完全兼容,支持自定义资源(CRD)扩展。

3.2 kube-virt 虚拟化支持

基于 K8s 1.28+ 版本基础,QuantaNexus 已实现对 kube-virt 的深度适配,支持能力包括:

  • 虚拟机(VM)与容器的统一调度与管理,可通过 QuantaNexus 界面创建、启动、停止、删除 VM 实例;
  • VM 资源(CPU、内存、存储、网络)的动态配置与监控;
  • 虚拟机镜像管理(支持从镜像仓库拉取、本地导入镜像);
  • 容器与 VM 之间的网络互通(依赖已适配的 CNI 插件实现)。

3.3 Ceph 存储支持

QuantaNexus 针对 Ceph 存储系统提供全面集成,全面支持Ceph并建议生产环境用Ceph 作为 K8s 集群及 kube-virt 虚拟机的后端存储。Ceph 版本支持情况如下:

Ceph 版本支持矩阵

Ceph 版本 支持状态 说明
Ceph 16.x ⚠️ 部分功能不可用 部分高级功能受限
Ceph 17.x ✅ 完全支持 所有功能正常运行
Ceph 18.x ✅ 完全支持 已通过全面测试
Ceph 19.x ✅ 完全支持 已通过全面测试

具体支持模块如下:

Ceph 功能模块 支持状态 核心能力说明
Ceph RBD(块存储) 支持将 Ceph RBD 卷挂载为 K8s Pod 存储卷、kube-virt VM 系统盘 / 数据盘,支持动态卷创建(PVC)与快照管理
CephFS(文件存储) 支持 CephFS 作为共享存储,挂载至多个 Pod 或 VM,满足分布式应用的文件共享需求,支持权限控制与配额管理
Rados(对象存储) 支持通过 Rados API 或 S3 兼容接口,将 Ceph 作为对象存储服务,用于存储日志、备份数据等非结构化数据,支持容量监控与访问鉴权

3.4 异构计算(GPU/AI 芯片)支持

QuantaNexus 支持主流 AI 运算芯片的虚拟化与调度能力,可满足机器学习、深度学习等 AI 场景需求,具体支持列表及功能如下:

芯片厂商 支持型号系列 核心支持功能
英伟达(NVIDIA) Tesla A10、Tesla T4 及全系 AI 运算芯片 1. 支持 GPU 显卡直通(Direct Passthrough)至 Pod/VM;2. 支持 VGPU 虚拟化(多实例共享 GPU 资源);3. 兼容英伟达 CUDA 生态,保障 AI 运算性能
华为(HUAWEI) 升腾 310(Ascend 310)、升腾 910(Ascend 910)全系 1. 支持 AI 芯片直通至 Pod/VM,适配华为 Atlas 硬件生态;2. 支持 VGPU 虚拟化,实现资源弹性分配;3. 兼容华为 MindSpore 框架,支持 AI 任务调度与监控

四、标注说明

标注符号 QuantaNexus 功能支持状态说明
功能已完成适配,可直接在 QuantaNexus 中使用
X 功能暂不支持(CNI 插件原生不支持或未纳入适配计划)
暂不支持 功能待适配(已纳入迭代计划,后续版本上线支持)

五、核心优势补充

  1. 基础适配全覆盖:QuantaNexus 已实现对 K8s 1.28+、主流 CNI 插件、AI 芯片的基础适配,确保集群网络、计算、存储、异构资源层的稳定运行;

  2. "计算 - 存储 - 虚拟化 - AI" 一体化:深度集成 kube-virt、Ceph 与异构计算芯片,实现容器、虚拟机、存储、AI 资源的统一管理,降低多场景运维复杂度;

  3. 多生态兼容:同时兼容英伟达 CUDA、华为 MindSpore 等主流 AI 生态,支持 VGPU 与显卡直通,满足不同 AI 业务的资源调度需求;

  4. 持续迭代规划:后续将逐步扩展 K8s 更高版本(如 1.29、1.30)的适配,优化 AI 芯片性能监控、Ceph 存储灾备、kube-virt 高可用等功能,进一步完善生态支持。

About

Quantanexus installation document

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 3

  •  
  •  
  •