集群运营
概览¶
- 集中显示了集群基本信息、容量信息和统计信息
- 可下载 kubeconfig 文件(将 kubeconfig 文件中 cluster.server 地址修改为 master 节点 IP)
支持在 web 页面执行 kubectl 命令查询集群信息等操作
集群扩容、缩容¶
显示集群节点相关信息。支持针对 Kubernetes 集群 worker 节点的扩缩容
worker 节点扩容(手动模式选择要添加的主机,自动模式输入扩容后 worker 节点数量)
- 自动模式: 删除所选节点虚拟机
- 手动模式: 在所选节点执行卸载任务,删除该节点上安装 k8s 集群所依赖的服务(节点删除成功后,要手动重启该节点来删除虚拟网卡等信息)
命名空间¶
- 列表显示为集群中现有的 namespace,支持创建和删除操作
- 系统默认和 kube-operator namespace 不支持删除
存储¶
设置存储提供商(provisioner)、存储类(storageclass)、持久卷(PersistentVolume)
存储提供商¶
支持的类型有 nfs、external-ceph、rook-ceph、vsphere 和 oceanstor(华为 csi)
- nfs: 需要指定 nfs 服务端版本、IP 和共享目录
- external-ceph: 创建成功之后,会在集群中初始化 ceph provisioner 相关 pod
- rook-ceph: 需要指定 ceph 集群所需磁盘(集群所有节点都必须包含指定的磁盘,如sdb,sdc...)
- vsphere: 集群服务器必须在指定 Folder 中(自动模式创建集群默认 Folder 为 kubeoperator),并且服务器名称要和集群 node 节点名称保持一致
- oceanstor: 参考文档: https://github.com/Huawei/eSDK_K8S_Plugin/tree/master/docs/zh
存储类¶
内置 local volume 存储提供商,如需添加其他类型,需要提前创建对应类型的存储提供商
external-ceph: 需要在 Kubernetes 中创建 admin 及 user 所需的 secret
# 可在 ceph 服务端通过以下命令获得 secret key
ceph auth get-key client.admin
# 创建 admin secret
kubectl create secret generic ceph-admin-secret \
--namespace=kube-system \
--type=kubernetes.io/rbd \
--from-literal=key=AQCtabcdKvXBORAA234AREkmsrmLdY67i8vxSQ==
持久卷¶
支持添加 hostpath 和 local volume 两种类型的持久卷,需要提前目标主机创建文件目录
事件¶
- 支持查看目标 namespace 下的系统事件
- 支持启用 node-problem-detector
日志¶
需要在【工具】页面开启 ElasticSearch 或 Loki 日志组件(不支持同时开启)
监控¶
需要在【工具】页面开启 Prometheus 作为 Grafana 默认数据源
工具¶
提供 prometheus、kubeapps、grafana、elasticsearch、loki、dashboard、registry和chartmuseum 八种管理工具,可根据需要自定义安装
- 点击启用按钮,可以设置 namespace 和是否启用存储等参数
- 失败状态下,可点击启用按钮重新设置参数提交(会触发更新操作)
istio¶
默认安装版本为 1.8.0,ingress 和 egress 可根据需要手动开启
备份恢复¶
- 集群备份: 支持立即备份、定时备份(需要在系统设置中设置备份账号,并授权到目标项目)
- 集群恢复: 支持备份列表文件恢复和本地备份文件恢复(上传 etcd 快照文件)
日志
可以查看针对集群的备份、恢复记录以及任务执行异常时的错误日志
CIS 扫描¶
通过 CIS 安全扫描功能,可以帮助集群管理员检查Kubernetes集群是否已经安全部署
集群升级¶
- 进入【项目】菜单,选中目标集群,点击【升级】按钮,选择要升级到的目标版本
- 升级之前,会先检测当前 kubernetes 集群中 etcd、docker/containerd 和 kubernetes 版本,若检测结果为可升级,将会对 etcd、docker/containerd、kubernetes 进行统一升级,从而保证集群各组件之间的兼容性
- 升级过程中,支持查看任务实时的日志输出
集群诊断、修复¶
诊断
- 检查集群节点网络是否可用
- 检查 kubeoperator_server 容器内是否可以 ssh 连接到 kubernetes 集群节点
- 检查 kubeoperator_server 容器内是否可以正常调用 kubernetes api
修复
存在异常状态的情况下,可点击修复按钮来修复相关问题
集群卸载¶
- 自动模式: 删除 KubeOperator 创建的虚拟机
- 手动模式: 在集群所有节点执行卸载任务,删除安装 k8s 集群所依赖的服务(集群卸载完成后,要手动重启节点来删除虚拟网卡等信息)
- 强制删除: 如果 k8s 集群存在失联状态的节点,可勾选强制删除来删除集群