自动化运维工具
运维服务自动化 加强日常巡检
减少重复动作 快速准确定位故障
v2v迁移实现多种类型的虚拟环境之间的相互迁移
将运维中重复性操作进行代码封装,简化步骤提升效率
将运维经验积累不断创新,服务产品化
在现有企业客户大量留存原有物理设备部署的业务系统和VMware部署虚拟机的业务系统的场景下,现有客户逐步需要把原有业务平滑迁移到更为主流的OpenStack平台。根据长期的项目经验和手工迁移的实践。九州云蓝精灵工具实现了工具化处理从VMware、物理机、KVM等原有业务系统向OpenStack平台迁移的工作,从而代替原有迁移过程的重复劳动。
随着OpenStack私有云平台规模的不断扩大,对日常例行的运维工作提出了很大挑战。例行的相关巡检工作相对比较重复且耗时,九州云在多年OpenStack运维基础上,对集群的定期重复工作工具化提升对企业云整体监控的高效评估。整体监控指标根据5年以上运维经验积累,通过Ansible工具高效的收集集群系统并根据评估指标最终可以在10分钟以内对OpenStack集群给出专业的评估报告。
OpenStack分布式集群系统在运维过程中,针对复杂问题的处理过程所需考虑的多个维度的关联关系,从而比较容易遗漏造成不可挽回的故障。蓝精灵针对于硬件故障、网络故障等情况,在特定的场景下整合了日常常用的相关故障的处理。在融合情况下,对Ceph分布式系统中磁盘故障可以通过蓝精灵自动处理更换磁盘的Ceph操作和配置变更。在硬件故障的情况下,对停机维护过程自动迁移虚拟机、设置存储和OpenStack维护模式等关联操作,从而能保证操作的一致性。
在线V2V
相较于传统V2V的大量人工操作,我们通过代码实现:
自动诊断 指定路径
虚拟网络异常复杂,网络故障问题经常会发生。网络诊断需要专业的网络知识。运维和网络相互推诿,而蓝精灵正好简化了复杂网络诊断问题的过程,并且可以将诊断结果保存至指定的路径。
软件升级 故障维护
主机维护包括bug修复、硬件故障维护、软件升级和其它需要重启的场景。在物理主机出现问题时,可以自行进行问题的解决。
定期巡检 健康检查
蓝精灵获取到被巡检平台的配置文件等信息后,即可以自动来对当前平台进行巡检,获取平台的状态信息。
硬盘故障 标记替换
替换故障盘的过程可以简单概述为,对故障盘的再次确认,更换硬盘,然后标记该硬盘,最后完成自动替换故障盘的操作。
平台概况 资源预警
通过蓝精灵的使用,可以直接获取到当前平台的资源使用情况,包括用户的虚拟机情况统计、平台的资源概况等,可以直接看到平台的资源情况,并及时作出相应操作。
自动测试 报告预览
蓝精灵通过利用Fio方式和iPerf方式,自动化实现对OpenStack云平台的存储性能和网络性能的测试,最终生成一个excel报告来表示相应的性能情况。