为何需要智慧巡检
IT系统环境保障是IT系统维护相关人员最关心的,关乎IT应用系统正常运行及故障诊断和排除,传统的最佳保障方式是系统实时运维,这需要架设运维服务器,并有专业运维人员监控,也即专业运维人员时刻可根据获悉的报警信息登陆目标系统,解决可能出现的问题,但很多用户不具备这样的条件,因而,传统做法是签约定期维保,对目标系统进行周期性巡检,那么两次巡检之间的隐患就无法及时发现。另外一般定期维保都是按年度签约,如果维保服务商不同的话,可能使得每年的维保巡检风格都不一样,更别说历史巡检数据的使用了。如何既能满足维保巡检的要求,又能尽可能追上实时运维的节奏,智慧巡检便应运而生了,其可以每小时生成IT系统环境运维报告供相关人员分析,以便及时采取措施优化系统或解决潜在故障,并可生成使用历史跟踪数据。
智慧巡检 vs 实时运维 vs 定期维保
项目 |
智慧巡检 |
实时运维 |
定期维保 |
实时监控 |
无,可每小时邮件通知;通过定时任务积累网络流量、统计信息差异、存储空间变动数据 |
有监控界面,报警记录 |
无 只能看到即时数据 |
时效性 |
每小时 |
即时状态 |
每n月 |
覆盖内容 |
全面,主机、存储、网络、数据库、灾备、应用 |
全部监控设施 即时可用性 |
取决于维保人员,一般偏向数据库 |
问题解决 |
需专业人员到现场;也可配置智慧解决方案 |
立即解决 |
需专业人员到现场 |
报告 |
每小时 |
年度或半年度 |
每n月 |
历史数据 |
选择生成及利用,如最近几天数据 |
选择查看 |
由报告体现 |
优化 |
应不断优化,及时生成SQL优化建议增减巡检主机 |
SQL性能监控 |
一般按需生成,且无优化建议历史 |
综合成本 |
低 |
高 |
适中 |
智慧巡检系统特点
智慧巡检系统旨在填补实时运维与定期维保巡检之间的空缺,并可以作为两者对系统环境的全面快照保存备查。
对比人工定期维保巡检,智慧巡检具有适中的成本优势、极好的一致性、更短的巡检周期,目前普遍实施的是一小时巡检一次 ,由于实现了 并行性,大大提升了巡检效率,即巡检一百台主机的时间消耗只取决于其中最慢的机器;
对比实时运维,智慧巡检具有更详细的信息展示,自动生成电子文档包括md格式、docx格式、html格式,其中md文档可用于历史比较,可作档案存储;并可设置时段发送邮件给相关人员;
智慧巡检系统也可利用实时运维各种检测手段获取即时状态信息,如数据库日志报错、weblogic应用服务器状态等;
利用人工巡检及行业规则对检测信息定量定性,综合形成巡检结论,有效规避了两者的不足;
智慧巡检系统亮点:
利用每小时生成的历史巡检数据并展示于最新巡检报告,如系统交换分区空间变动图、关键文件系统大小变动图、数据库ASM存储空间变动图、网络统计信息主要报错指标每天按每小时生成增量数据列表、分钟及小时的网络流量图,根据均方差计算结果确定图片展示与否;
数据库归档日志异步挖掘,24小时分区间统计,生成表操作次数,指定表操作跟踪;SQL语句瓶颈分析;
Goldengate/Dataguard 灾备状态、进程信息、进程参数、OGG丢弃文件报错信息;
生成最近一周各小时报告中包括数据库会话锁对象锁的情况;
oracle数据库优化建议,并启用、禁用或智能化处理其中影响docx文件生成的优化脚本;
融合智慧密码,实现有效的密码管理,保障系统内各应用安全性及系统服务正常运行。
智慧巡检目标文档特点
智慧巡检系统生成DOCX电子文档是其重要的环节,其电子文档包含四部分:系统概要、巡检小结、正文分析、附件补充,因此总体实现方案在于甄别概要信息、核心信息、补充信息分别进入系统概要、正文和附件部分,综合巡检结论进入巡检小结。此外巡检小结之后可以留空以便系统工程师手工批注、用户意见反馈等。正文部分的章节顺序可以根据需要调整。目标主机可以设置别名以符合日常称呼习惯。此外超长文件系统及数据库表空间路径均具有自动分段处置方式,以改善生成文档的可读性。目标文档(docx,html,md)可以作为电子邮件附件按配置的巡检时点及路由自动发送给相关人员。Docx文档根据内容嵌入图片方便查看。
通过后置引用嵌入实现同类表格相邻,方便查看,如数据库群集RAC中双机负载;
通过设置各类别标志,实现历史状态引用查询,如发生过数据库锁的巡检报告;
系统小结,所有状态可以点击链接到详细情况
智慧巡检系统结构
智慧巡检系统部署在需巡检的用户处,其组成包括总控程序、配置文件、检测代理、转换生成,其中配置文件分为元配置文件和用户配置文件,不同用户一般只有用户配置文件不同,元配置文件都相同,这样的设计大大简化了部署和升级。
总控程序运行在linux机器上(下称巡检机),采用linux bash编程,因此对其版本有要求,至少需要bash4.2(bash3可以执行检测但需异机生成电子文档 ), 可以用bash -version 检查。通过配置文件总控程序自动识别异机生成电子文档的配置。巡检机能通达所有目标机器,通过信任配置后能ssh远程登陆及执行命令,具有自动版本管理功能,生成巡检主程序和巡检代理程序与各自历史版本的变更差异。总控程序根据用户定制配置文件生成各主机的后台巡检进程实现并行巡检,并检测各巡检进程的完成情况,最后合并各自生成的巡检报告并转换为目标文档,同时根据设置的邮件发送配置将巡检报告发送给指定人员;
检测代理运行在各目标机上,执行总控程序发布的各项检测命令,具有Linux/AIX兼容能力,最大可能实现通用检测,减少修改,特别个性化的检测采用更低一层中间命令,从而避免巡检环境的特定差异导致检测代理的频繁修改,同时检测代理可由主控程序根据版本自动分发更新,具有自动版本管理的特点;
配置文件之元配置文件包括各类控制参数、翻译对照,总体控制系统运行;用户配置文件包括用户特定的配置,如巡检目标机器串等,但其定义风格是一致的,从而带来移植便利,用户配置文件优先于元配置文件。
转换生成程序决定总控程序输出文件的语法,目前采用的是较为简单的markdown,也可用LaTex实现更复杂的目标。转换生成成语为pandoc带引用文件,以便控制生成文档的风格,因而最终交互文档应转换为pdf 以避免打开时请求引用文件。此外应注意的是由于各字处理软件处理表格的差异使引用文件具有定制性。
控制逻辑确定巡检检测内容如何进入期望的文档部分,部分根据系统配置进入系统概要,部分根据检测内容作出合理判断是进入正文还是附件,此外可以通过章节顺序调整最终生成的章节顺序。
启动程序可以单独手工执行,也可放入定时任务自动执行,其首先调用主控程序生成md文本文件,然后调用pandoc转换为docx文件及html文件,随后两种类型的文件均归档压缩保存,如必要可以配置自动发送电子邮件给相关人员,启动程序可根据bash路径进行调整。启动程序实现了对总控程序的并行控制,大大提升了巡检效率。
智慧巡检生成文档读者
所有与IT系统环境相关的人员均可以从智慧巡检系统文档找到感兴趣的内容
智慧巡检反映的内容
展示团队能力,包括文档设计能力、系统架构设计能力、业务系统和运维、数据库设计能力、应用设计能力、系统维护能力、网络存储备份和灾备综合运维水平等。