快生活 - 生活常识大全

信息中心运维监控系统的设计与实现


  刘昆 沈佳 邹岳琳 郭江涛 张龙军 明涛 赵刚 王楷
  【摘 要】文章围绕信息中心IT运维监控系统展开讨论,首先对系统进行需求分析,然后设计完成信息中心IT运维监控系统的整体架构,并对其运作流程进行探究,最后论述监控系统关键子系统的实现。旨在增加维护的工作强度,将不稳定因素消灭在萌芽状态。
  【关键词】信息中心;IT运维监控系统;设计;实现
  引言:
  现阶段,IT在组织运维中的重要性逐渐凸显出来,IT环境运维已经成为提升企业效率的关键。但是,IT运维的成本问题、运维控制方式不當、运维自动化方式不当等问题也成为困扰企业发展的重要因素,因此,引入高效的IT运维监控系统已经成为企业发展的必然选择。
  一、IT运维监控系统的需求分析
  IT运维监控系统需求:一,简单部署、快速实施;二,监控涵盖所有IT环节,灵活定制化务视图;三,多级角色权限设置;四,分布式监控管理;五,丰富的数据报表;六,专家建议库;七,故障双向定位及自动处理。
  通过对用户性能需求的调研,文章提出了对系统的性能要求,总结性能指标如下:监测器数量支持10万以上;每个监测器探测时间小于50s;监测器数量达到10万以上时,监测队列排队数量小于100。
  二、信息中心IT运维监控系统的总体设计
  (一)系统结构
  信息中心IT运维监控系统的整体架构可以分为四个层次,从下到上分别为采集层、数据层、应用层、表现层,如图1所示。
  一,采集层。采集层按照需求将被监控对象的状态信息、可用性信息、性能信息、功能信息等多种监测数据采集回来。除了实现采集的功能外,还会根据既定的处理逻辑将采集到的原始信息进行初步加工,方便其他组件访问、调取此部分数据;
  二,数据层。数据层的主要作用是进一步加工采集层收集的信息,包括功能信息、可用性信息、各种状态信息、性能信息等,统一管理性能、故障、配置等信息,统一监测和管理由应用软件、中间件、存储、备份、数据库、网络、主机构成的应用系统;
  三,应用层。应用层是在数据层基础上提供完善的管理功能模块和引擎。包括性能管理、故障管理、资源管理、报表管理、展示管理、安全管理等模块;
  四,表现层,所有应用功能完成统一呈现,提供基于Web的图形化管理界面以及统一的用户认证和登陆界面。监测和管理被管资源和监控系统自身,为系统的正常运行提供保障。
  (二)工作流程
  IT运维监控系统通过SNMP、SSH、Agent等多种方式实时采集IT业务平台环境中的各种网络设备、服务器、应用系统中间件以及私有业务系统的性能数据,还能够利用Syslog与SNMPTrap的方式将第三方网管系统的数据合并进来。被监控对象的各种信息被收集后,通常经过信息的预加工等几个步骤的处理,与服务建立依赖关系,对比各项信息的阈值,告警通知不在阈值范围内的信息,并通过邮件、短信、声音等方式通知管理员。同时,监控系统将自动对被管资源进行主动轮巡采集,所有性能数据都将保存到数据库中。这个过程不需要任何管理员的干预和操作。管理员可以通过浏览器,不定时查看IT业务状态,并获得报表和分析数据,管理员处于离线状态,也能够收到监控系统发送的邮件、短信等告警信息。
  (三)系统模块
  IT运维监控系统由3个子系统构成,其中包括监控子系统、知识管理子系统、服务部署及诊断子系统,每个子系统都有特定的功能,而三个子系统又都是相辅相成、不可分割的。
  一,监控子系统。由五个模块组成:数据展示模块、设备监控模块、告警管理模块、业务监控模块、报表管理模块。其中数据展示模块负责将整个系统的数据信息以更为直观的形式进行展示,如对比曲线图;设备监控模块负责对机房中各种硬件设备的监控;告警管理模块负责整个监控系统告警信息的管理,可将告警分类并告警界面列表、弹出窗口、邮件、短信、声音等形式发出告警通知;业务监控模块负责对企业各项业务、应用的可用性及性能的监控;报表管理模块负责对监控信息的处理分析,统计各种类型的数据报表,以供使用者参考。监控子系统主要通过Oracle+JAVAStruts2+JSP+JQuery设计实现,其中Oracle数据库为系统提供数据支持,JAVAStruts2负责数据处理以及关系数据库的调节,JSP和JQuery负责客户交互以及前台界面展示。
  二,服务部署及诊断子系统。由两个主要的功能模块组成:任务管理模块、操作管理模块。任务管理模块负责服务的上线部署、升级改造等任务的管理;操作管理模块负责远程命令的执行,用于诊断服务状态、可用性等。该子系统主要通过protobuf实现结构化信息的传递,Center和Agent之间的消息交互,完成对服务的部署或诊断。
  三,知识管理子系统,该系统由两个主要功能模块组成:专家建议模块、资料库模块。专家建议模块负责记录一些常见问题及疑难杂症的解决方法,指导值班管理员处理故障;资料库模块负责中心整体运维工作的知识积累,如服务的维护手册,相关技术要点说明等。该子系统主要通过Oracle+JAVAStruts2+JSP实现,按照中心服务分类对相关资料存储在关系数据库中。
  三、关键子系统的实现
  (一)监控子系统具体实现
  监控子系统首先要实现对监测器的管理,即对系统中监测器进行添加、修改、删除、查询等操作。系统采用多叉树的结构,由根节点开始一级一级向下蔓延,这样可以对监测器按照业务进行分类,清晰的实现对大量监测器的管理,监测对象的架构建立后,整个监控子系统中的数据都是来源于系统对于各个监控对象的监控数据的采集,有了这些原始数据,就能实现监测器管理、报表统计等一系列的功能。
  (二)知识管理子系统的实现
  知识管理子系统可以通过实现资料管理模块的API完成专家建议模块与资料管理模块的统一管理。资料管理模块中,集成系统可以使用树形目录对应信息中心的组织结构或者系统体系结构,将相关服务的维护手册、上线手册等文档存入目录中进行清晰的管理。
  专家建议模块。每次遇到特殊情况,运维人员都会将解决故障的方法记录下来,生成专家建议,当再次出现类似的告警情况时,值班人员就可以根据专家建议里的指导方法快速的解决故障、恢复服务,不用再逐一排查,进而节约时间,相关人员可以有更多的时间来寻找解决方案,实现在最短时间恢复服务,确保服务sla不受损。
  四、结语
  总而言之,文章设计完成了信息中心IT监控系统,并且该系统的关键子系统都能够实现。但是文章中关于信息中心IT运维监控系统的设计仍有一些需要完善的地方,需要相关人员进行深入研究,以实现该系统的良好应用。
  【参考文献】
  [1]卢彦兆.信息中心IT运维监控系统的设计与实现[D].中国科学院大学(工程管理与信息技术学院),2015.
  [2]蔡恩勇.软件系统的运维监控系统的设计与实现[D].西安电子科技大学,2015.
  [3]韩瑞丁.面向ARP的IT运维监控系统设计与应用[D].中国科学院大学(工程管理与信息技术学院),2016.
  [4]陆起阳.网络监控运维系统的设计与实现[D].电子科技大学,2015.
网站目录投稿:又容