监控信息订阅与发布平台的设计与实现

创新探索中央电视台 2016年12月30日 14:28 A-A+ 二维码
扫一扫 手机阅读

  一 项目背景 

  伴随着中央电视台新址采编播存管整体业务网络化、文件化建设的深入进行,对于支撑中央电视台新址网络化文件化制播体系运行的各类IT软硬件设备的运行状态实现实时监控、提前预警、及时告警成为了保障这些制播系统稳定可靠运行的必须手段。中央电视台全台IT合署监管系统采用统一的监控平台对各类IT软硬件设备进行实时监控,满足了中央电视台文件化制播系统对于核心IT基础设备实时监控的需求。

  为了配合台内不断提升的对IT基础平台管理的需要,多维度地有效监控台内多种类的IT资源,我们在统一监控平台的基础上增加了监控信息订阅与发布平台,实现了如下功能:

  实现了监控信息订阅与发布平台与全台IT合署监管系统的系统数据同步功能,减少了数据重复采集的问题;

  实现了定制指标订阅管理功能,实现按角色进行分权限指标订阅功能;

  实现了定制指标阈值管理功能,实现采集数据与定义阈值自动化比对并生成相应级别告警的功能;

  实现了定制状态数据实时外发功能,通过定制开发的数据接口,将套件监控对象的状态数据进行实时发送、通知各业务系统;

  实现了定制资源事件实时外发功能,将各个资源的告警信息,包括超出阈值的事件、被监控资源自身发送出来的Syslog或SNMP Trap告警等,根据规则自动转发给相应的业务系统。

  全台IT合署监管系统监控信息订阅与发布平台的建设与运行,实现了为各应用系统提供基础资源性能数据与告警数据用于其系统的二次应用,避免重复性的数据采集,降低设备资源占用,使监控系统在CCTV全台IT资源运维工作中发挥了更大的作用。

  二 设计原则

  1. 实用性

  系统的实用性,首先是功能设计上面切合中央电视台运维管理的业务特点,做到少误报、不漏报,能够准确、有效地反应系统运行状态,发出系统故障告警,为系统维护管理人员提供帮助,为系统建设和发展提供决策支持;其次是系统支持灵活的配置、管理,提供友好的用户界面,方便操作,支持多种样式的数据输出。

  2. 高效性

  监控信息订阅与发布平台需要将告警事件发送给众多业务系统,一方面信息发布平台需要采集大量的IT设备性能数据,另一方面还要将采集的性能数据通过自定义阈值发送给各业务系统,系统的处理压力非常大,这要求系统必须具有非常高的处理效率。

  3. 扩展性

  系统的扩展性首先是接口扩展的能力。IT设备监控需要满足采集器的不断增加,及软硬件技术更新换代的需求,监控信息订阅与发布平台必须能够平滑支持这些扩展,尽量做到软件可配置,而不是系统软件代码的更改和重新编制。

  系统的扩展性还包括系统架构自身方面的扩展性。在软件架构方面,将来能够提供更多的运维管理能力,软件架构内部要采用清晰的总线架构,减少各个模块间的耦合度;在硬件架构方面,能够支持模块功能部署过程中的硬件分布,支持数据存储的分布,这样为将来硬件平台的扩容需求提供支持。

  4. 规范性

  监控信息订阅与发布平台监控的对象是中央电视台使用的各类IT设备,平台在收集数据的同时,还需将产生的事件告警发送给各业务系统,这些都要求本系统参与制定大量的接口规范。接口规范的制定,一方面要做到信息的全面性,能够收集所有系统需要的数据,为监控系统功能实现提供基础;另一方面要做到一定的提炼,针对多种类型的业务、多种类型的平台、多种类型的应用系统,能够提炼出一套合理的数据结构和数据集合。

  系统的规范性同时还要求我们在数据总线传输设计、系统内部架构都遵从目前业界已经形成的规范来进行设计。在事件定义、事件信息基本格式等方面做到规范性,在设备信息库方面结合CMDB设计原则,在业务生产计划库方面结合工作流设计,在整体架构方面结合ITIL的运维服务实践经验,将系统打造成一个规范的技术平台。

  5. 安全及健壮性

  监控系统监控其他系统的稳定运行,自身的安全与健壮是重要前提。

  首先,监控系统要具备充分的安全性。监控系统采集其他业务系统的信息,并进行存储,系统本身必须安全,在信息传输方面对于关键系统信息采用加密传输,在系统交互界面方面有健全的用户鉴权机制;同时,在系统防病毒、防攻击等方面,也要进行全面考虑。

  其次,监控系统要足够健壮。系统在设计过程中要充分考虑数据的分布式能力,系统的高可用能力,系统的传输可恢复、可续传,关键的服务节点要做到热备。

  6. 可行性

  所有的功能设计最后必须落实到软件架构与软件实现中,整体的方案在保证其先进性和高效性的同时,系统还需具备充分的可行性。方案的设计要结合目前软件技术的动态和发展,结合总线架构设计及Web Service、数据库等技术,构建合理的监控信息订阅与发布平台系统架构。

  三 功能设计

  1.平台功能框图

图1:监控信息订阅与发布平台功能框图

图1:监控信息订阅与发布平台功能框图

  监控信息发布平台通过从IT合署监管系统或直接调取监控代理采集性能、状态数据,根据业务系统定制的告警规则生成事件并通过接口告知业务系统,同时转发套件生成的告警事件,并且向用户提供管理界面。因此,本系统需要提供如下文所述的功能。

  第一,通过采集服务器和采集器收集被管设备性能和状态数据:

  监控数据采集器按照不同的采集方式进行定制开发,现已部署的采集器包括数据接口采集器(通过调用IT合署监管系统数据接口采集主机设备监控数据)、数据库采集器(通过连接IT合署监管系统数据库查询收录的监控数据)、系统事件采集器(通过与IT合署监管系统OMNIbus组件进行联动事件的收集)、其他设备采集器(主要用于非标准化设备的监控数据采集,包括SNMP采集器、命令行采集器等);

  采集器服务器用于对已经部署的采集器进行管理,同时支持向采集器下发被管设备配置、下发监控指标采集规则、采集数据汇集、实时监控数据查询、阈值判断和事件转发等功能;

  另外,采集器对采集到的监控数据进行本地存储,存储周期可视配置而定。

  第二,通过数据处理服务为系统管理界面、对外发布接口和采集服务器之间提供数据交互通道:

  向Web管理界面提供操作指令下发服务,用户通过界面配置被管设备、监控指标、阈值等,并通过该服务向采集器下发控制指令;

  向对外发布接口提供实时数据查询、历史数据汇集和事件转发服务,对外发布接口可以调用该服务查询订阅发布数据、查询实时数据并接收告警事件;

  向采集服务器转达来自操作页面的指令,其指令分为采集指令和管理指令两类,并将采集器运行状态专递给管理界面。

  第三,通过对外发布接口向业务系统提供实时数据查询、历史数据订阅和告警事件外发:

  向业务系统提供历史数据发布订阅服务,定期从数据处理服务中获取业务系统预置的订阅内容,并通过ESB系统进行分发;

  向业务系统提供实时数据查询接口,业务系统可以通过该接口查询指定设备、实例和监控指标的监控数据,并通过SOAP协议返回当前查询结果;

  向业务系统转发事件数据,包括套件产生的事件和本系统按业务系统阈值生成的事件。

图2 监控信息订阅与发布平台交互设计

图2: 监控信息订阅与发布平台交互设计

  第四,通过Web管理界面提供规则配置和历史数据查询等功能:

  向业务系统用户提供被管设备信息管理、设备采集指标配置、采集规则配置、阈值告警规则配置和监控历史数据查询功能;

  向系统管理用户提供交互记录管理、数据同步、采集器管理、用户管理和系统管理等功能。

  第五,IT合署监管系统数据采集接口和被管设备向本系统采集器提供采集服务:

  现有IT合署监管系统数据采集接口可以为本平台系统提供实时数据查询接口,其包含的设备类型包括:主机、数据库、中间件等,本系统通过开发可配的采集器采集该类设备的监控指标;

  另外,存储设备、网络设备和部分安全设备需要定制开发专用采集器来实现数据采集,需要开发的采集器包括SNMP采集器、数据库采集器等。

  2. 平台交互设计

  监控信息订阅与发布平台用于将采集的监控数据和IT合署监管系统生成的事件通过接口及ESB系统转发给业务系统,因此,平台与IT合署监管系统、业务系统和被管设备都需要数据交互。交互方式如图2所示,具体说明如下文所述。

  首先,业务系统通过ESB接口和Web页面的方式访问本系统,ESB接口提供历史数据订阅、实时数据查询和告警事件转发功能,Web界面提供规则配置和历史数据查询等功能。

  第二,监控信息订阅与发布平台需在ESB系统中注册实时数据查询服务,业务系统需要在ESB系统中注册告警事件接收服务和历史数据订阅服务。

  第三,监控信息订阅与发布平台自身提供ESB历史数据发布订阅服务、ESB实时数据查询服务、告警事件转发服务和Web管理页面,并通过IT合署监管系统数据接口和定制采集器采集获取设备监控数据:

  监控数据订阅发布服务:负责从本系统历史数据库中按业务系统订阅规则汇总监控数据,并生成固定格式报文再通过ESB系统转发给业务系统。另外,通过业务系统订阅的阈值判断规则对本系统采集的监控数据进行判断,当超出预定阈值时向业务系统发送告警数据。

  监控数据实时查询服务:负责调用本系统定制采集器,按照业务系统传递的查询参数,查询指定设备和设备实例的监控指标,并通过查询服务返回设备当前监控数据。

  告警事件转发服务:该服务用于转发IT合署监管系统生成的设备和业务影响度告警事件。

  Web管理界面:通过UI界面的方式向系统和业务用户提供管理和业务配置查询功能,从而实现设备基础信息管理、监控指标管理、告警生成规则配置、采集管理和历史数据查询等功能。

  3. 性能指标订阅功能

  性能指标订阅功能用于向业务系统用户提供个性化定制监控规则的功能。用户可以定制内容包括下文所述五方面。

  第一,监控设备:指定业务系统内的需要监控的设备,支持同类设备多选批量操作。

  第二,监控指标:单设备或多设备选择监控指标,该指标用于定期从被管设备中采集。

  第三,监控阈值:为设备指定监控指标后,可以为每个指标设定分段告警阈值,如:CPU利用率大于50%时为一般告警,大于70%为严重告警等。

  第四,监控周期:对设备的监控阈值配置完成后,可以指定监控数据采集的周期,该周期不小于五分钟,不同的设备可以有不同的采集周期。

  第五,订阅周期:本系统除提供监控数据个性化定制监控外,还可以由业务系统定制订阅规则,订阅规则包括:及时发送超出阈值的数据和定期发送阶段性监控数据两种。

  及时发送超出阈值的数据:当采集器采集到的当前监控指标超出业务系统定制的某一阶段性阈值时,本系统立即将超出阈值的当前数据通过接口转发给业务系统,数据内容包括:设备IP地址、设备标识、监控指标编码、当前采集值等;

  定期发送阶段性监控数据:业务系统可以根据自身系统需要选择定期获取被管设备采集数据,可定期范围包括按自然小时、天为单位,由本系统向业务系统推送监控采集数据。如果业务系统对监控数据时效性要求不高,可以采用该方式获取数据。

  4. 事件转发服务功能

  监控信息订阅与发布平台支持两类事件的转发,即IT合署监管系统事件转发与自主采集触发事件转发。

图3 :IT 合署监管系统触发事件转发流程

图3 :IT 合署监管系统触发事件转发流程

  (1)IT合署监管系统触发事件转发功能

  实现对IT合署监管系统事件的转发功能需要根据与业务系统的沟通结果,确定监控规则、定义告警级别并进行事件信息丰富工作。当IT合署监管系统的OMNIbus组件根据规则生成事件后,由其Trigger将事件内容转发至监控信息订阅与发布平台的事件转发服务接口,再通过调用各业务系统接口将事件转发至其所属业务系统。业务系统需要具体监控指标时,可以通过现有ESB监控指标查询接口查询当前监控数据。实现流程可参考图3所示的IT合署监管系统触发事件转发流程。

  在该转发服务中,对外业务系统转发的事件内容包括:业务系统编码、事件首次发生时间、事件最后发生时间、事件描述信息、设备IP地址、设备名称、事件级别、事件发生次数、事件处理状态。

  业务系统可以定义转发规则,具体支持情况如下:

  定义转发的设备清单,即对清单内设备的告警事件转发;

  定义转发事件的级别,依据套件可以产生的级别定义;

  定义转发事件的状态,依据套件可分为已处理和未处理。

  上述转发服务充分利用了IT合署监管系统OMNIbus组件的事件处理功能,规则统一、时效性好,监控信息订阅与发布平台仅负责规则定义和转发,对平台的资源占用少;但如果事件生成规则定义过细时,触发Trigger过多可能会影响到OMNIbus的性能。

  (2)平台自主采集触发事件转发功能

  监控信息订阅与发布平台自主采集触发事件转发功能的实现,是通过根据业务系统需求,个性化定义设备监控指标阈值、采集周期和事件转发规则,再由事件转发平台调用IT合署监管系统数据采集接口定期采集数据,并根据阈值判断生成相应告警数据,同时调用各业务系统接口将设备情况告知业务系统。当业务系统需要具体监控指标时,可以通过现有ESB监控指标查询接口查询当前监控数据。

  对于被监控设备主动发送至IT合署监管系统OMNIbus组件的告警事件,如:SNMP Trap等,则由OMNIbus Trigger触发后发送至监控信息订阅与发布平台的事件转发平台,再由其根据规则调用各业务系统接口发至所属业务系统。

图4:平台自主采集触发告警流程

图4:平台自主采集触发告警流程

 图5:平台转发设备主动发送的告警事件流程

图5:平台转发设备主动发送的告警事件流程

  监控信息订阅与发布平台自主采集触发事件转发功能可以更大地满足业务系统个性化需求,事件生成和转发规则可以更灵活定义,可以集中实现邮件转发、声音告警、接口转发等功能,对多系统共用设备或事件生成规则不一致的需求支持更好。

  四 平台部署

  中央电视台新址工艺系统建立了整体信息安全保障体系,包括信息安全技术体系、管理体系和运维体系的设计和建设,对信息安全做了高度要求,IT合署监管系统作为统一监控平台,既要保持与被监控软硬件资源的通信,又要保证信息的机密性、完整性,避免被篡改与攻击,因此监控系统虽使用的为数据中心统一提供的虚拟化资源,但实际在物理部署上,使用的为单独的机笼,并划分了单独的监控管理域。监控信息订阅与发布平台作为监控系统的对外窗口,在信息安全要求上自然一脉相承,不能有丝毫放松,整个平台的逻辑部署如图6监控信息订阅与发布平台逻辑部署图所示,相关要求及说明如下:

  数据库服务器(用于存储本系统采集的历史数据、告警事件和基础配置信息等)、事件处理服务器(用于汇总监控数据,对超出阈值的事件汇总并外发)仅与平台内部服务器有通讯要求,在网络上直接限制其与外部的通讯需求,保证其只能在监控系统内网实现网络连通;

  监控数据采集服务器(用于部署采集器以获取合署监管系统采集到的监控数据或直接采集被管设备数据)需与合署监管系统及被管设备实现网络连通,在策略上限定了访问端口;

  监控信息发布web服务器(用于部署监控信息发布平台管理界面,为系统管理员和业务系统用户提供操作界面)需通过台内网与业务系统连通,在策略上限定了访问端口;

  对外接口服务器(用于为业务系统提供实时数据查询、历史数据订阅和告警事件转发接口服务)需通过台内网与ESB系统服务器连通,在策略上限定了访问端口。

  另外,考虑到本平台其实是IT合署监管系统的一部分,应在资源部署上考虑整合,故监控信息发布web服务器、对外接口服务器均与IT合署监管系统现有虚机共用物理主机,有效节省了服务器资源。

图6:监控信息订阅与发布平台逻辑部署图

图6:监控信息订阅与发布平台逻辑部署图

  五 结束语

  随着基础资源在台内的逐步“云”化,以及大数据相关技术的不断进步,监控信息的获取、利用与分享需求也必将进一步增加,如何有效、快速地获取数据、利用数据、分享数据将是监控与管理系统的下一个热点话题,这也就需要技术人员开动脑筋,尽量结合现有监控系统的潜力,发挥技术优势,使监控系统在运维工作中发挥更大的作用。

  (作者为中央电视台技术管理中心基础资源部  马健)

返回首页
分享到:
1 1 1