为深化民航智能化建设,民航资源网开展“2019智慧民航优秀解决方案及应用案例”征集评选活动,寻找创新实践企业分享先进经验。目前已收到大量来自航空公司、机场、技术供应商的案例,民航资源网将继续展示和分享。
《上海浦东国际机场信息系统智能运控平台建设与应用》
——
一、信息系统智能运控平台建设背景
上海浦东国际机场于1999年建成通航,到2019年拥有两个航站楼、两个卫星厅,年旅客吞吐量约7000万人次。浦东机场新枢纽战略周期从“做大做强”转向“做精品”。 (“公司”)作为大型综合体国际枢纽的管理者和综合机场服务的集成商,业务拓展将主要围绕建设大型国际航空枢纽、提高运营效率、提升服务水平等中心工作,推进管理体制改革。随着浦东机场枢纽建设的稳步推进,公司对安全服务、运营效率、内部管理等方面的要求不断提升。
机电信息支撑部是信息技术支撑单位。其系统运营中心主要负责离港、网络、航显、集成、门禁、监控、广播等30余套信息系统的运维工作。管理工作,业务范围包括前端设备维护、网络设备和服务器等。如何保证系统和设备的高效运行是系统日常运维管理的重中之重。在实际工作中民用机场航站楼楼宇自控系统工程设计规范,也存在一些亟待解决的难题。
1、系统多,监控方式不统一
业务系统独立,管理工具分散,缺乏集中监控,给现场运维带来一定的麻烦:
(1)每个系统都配备了独立的监控工具,分别安装在业务系统终端上。大量的监控终端导致资源浪费,也受到安装空间的限制。
(2)根据信息安全的要求,监控终端的操作系统和业务软件需要部署复杂的密码,并且需要定期更新。运维人员需要记住一个大量的帐户和密码。
(3)各个系统的监控界面可视化较差,需要运维人员进行二次认识。
2、监控不自动化,人工巡检工作量大
各个系统的前端设备和网络设备分布在机场的各个角落。 300多台重要服务器主要分布在两个终端和各大主机房。随着新信息系统的加入,各类设备不断增加。但大部分系统监控工具没有自动报警机制,无法实时发出异常报警,需要人工检查才能发现问题。
对于网络设备和服务器的检查,系统运营中心的技术人员需要登录交换机或服务器,检查各项性能指标。每人检查一台设备大约需要3分钟;到 2019 年,交换机和服务器数量已超过 2000 台,每次全面检查大约需要 6000 分钟(100 小时)。
机房日常巡检只能通过人工现场巡检,现场确认机房温湿度数据、UPS、空调状态、是否漏水每个弱电室至少需要3分钟,核心机房至少需要30分钟,每天只能检查一次。而当故障发生时,很可能不在巡检时间段内,导致机房、弱电机房环境等问题无法及时发现和处理。
3、业务系统复杂故障难以定位
信息系统的正常运行需要服务器相关硬件、数据库、应用软件、网络设备、光纤线路等链路的支持。一旦出现复杂故障,技术人员只能依靠运维经验对各个环节进行排查。便捷的工具辅助故障定位,技术人员现场运维面临以下压力:
(1)终端设备分散,系统在非高峰时段使用时,短时间内无法判断区域性重大故障;
(2)故障现象不能很直观地反映故障原因,需要检查一系列相关设备。
根据历史故障数据统计,准确定位复杂故障需要30多分钟。下表为2017年按运营部门统计的案例故障定位和处理时间:
4、重大故障无预警机制,无法预知
业务系统自动展示不足,需要人工干预;技术人员缺乏预测故障风险的能力。面对潜在故障,主要依靠人工巡检和定期维护来预防,费时费力,无法做到实时主动监控。
浦东机场的航班密度越来越高,基本处于24小时不间断的状态。面对用户对业务系统的高可用性要求,他们被动地等待故障发生。后处理的运维模式势必影响航班的正常运行。因此,浦东机场技术人员迫切需要一套全面成熟的预警机制来解决上述难题,从海量历史故障数据中提取有价值的数据,生成合理的预警信息,降低故障率,提高系统可用性,延长业务连续性。 .
面对以上运维痛点和难点,机电信息安全部以“智慧机场”理念为引领,以信息化技术为依托,开始为建设智能化运营做准备2016年信息系统和控制平台,全面提升上海浦东机场各信息系统的整体运行和服务质量。
二、智能运控平台建设实施流程
智能运控平台根据浦东机场运维管理规范和实际管理需要,结合行业标准,实施先进的运维监控管理工具,建立服务型运维监控管理平台和最佳实践,实现机场IT网络中设备和系统的集中监控和展示;实现系统运维的自动化、标准化;实现运维工作的透明化、可视化、流程化、制度化、可控化;同时,促进日常运维工作效率和水平的不断提高,确保运维工作的高质量、高效率。
整个IT运控平台的具体建设和实施过程如下:
1、运控平台架构设计
运维平台采用分层、模块化的设计技术。模块在模块和层之间松散耦合。每个模块都可以独立部署、升级和扩展。它不仅相互独立工作,而且具有良好的耦合性。综合监控系统。监控系统具有良好的开放性,支持第三方监控工具的快速集成,实现资产配置和报警事件的自动提取和集中展示。监控系统具有良好的可扩展性,管理范围、管理深度和管理功能均支持平滑升级和扩展,满足不断发展的运维管理需求。监控平台主要由资源分配管理、集中监控管理、综合管理三大部分组成,实现“监、管、控”一体化运维管理解决方案。系统整体架构如下图1所示:
(图1:平台架构图)
集中监控管理部分主要关注生产环境中IT基础设施的集中监控管理,包括传输网络设备、主机/虚拟机、存储设备、安全设备等的性能采集和事件处理。实际应用系统,并采用监控可视化平台提供大屏显示等能力,支持与第三方系统集成,如集成接入云平台。
综合管理部分包括统一运维门户、报表平台、全文检索、权限管理、分级管理等主要模块,保证平台不同角色的运维人员都能访问功能和视图通过浏览器与其职责相对应。是信息的集中展示窗口,是日常工作的平台。
资源配置管理部分将运维监控与软硬件基础信息有效结合,将分散的视频资源、网络资源、主机资源、虚拟机资源、数据库资源、中间件资源、存储资源、业务系统、等等,通过关联来丰富资产配置信息。并且能够很好地适应云计算和虚拟化技术的应用,能够快速适应虚拟化基础设施的变化,可以从数据建模、数据收集与维护、数据分析与应用三个方面对资产和配置数据进行管理。 .
运维平台主要包括三类数据,告警监控数据、性能监控数据、资产配置数据。通过绩效管理库和资产管理库之间的数据交互,经过分析处理形成可以使用和展示的标准数据。 ,报告提取数据和处理数据。数据标准化后,作为流程运行的关键数据提供给运维服务流程,提供给集中展示功能,进行直观、动态的信息展示。
另外还开发了相应的基于和IOS操作系统的移动端软件,可以实现移动端的相关业务功能。
2、业务功能的实现
(1)数据集成
智能运控平台实现对网络设备、服务器应用、云平台和机房环境监控的全面集中监控。不再需要通过独立的监控工具检查系统和设备的性能和状态,提高了运维效率。效率。
——网络监控管理功能模块主要包括网络故障监控模块、网络性能监控模块、网络拓扑管理模块、网络配置管理模块、网络安全管理模块等。
——服务器资源监控主要包括基础网络以外的与服务器相关的资源,包括主机、数据库、中间件、通用服务等,并且可以从业务角度将上述分散的资源进行逻辑组合,构建出业务逻辑模型实现业务级监控。
——集成接入云平台,实现对云平台虚拟机性能状态、网络状态等资源的实时监控。
——完成与原机房监控管理系统的集成建设,包括:机房设备设施的基本信息和机房环境监测系统的监控资源;机房环境监测系统机房设备设施运行状态信息;机房环境监测系统机房设备设施运行监测指标信息;机房环境监控系统故障告警信息等
(2)信息可视化
IT运控平台通过资源分组组件、统计分析数据、运营评估数据以视图的形式呈现,包括基础动态回路、网络架构、服务器设备、云平台、业务服务等。界面全屏显示,监控内容和数据资源可以3D空间视图呈现,通过动态动画交互呈现,可以通过第三方分屏工具在监控大屏上展示。如下图,运维综合分析数据3D渲染图如下图2.:
(图2:综合运维分析数据呈现示意图)
网络可视化,实现骨干网、始发网、安防网三大生产网络核心及融合网络设备运行情况的实时展示。同时,根据网络分区和网络层,直观地展示各种网络设备和资源。可以实现全局概览和局部聚焦,也可以独立显示当前层级的网络拓扑。系统的网络可视化展示,支持网络运行统计、网络健康分析评估数据的可视化,同时也支持网络设备在线状态、设备运行性能指标、故障告警等运行情况数据的实时展示,如下所示如图3:
(图3:网络可视化演示)
信息系统可视化支持多维度、分层展示业务系统的组成和运行情况,提供基于应用系统整体运行情况的监控视图,也提供基于业务逻辑的监控展示视图应用系统基础设施的组成关系。此外,信息系统资源可视化展示视图,实现了机场各类设备设施按系统、分布位置分类、统计、可视化展示,全面展示系统运营中心维护管理的资源整体情况。 目前已接入出发、航显、广播、闭路电视、门禁、呼叫中心等10多个信息系统,300多台服务器。显示示例如下图4所示:
(图4:信息系统可视化展示)
(3)智能监控
智能监控主要体现在两点:一是故障实时报警;二是经营情况预警。预警功能分为网络和应用两个层次。
智能运控平台一旦检测到系统设备或应用出现异常,可根据各系统设定的巡视时间,第一时间检测到异常,并实时报警。 报警信息会自动生成维修工单并推送到移动端,包括故障设备信息、机房等数据。
提前预警 根据系统历史数据,结合大数据算法,评估系统未来运行趋势,提前预警故障可能性。目前主要实现网络及应用的健康分析:
p>
①网络健康分析与评估 支持机场整体网络、区域网络和网络设备的健康评估。网络设备健康度分析评价从设备网络位置、设备使用寿命、设备故障记录、设备性能负载、设备流量负载、支持的业务应用等维度进行综合分析设备获得的健康度是通过对各个维度的权重得分进行加权计算得出的。
②应用健康分析评估,支持机场各类业务应用系统和应用支撑资源的健康评估。业务应用分析可以统计关键应用系统的可用性、宕机次数、宕机时长、一定时间内的运行趋势,并以直观对比的形式呈现。根据设备监控指标的历史监控数据,预测系统资源性能情况。
(4)手机操作
移动运维的实现依赖于移动APP的开发和使用。主要功能如下:
——智能运控平台报警,下发维修工单。运维人员可以在移动端实时接收故障位置、故障设备等信息,根据自己的位置就近下单。
——在线运维支持功能,完成的工单信息形成运维经验共享知识库,运维人员可获取历史故障处理信息在线支持;上传相关照片等互动说明
——自适应生成检修工单。根据当天的巡查内容,根据不同系统、不同地区的设备,生成最合理的路线。
——备件联动管理,当故障处理需要使用备件时,在对应工单中填写使用状态,并自动关联管理库进行注册、扣费等操作。
——绩效考核量化支持,签到功能提供值班人员的状态,每个维修工单会根据待处理故障的复杂程度有不同的评分设置,处理人员会得到相应的分数来量化工作提供评估依据等。
3、IT运控平台建设效果
(1)预防,系统实时健康检查
运控平台通过实时监控网络性能、分析应用状态等,对系统整体健康状况进行评估,实现系统运行数据整合,掌握系统整体健康状况。
平台实时监控网络设备并评估设备性能。设备性能监控指标包括:在线状态、ping延迟、CPU、RAM、端口状态、端口速率、端口丢包率、端口丢包率、端口错误率等。
通过Agent模式和各种协议对系统服务器硬件指标和操作系统进行管理和监控,支持不同操作系统的服务器和小型计算机的运行状态和性能数据,包括服务器基本信息、CPU负载、内存利用率等。 ,对应用进程、文件系统、磁盘空间和吞吐量、事件、网卡和日志等进行分析和监控,收集系统日志信息等,最终形成各个业务系统的整体健康“体检报告”,如下图5所示:
(图5:系统整体健康评估展示)
(2)预警,提前消除故障菌
预警是基于健康检查数据,结合历史故障数据和历史体检数据,分析系统当前运行趋势,对不畅通的数据进行预警,人工干预预防故障提前发芽。
预警功能的实现可以提前检测到网络设备或服务器的异常,提醒技术人员分析确认,并采取相应的预防和干预措施,从而快速定位和解决问题没有用户的感知。
自智能运控平台上线以来,利用平台告警快速定位区域故障,平台的预警和早期干预手段减少了故障数量,提升了系统的安全性能,扩展业务连续性,从而进一步提升用户体验。以航显系统为例,平台建成后的故障次数明显低于之前,如图6所示:
(图6:平台搭建前后航显系统故障数量对比)
(3)事前控制,提高现场控制水平
智能运控平台上线以来,已实现汇聚层、核心层、接入层2200多台交换机的集中监控。一旦设备出现故障,最迟10分钟内发出警报;信息相关设备,从系统架构层面来看,可以位于系统的不同层次,如服务器、中间件或网络设备。从物理位置层面,它可以位于特定的机房。重大故障发生后,故障定位时间由30分钟缩短至5分钟,快速定位故障,提升系统管控能力,提升用户体验。
当系统在非高峰时段出现终端分散或服务器端故障时,智能运控平台可通过对网络设备、系统应用状态的实时监控和综合信息展示,帮助运维人员和机房环境数据。预测上报故障的原因,可以更快地处理和解决问题。以安防系统CCTV、门禁系统为例,可根据平台下发的相关告警,提前检测设备离线、网络设备端口离线或服务器相关进程异常,快速定位故障点,减少平均处理区域故障时间约30分钟。智能运控平台的建设,进一步优化了业务流程,缩短了故障排除的闭环时间。具体对比信息如图7所示:
(图7:排查时间对比)
四、总结与展望
在“安全机场、绿色机场、智慧机场、人文机场”四类机场建设中,智慧机场建设是重点支撑。浦东机场机电信息保障部借助前沿科技推进智能化运控平台建设,推进系统运维防线前移,狠抓“防”字,并收紧“预防、预警、预控”的围墙,提高业务系统的连续性,同时强化现场综合管控能力。
未来,浦东机场技术支持团队将继续挖掘信息系统智能化运控平台的潜力。在架构设计良好的开放性和统一性的基础上,继续对机房进行监控,增加对核心机房的目视检查。管理模块将全面监控人员进出机房的操作;考虑引入网络流量监控,进行安全分析,实现网络信息安全态势感知新功能,努力将浦东机场建设成为“国内最好、世界一流”的智慧机场。 .