云环境下的 络流量采集探索与实践

文 / 中国民生银行信息科技部 兰庆白

云服务在我国各行业中的占比越来越大。2017年以来,我国已有70%以上的省市先后出台政策,推动当地企业加速上云。“十三五”规划使银行业上云加快,近两年,迈入FinTech时代的商业银行纷纷抢占新一轮技术革命先机,积极进行数字化转型,加大对云计算、大数据、人工智能、区块链和物联 等新技术的研究和应用,提升科技服务能力,为客户提供智能、全方位、差异化服务。

络流量采集的价值

络流量采集大多利用 络设备支持旁路流量镜像的方式实现。从目前行业使用来看,旁路 络流量采集是所有旁路流量监控和分析平台的基础。对于数据中心运维来说,通过建立统一的 络流量采集平台,结合各监控分析平台可以极大提升运维管理和业务连续性管理水平。

1.提供监控分析数据源:通过 络流量采集获取的 络基础架构上业务交互的流量,可为 络监控、交易监控、安全监控、大数据、客户行为分析、访问策略需求梳理优化、各类可视化分析平台以及成本分析、应用扩容、迁移等提供所需的数据源。

2.补全故障举证溯源能力:通过 络流量采集可以实现对历史数据进行回溯分析和故障诊断,为开发、应用、业务部门提供历史数据支撑,彻底解决取证难、效率低,甚至互相推诿的问题。

3.提高流量数据利用效率:通过建立统一的 络流量采集平台,可以对双中心甚至多中心的分散流量进行合并再处理,降低流量数据采集的成本开销,实现数据中心整体流量数据的按需和统一供给。

5.降低生产资源消耗:没有 络流量采集的情况下,监控代理需要部署在服务器上。一方面对应用的稳定性会带来一定的影响,同时也需要消耗一定的主机资源。在故障分析时需要排除监控代理自身因素,给故障定位带来了一定的干扰。而旁路的流量采集则可以规避此类问题。

另外,流量采集作为旁路分析的基础供数平台,与生产 络一样,其自身的稳定性、可靠性和准确性相当重要。基于此原因,我行在最新的流量采集平台建设中首次采用了先进的SPINE-LEAF架构,大量采用万M接入、多链路负载均衡以及源端口流量优化机制并逐步向40G/100G过渡,以实现无丢包的流量采集和供数能力。

云环境下的流量采集需解决的问题

思科预计2020年云化数据中心的东西向流量将占数据中心总流量的80%以上。当前各个银行的数据中心出于各种各样的监控、管理需求,上线了各种监控管理系统。这些系统上线后都起到了立竿见影的效果,但由于缺乏统一规划,逐步暴露出一些问题,例如配合度低,重复采集录入、信息不能有效联动、一致性维护困难等。

金融业对云环境中应用系统的监控要求比较高,因此对虚拟 络流量数据的采集越来越重视。企业上云后,不再大规模使用物理机部署业务,大多利用虚拟化技术对计算资源进行统一的池化管理。传统数据中心的流量采集方案面对大规模的虚拟 络面临诸多挑战。

1.虚机监控的缺失:云计算和虚拟化将 络的边界延伸到了物理服务器内部,同一物理机内部不同虚机之间的东西向流量交互不再经过物理交换机,传统的通过物理交换机镜像获取业务交互流量的方式已不能适应虚机之间流量采集。

2.采集性能的挑战:云环境中服务器大多通过10G或25G高密接入。由于交换机镜像只能基于接口采集所有流量,无法作过滤,在此种模式下,交换机上集中镜像的方式必然会给 络设备带来性能和稳定性的影响。

3.动态采集的挑战:云环境中虚机上线、下线、扩容、迁移、故障切换频繁且均通过自动化实现,传统的通过静态镜像进行流量采集的方式无法感知虚机的变化,镜像策略更是无法随虚机的切换实现同步部署。

4.虚拟交换机镜像采集的挑战:通常虚拟交换机部署了大量的转发流表,云平台不允许通过其他方式对OVS进行修改,镜像策略容易被云平台刷新机制覆盖,导致流量采集失败。

5.采集管理的挑战:面对成百上千台宿主机的规模,需通过灵活的管理机制确保快速响应流量采集策略的变化;当生产 络流量突发、泛洪、DDoS攻击时,需确保采集不会对生产环境造成影响。

民生银行云环境下的流量采集实践

1.建设目标。从上面的描述可以看出,云环境下的流量采集重点要关注虚拟机东西流量的采集以及性能问题。鉴于云平台的动态性特点,我行云环境下的流量采集首先要求虚拟采集器支持虚拟机在线迁移感知,能够实现采集策略的自动化跟随;同时系统具备对虚拟采集器、分发流量的全面监控能力,以确保采集系统稳定运行且不会对生产 络造成不良影响。

综合考虑云环境下的流量采集需实现如下目标:实现虚机之间东西流量的采集功能;采用分布式采集架构,避免交换机镜像带外的性能和稳定性问题;对接云平台,采集策略可随虚拟机资源的变化进行自动调整;采集平台可对采集的虚机流量进行监控;采集工具自身具备流量优化功能;采集工具自身需具备过载保护机制。

2.采集模式的选择。根据计算节点上可部署采集点的位置,云环境下的虚拟机流量采集模式可分为Agent模式、虚机模式、宿主机模式三种,对比说明如下。

(1)Agent模式:在云环境中的每一台需采集流量的虚机上安装Agent,通过Agent代理提取云环境东西向流量,分发给各分析平台。优点是与平台无关,不影响虚拟交换机性能,可随虚机迁移,可作流量过滤;缺点是需管理的Agent过多,故障时无法排除Agent自身的影响,需共用现有生产 卡吐流量,可能会对业务交互产生影响,新建虚机需同步部署Agent。

(2)虚拟机模式:在云环境每台物理宿主机上安装统一的采集虚机(部署采集软探针),通过虚拟交换机上镜像虚拟 卡流量的方式将该宿主机上的流量镜像给采集虚机,然后由该采集虚机通过专用 卡传输至传统物理流量采集平台,再分发至各监控分析平台。优点是软交换机旁路镜像,对现有业务 卡和虚机无侵扰,通过一定的手段也可实现对虚机变化的感知和策略的自动迁移,缺点是采集虚机被动接收流量无法实现过载保护机制,可镜像的流量大小由虚拟交换机性能决定,对虚拟交换机稳定性有一定影响,KVM环境中需由云平台统一下发镜像流表,管理维护复杂,特别是宿主机故障时,采集虚机等同于业务虚机也会随着其他虚机迁移到不同的宿主机上,此时采集策略和采集虚机如何管理维护目前来看还没有较好的解决方案。

(3)宿主机模式:通过在云环境每台物理宿主机上部署独立采集软探针,以进程模式工作在宿主机上,并将采集的流量传输至传统物理流量采集平台。优点是完全旁路的机制,对虚机、业务 卡、虚机交换机均无侵扰,采集方式简单,管理方便,无需维护独立虚机,轻量级且采集软探针可实现过载保护。由于是作为宿主机上的进程,可对宿主机和虚机资源、性能等进行监控,指导镜像策略的部署。缺点是需消耗一定宿主机的资源,可能存在某些虚机化平台不支持宿主机上部署采集软件探针的情况。

综上所述,宿主机模式的天生完全旁路的方式优势明显,风险较低,且与我行使用的基于OpenStack的云平台和KVM虚拟化平台完全匹配,因此我行在云环境中选择了以宿主机模式实现云环境中虚机流量的采集。

云环境下的流量采集平台架构

如图1所示,云环境下的流量采集平台采用了两级架构,包括云 络流量采集控制器和云 络流量采集客户端。

图1 云环境下的流量采集平台架构

1.云 络流量采集控制器:通过API与Openstack云平台无缝对接,自动学习云平台内主机、项目、虚拟机、 络等资源以及 络和资源的映射关系,监控云环境中各类资源间 络连接和流量。云 络流量采集控制器对流量采集策略、云 络流量采集客户端进行统一管理。控制器可自动感知云 络中的虚机变化,当有虚机上线、下线、迁移时,采集策略自动进行匹配,无需人工干预。

2.云 络流量采集客户端:部署在每一个计算节点上负责接收控制器下发的采集策略,实现对虚机流量采集、流量按需分发、复制、切片、去重等优化功能,并通过独立的主机 卡与现有的流量采集平台建立VxLAN隧道,将流量吐给现有流量采集平台(或 络交换机),实现云 络采集流量和传统 络采集流量的统一管理。

云环境下的流量采集实践效果

经过优化,云环境下的虚拟流量采集平台已在我行分行测试云中成功试点,并与我行现有流量采集平台实现了无缝对接,目前运行稳定。该平台的成功上线,扩展了我行现有流量采集平台的功能和监控范围,解决了云环境中流量采集的各类痛点问题。

1.云平台资源自动发现和关联:通过API与OpenStack云平台无缝对接,控制器可以自动发现云平台中的各类资源,包括区域、用户、VPC、子 、路由器、虚拟机等,并以直观的方式展现给 络管理员。另外,结合采集器的监控和采集功能,可以基于各个维度可视化展现当前云环境中的资源使用和流量监控情况,方便运维人员随时掌握云环境中的流量采集和资源部署情况。例如可以基于VPC建立 段、虚机及IP的映射关系,并实时监控虚机的监控部署情况及流量。

2.灵活的采集策略:采集客户端是运行于计算节点的用户态进程,资源占用低并且具备完整的流量预处理能力。采集客户端部署实施时无需对现有系统进行改造,对生产系统的依赖和影响降到了最低,满足在大规模虚拟 络环境中部署零依赖、策略零干扰、资源消耗低等特性。通过从软件控制器获取采集规则,实现精细采集和引流控制。采集客户端采集规则可以基于IP、IP段、虚机、子 、端口等多角度进行采集,另外也可以创建自定义资源组进行采集。采集客户端也可以镜像全部 络流量或根据具备需求只截取 络包头数据转发给后端系统进行分析处理;另外采集客户端还提供多点差异化分发功能,如可对于同一份采集的流量根据不同的需求匹配不同的优化策略(如过滤、切包、去重等)分发给不同的分析工具。采集客户端组件和流量分发交换机之间自动建立VxLAN隧道,并将指定流量通过VxLAN隧道转发给流量分发交换机或目标分析工具。

3.过载保护机制:基于宿主机部署采集客户端的方式虽然部署简单,对业务虚机、虚机交换机无侵扰,但相对传统的交换机镜像完全旁路的模式,其部署在宿主机上,自身的稳定性仍可能对宿主机产生一定的影响。为了解决此问题,我行针对采集器基于CPU/内存资源占用及采集性能单独设置了过载保护机制,当超过阀值后采集器将自动停止采集以规避对宿主机的影响,过载保护机制的设置既可以基于单个采集客户端区别化配置,也可以基于所有采集器统一设置。

展望

云环境下的流量采集平台虽已解决了当前云环境中流量采集的诸多问题,但目前我行云环境下的流量采集还处于初级阶段,平台功能还需要结合实际运维需求不断完善,比如多云支持、性能提升、平台自身监控功能等。

随着容器、微隔离、分布式负载均衡在云环境中的推广和应用,必然会给云环境中的流量采集带来新的挑战, 络流量采集平台需要紧跟新技术的发展路线,不断扩展其功能。目前我行已实现云环境和虚拟化平台下的流量采集功能,后续我行将积极探索容器平台、微隔离、分布式负载均衡等环境下的流量采集方案,不断优化现有平台功能,满足新环境下的业务连续性和运维要求。

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2019年11月17日
下一篇 2019年11月17日

相关推荐