摘要:随着交通运输信息化深入发展,深层次数据共享的需求越来越强烈,迫切需要建设信息资源交换共享体系。文中首先介绍了交通运输行业信息化的现状和问题,分析了交通运输行业数据中心数据采集交换原则、数据采集交换内容与特点以及数据采集交换方案,提出了数据采集交换体系架构,并针对交通运输行业特性设计了数据采集交换平台,对提出的数据采集交换体系在实际项目中的应用情况进行了简要说明。
关键词:交通运输;数据中心;数据资源;数据采集交换;交换共享
伴随着现代科技的快速发展,信息技术在交通运输行业的应用不断渗透和深入,经过多年发展,我国交通运输信息化已经取得了全面进展,建立了公路建设、路网管理、水运、民航等许多业务应用系统,编制了《交通行业信息标准体系》、《2007—2010年公路水路交通信息化标准建设方案》等,建设了长江沿线、高速公路光纤网、海事卫星、VSAT、江海岸VHF电台、COSPAS\SAR-SAT(国际搜救卫星)等通信系统,租用公网实现了交通运输部与42个省厅级单位、80多个大中型港口、21个省级道路运输管理机构以及180个政务信息报送单位的行业信息专网的连通,搭建了便捷、可靠、安全的信息通信基础网络平台。在交通运输信息化建设的前期,各级交通运输主管部门的信息化建设大多围绕各自单位或部门的业务主线进行,这些应用系统的建设极大的提升了交通运输行业管理部门的服务能力与管理水平,但随着行业信息化建设进程的逐步深入,交通运输行业信息化发展中“散”的问题逐步凸显出来,“散”不仅表现在信息资源不共享、软件平台不统一、硬件设备不集约等方面,而且表现在部门间、区域间利用信息化手段解决管理和服务还处在各自为战的初级阶段,这一“散”的特性使得各个部门间甚至部门内形成了一个个 “信息孤岛”,大量的数据得不到充分的利用,无法满足综合业务管理、公众信息服务、和政府决策数据支持的需要,不能有效支撑行业进一步发展。解决这一问题,进而提升信息资源利用效率,推进交通运输行业的公众综合服务、业务协同以及综合分析的关键在于确定合适的数据中心数据采集交换体系。
充分了解数据采集交换内容与特点是确定数据采集交换体系架构的前提,交通运输数据中心采集交换的数据主要为各类业务数据,由于交通运输行业业务种类繁多,彼此关系复杂,所以相应的业务数据也呈现出分布式、异构性、多种协议、平台多样性以及跨网络的特性。交通运输数据中心的数据质量很大程度上取决于源头系统的数据质量,为了保证数据的高质量,在交通运输数据采集交换中需尽量减少现有业务系统中数据的不规范、不准确、不完整等质量问题。交通运输数据中心执行数据采集交换的源头系统绝大部分都是生产系统,对行业管理发挥着重要的作用,所以在数据采集交换中的数据采集、交换、共享不能破坏和影响现有系统正常运行。此外,为了避免给生产系统带来太多负担,在进行数据采集与交换时应尽量本着一次录入多次复用的原则进行相关数据采集。“标准”在各类数据中心的建设中起着至关重要的作用,对于各类交通运输数据中心建设中需采集交换的数据,其也需要遵循相关数据标准和规范进行组织和使用,避免产生新的信息孤岛。安全与经济是任何工程建设都必须考虑的2个方面,在进行数据中心的数据采集交换建设时候,不仅仅需考虑采集过程中对现有系统安全性问题,还需要考虑数据在传输、使用过程中的安全性问题。
此外,在数据采集、交换、共享过程中最大可能利用现有的资源和条件,避免投资浪费。当前,数据采集交换主要可基于数据库管理软件本身的功能、中间数据库管理软件以及中间件技术3种方式实现。通过对比各类数据采集交换方案,在数据采集交换原则的约束下,结合交通运输数据中心交换主体众多、交换内容复杂、未来需求发展变化快速的特点,为了保证数据交换的准确性、安全性与实时性,在构建交通运输数据中心数据采集交换体系时,建议采用成熟的商业中间件技术、采用SOA面向服务的方法来构建。
数据采集交换体系是数据中心的核心,是建设数据中心的依据与保障,其体现了数据采集、数据处理以及数据交换与装载等过程。基于数据采集交换原则、内容以及方案的要求,交通运输数据中心数据采集交换体系可分为源数据层、共享数据库层、数据交换层、目的数据层、标准规范和保障体系六大部分。
源数据层描述了数据中心建设中涉及的各类数据源,其作用体现在对数据源范围的清晰界定。从数据类型分析,数据源可分为应用系统数据源和非应用系统数据源两类。一般而言,应用系统数据源都由结构化数据组成。非应用系统数据源又可分为结构化数据源与非结构化数据源两类,其中结构化数据源包含有行业内数据中心与行业外数据中心,而非结构化数据源又可分为电子报表、Excel、文档以及多媒体等多类。针对各类数据的不同特性,我们可以分别使用数据抽取、数据推送以及数据录入3种方式实现数据从源头向共享数据库的交换。但由于此方式需要直连数据库,所以不适用于安全级别较高的业务系统,选择此方式执行数据采集交换时,数据中心的共享数据库在数据采集交换过程中占据着主导地位。数据推送是指业务系统在“数据采集交换标准规范”约束下,利用定制的数据服务将数据推送到共享库的过程,此方式适于任何一类数据,但此类方式需按共享库要求对源头数据进行简单的转换与封装。相对于数据抽取而言,此类数据采集交换方式由于不需要直接连接数据库,所以安全级别较高,选择此类数据采集交换方式即表示数据源将在数据交换中占据主导地位。数据录入一般适用于非应用系统数据源中的非结构化数据,对于此类目前没有形成数据库形式的各类交通运输数据资源,可以依托数据采集管理接口(分级维护子系统)进行录入,从而最终实现共享库从数据源的数据采集与交换。
依照存储的数据类型与数据存储方式的不同,数据中心可分为基础数据库、业务数据库、主题数据库、元数据库以及共享数据库五部分。其中,共享数据库处于数据采集交换体系的最前沿,其直接通过各种数据采集交换方式从数据源获取数据。出于安全性的考虑,一般而言,共享数据库从物理上与数据中心其他的,其位于前置服务器上。从功能角度看,共享数据库可分为数据预处理区与操作数据区(ODS区)2部分,数据预计处理区的主要作用是对各类数据源的数据依照“数据采集交换标准规范”要求进行预处理,而操作数据区内主要保存的是预处理完等待交换到数据中心中的数据或依据各业务部门需求而申请的从数据中心下发到各个业务部门的数据。
数据交换层是数据采集交换体系的核心层,其作用主要体现在数据的双向交换上。从数据采集交换体系架构看,交通运输数据中心的数据交换层应依托数据采集交换平台实现。
当以各业务部门为数据源头时,目的数据层是数据交换体系的目的端,而当执行数据下发时,目的数据层又可看作为数据的源端。目的数据层包括了基础数据库、业务数据库和主题数据库3类数据库,一般而言,此3类数据库可以是物理分散的数据库,也可以是物理聚合、逻辑独立的数据库,具体结构可依据负载、网络环境等因素综合考虑决定。
目的数据层中基础数据库和业务数据库的数据直接来源为数据采集交换平台,共享数据库中操作数据区域的数据经数据交换和整合平台的抽取、清洗和标准化后依据数据类别不同而分别装载到目的数据层的基础数据库或业务数据库。主题数据库的数据来源于目的数据层的基础数据库和业务数据库,基础数据库和业务数据库的数据经过业务逻辑处理后依照主题不同分别装载到不同的主题数据库中。数据采集交换标准规范的主要作用是从技术角度对数据的采集交换进行约束。以国家和行业标准为参考,结合各地行业现状为基础进行制定,具体包括数据组织规范、数据采集交换标准、元数据标准、全域数据模型等内容。数据采集交换保障体系是数据交换体系的外在保障,与数据采集交换标准规范不同,数据采集交换保障体系是从管理手段对数据采集交换进行约束,此体系的建立可从数据更新机制和采集交换安全保障机制两方面开展。
数据采集交换平台是数据采集交换体系的中枢,其承担着从数据源、共享库采集交换数据的重任,选择合适的数据采集交换平台对于数据中心采集交换体系极为重要。基于交通运输行业数据中心的交换内容与特点综合考虑,适宜于交通运输数据中心的数据采集交换平台应由集成开发工具、监控管理中心、资源中心、运行环境逻辑节点、便于应用集成开发的组件和套件及企业服务总线等几部分架构而成。作为交通运输数据中心的中枢部分,数据采集交换平台应具有异构数据源支持、实时同步、批量数据转换以及基于企业服务总线等特征。对照交换运输行业数据采集交换内容与特点了解到,交通运输行业数据中心建设中需采集的数据多种多样,所以数据采集交换平台必具有较强的异构数据源支持能力。对于结构化数据或半结构化数据,数据采集交换平台可基于XML,通过数据实时同步、ESB服务总线、批量数据转换等方式实现数据采集交换,而非结构化数据可通过FTP、应用接口开发等技术手段实现。数据实时复制可以实现可靠的、实时的、异构系统间的数据捕获、路由、转换、传输,并确保事务一致性,适用于业务系统间、跨区域间小数据量、实时或准实时的数据交换共享,如采用消息中间件方式。
复制过程通过对多个独立组件组合、配置形成不同的解决方案,每个组件完成自己的任务,每个任务包括:捕获,追踪文件和投递3种功能。捕获组件置于源数据库内,实时监控事务活动。捕获组件从事务日志中将增、删、改操作的结果读出并准备将其发布,其应支持主流的操作系统与主流的数据库。捕获组件通过传输已提交的事务来减少网络压力,并且通过将事务的组合化和压缩化提高传输性能。追踪文件组件是平台队列机构的一部分,可以在源端和目的端。组件包含主点上的变更数据操作信息,并将这些信息存储成平台独立的数据格式。在数据库外确保异构性、高可靠性和最少数据丢失。因为没有附加的表或者额外的查询用于捕获数据,从而最小化的影响源系统。平台首先读取系统日志,然后将捕获的数据移动到数据库外部的追踪文件组件上,从而为递送到目标数据库做准备。
追踪文件记录最新的变化数据,即使在源端或者目标端出现掉电情况,电力恢复后也可以马上应用到目标数据库上。投递组件从追踪文件组件中获取到最新变化的数据,并且将这些数据通过SQL语句方式应用到目标数据库上。投递组件可以确保事务的顺序不会交错,并且确保事务的一致性和参照完整性。在交通运输数据中心交换体系中,源库是通过数据实时复制平台以数据同步的模式采集而形成的共享库,而数据抽取工作是从共享库执行数据抽取,是进行转换前的加载准备工作。数据转换是将从共享库抽取的数据按照数据采集交换标准规范中全域数据模型的要求,进行数据的转换、清洗、拆分、合并等处理,保证来自不同系统、不同格式的数据的一致性和完整性。数据加载是指把从数据源系统中抽取、转换后的数据按数据类别的不同分别加载到基础数据库或业务数据库的过程。
随着信息化技术的不断发展,数据采集交换技术也逐渐变得完善、成熟、智能。从早期的点对点的集成模式,发展到现如今的以企业服务总线为核心的数据交换,综合考虑交通运输行业数据采集交换原则、内容及其特点,企业服务总线技术是最符合交通运输行业现状的数据交换模式。交通运输数据中心数据采集交换体系的建设需要企业服务总线作为核心,提供动态路由、协议转换等功能。如果数据中心的目录体系是“点菜菜单”的话,那么数据采集交换体系就是“服务员”,它是完成 “食物”(即数据)从“厨师”(即数据生产者)到“顾客”(数据消费者)的搬运过程。如何实现动态的、智能的、松耦合的搬运是关键。企业服务总线能够做到基于内容的路由,根据生产者发布的数据内容及消费者请求的内容,动态的将数据路由给消费者,建立两者的调用管理。通过企业服务总线,消费者并不关心调用的数据来自哪个生产者,也无需关心发布的数据协议等问题,所有问题都由企业服务总线进行封装,对这两者来说是透明的。