银行数据仓库的系统架构是什么？看这篇足矣( 二 ) _数据仓库

（2）HADOOP平台：HADOOP平台支持结构化数据和非结构化数据的存储和计算。由于MPP数据库价格高，且扩展性也有一定局限。很难满足互联网公司超大数据量及非结构化数据的计算需求，因此HADOOP软件生态体系应运而生并发展越来越成熟，成为互联网公司大数据处理的标配平台。2015年左右，随着HADOOP平台的完善及商用（商用版本如华为、星环科技；开源版本如CLOUDERA、Hortonworks），银行也逐步使用HADOOP平台和MPP数据一起作为数据仓库的存储和计算平台。其中批量计算一般使用HIVE和SPARK，流计算一般使用STORM和SPARKSTREAMING，机器学习可以采用HADOOP生态的SPARKMLLIB、MAHOUT，也可以使用TENSORFLOW、SAS、R等支持HADOOP平台专门的机器学习工具，目前许多公司在研发推出的人工智能平台（机器学习建模平台）也都把HADOOP平台作为数据存储和计算平台，如第四范式、星环科技等。

文章插图

4、数据服务：数据服务主要指如何为银行其它系统提供数据服务，随着数据仓库体系的发展，数据仓库不仅仅能按批量的方式提供数据计算结果，还可以实时提供数据服务。
（1）批量接口：按约定的接口方式将数据批量提供给数据应用系统，一般每天1次，可以按文件的方式放到约定的服务器，也可以通过数据采集部分提到的ETL工具直接将数据同步到应用系统的数据库中。
（2）在线查询：提供实时查询的接口，并发布到银行交易总线，由其他业务系统或数据系统实时调用，比如银行的每年的账单总结（类似支付宝每年账单）一般由数据仓库根据每个客户1年的交易流水，统计出转账、消费、收入等数据并提供给渠道系统如手机银行、网上银行进行展示。那在技术实现方面，接口服务开发一般按各行的开发规范来实现，如web service或http+xml，大部分银行使用JAVA进行开发，如果接口TPS不高，一般的MPP数据库也足够支持，无需进行数据移动，如果TPS比较高，可以将数据加工结果放到HADOOP HBASE进行数据存储和查询。
（3）实时同步：实时同步主要是实时数据流计算后将结果实时同步给数据使用系统，同时将结果发布到QUEUE中，由目标系统进行订阅，实时获取。

文章插图

5、数据应用：数据应用主要是将数据通过数据服务提供给各应用系统，由各系统进行数据分析和成果展示。那主要有以下几类：
（1）数据应用系统：主要指使用数据的系统，在银行包括客户关系管理、管理会计、绩效管理、新资本协议系统群等数据系统，也包括核心、贷款等交易系统。
（2）报表平台：报表平台能将数据快速展示成图表、能通过建立数据立方体（CUBE）提供数据钻取（向上或向下变换数据分析维度）功能，方便业务人员快速查询和分析数据。那报表工具目前商用的比较成熟，展示也更美观，常见的有Finereport、TABLEAU等，开源的报表工具功能较弱，常用的有birt、ireport、jasperreport、KYLIN（基于hadoop建立CUBE）等。
（3）分析探索：有的银行也叫数据实验室或分析集市，主要指提供给业务人员自行分析的平台，银行业务部门的分析人员经常使用SQL自行分析数据，也会使用SAS或R、Python进行数据挖掘，随着AI技术的深入，也逐步在尝试TENSORFLOW等深度学习的工具来分析银行数据。由于数据分析工作时间不固定，且消耗计算资源较大，因此一般都是单独给业务人员搭建一套或多套的分析环境，每套环境包括HADOOP或数据库作为数据存储，SAS、R、TENSORFLOW等作为分析引擎。同时还需要定期（一般T+1）更新分析环境的数据，提高数据分析的及时性。