目录
大数据概述
金融大数据分类
银行内部大数据
银行外部大数据
对于零售信贷场景,传统数据主要指银行信贷业务办理过程中正常收集的业务数据,包括客户信息、贷款申请信息、产品信息、合同信息、借据信息以及放款后的提款信息、还款信息、逾期信息等,通常传统数据由实际的业务系统进行采集和存储。
除了传统数据,金融大数据应用越来越普遍,金融大数据即非传统数据,大数据与小数据的比较如下所示:
小数据 | 大数据 | |
收集目的 | 小数据是为特定的、明确的分析目标,制订规划并进行收集、整理、分析的数据,数据与分析目标之间有强逻辑业务关系,小数据亦称强关联数据 | 大数据不一定有明确的分析目标,收集数据范围更广,与业务的关联性弱,大数据亦称弱关联数据 |
数据结构 | 来自不同行业领域,种类复杂,标准和格式种类单一、结构统一,一般是结构化数据 | 一般以非结构化数据、半结构化数据为主 |
生命周期 | 比较短,几乎只有几年时间,待相关问题解决之后,生命周期结束 | 生命周期可以很长,甚至会永久保存 |
分析方法 | 一般采用统计方法进行分析,更关注因果关系 | 数据量大、结构复杂,一般通过分布式方法进行分析,并不严格追求因果关系 |
分析重点 | 一般以个体为分析对象,对个体数据信息进行全方位分析,更关注信息的深度 | 一般以群体为分析对象,处理、分析大范围、大规模的数据,更关注信息的广度 |
大数据分类
内部大数据是银行内部可以自行采集的大数据,
类别 | 说明 |
内部整合 | 整合行内多系统,形成客户的全行统一视图 |
埋点采集 | 通过APP 或网上银行埋点,进行日志采集,特别是行为数据采集 |
外部爬取 | 通过爬虫技术,对外部公开、合法的数据源进行收集,包括但不限于新闻、舆情等 |
场景收集 | 一般以群体为分析对象,处理、分析大范围、大规模的数据,更关注信息的广度 |
银行内部采集大数据,需要考虑如下原则。
除了内部采集,通过采购或合作方式可以更直接和快速地获得外部数据
类别 | 说明 |
金融信用信息基础数据库 | 人行征信、百行征信、朴道征信等合法征信机构 |
政府信用信息数据库 | 主要包括: 1)政府各部门的信用信息,包括司法、质检、药监、环保、税务等 2)国家企业信用信息公示系统,如信用中国 3)地方政府的征信信息 随着国家建立“大数据局”,越来越多的政府数据被统一汇总并对社会有条件开放 |
第三方平台数据信息 | 主要包括电商、电信、银联、社交网络、网络行为、外部风险评分产品以及其他数据 |
需要特别注意的是,对于个人征信数据,因为其特殊性,只有政府机构和合法的持牌的个人征信机构才可以采集、存储并提供对外服务。