会员动态丨拍拍信:TechFin背后的大数据与AI

文慧荣 2018-02-08

微信图片_20180207160112.png

FinTech是大家耳熟能详的概念,而TechFin则比较陌生,简单来说FinTech是场景方,是Finance with Technology,而TechFin是Technology for Finance,更多的是为FinTech提供专业能力输出的,拍拍信就是典型的TechFin。

 

TechFin所期望帮助场景方达到的业务目标包含

1. 使用户满意:增强用户满意,洞察用户的需求

2. 降低成本:优化流程,减少中间环节,风险控制

3. 增加收入:有竞争力的产品,更好的获客,更好的产品推荐

4. 最重要的是产生了新的机会,包含新场景和业务模式

 

为了达到这些业务目标,TechFin需要具备数据,算法,计算的三大能力,就是有数据,能把业务问题抽象到算法问题,能够精准快速的最优化算法。最终希望形成更多数据-->更好产品-->更多用户的一个正向循环。

 

在互联网时代数据的维度上和样本的数量上都是很大的,但是这些数据是有壁垒的,拍拍信一直在通过与众多行业领军企业进行深度合作,借助技术的力量,如区块链来解决数据上的信任问题,进而突破数据的壁垒。目前在多维度的信用评级上已经取得了不错的成绩,在实际风控场景中效果显著;同时拍拍信在推动跨行业的联合反欺诈,整合反欺诈的数据资源和历史经验,全面提升各行业的反欺诈效果,同时降低反欺诈成本。

 

在算法能力方面,拍拍信一直在努力建设一套智能的自动化机器学习流,从数据整合-->特征提取-->模型调优-->模型部署-->模型自学习,在尽量少的人工干预下,得到精确而稳定的模型。这个过程当中我们需要应对数据所带来的挑战,这些挑战包括多模态的数据源,时间序列上的行为和网络化的实体关系。

例如在下图中:t3时刻在A拍的一张照片里出现了B,t5时刻C拍了一段视频并@了B,t1时刻B给C写了封信。可以发现,数据类型已经从纯数字衍变为文本、照片、视频、音乐等多种形式。六度空间理论已经缩短到四度空间,人与人的关联更为复杂化,导致关联的事件呈多样性,发生的时刻也不同,给数据处理、存储、模型、线上计算带来更大挑战。

 图片1.png

针对这些挑战,拍拍信建立了基于深度学习的自动化的特征提取机制,这当中包含

1. 文本的NLP,语音识别,图片OCR,场景识别,这当中已经使用了很多预训练的模型

2. 基于CNN的结构化特征提取

3. 基于RNN时序特征提取

4. 基于网络聚合,网络表示和PageRank的网络信息提取,这一部分是在知识图谱中实现的

这些机器自动生成的特征和专家根据经验提取的特征在模型中得到充分的融合。

特征提取后的关键工作就是模型超参数的自动化调优,我们采用了Byesian优化器,这种超参优化方法同样适用于深度学习的网络优化,如全连接和卷积的层数和Dropout的rate。这使得我们能够在大的超空间中逼近全局的最优模型结构,同时极大的提高了调参的效率。

 

特别补充讲一下知识图谱的使用,在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。有了知识图谱,每个实体就不在是孤立的,很多的信息是隐含在这些连接当中的,知识图谱通过把所有异构的信息连接在一张关系网络中,使得挖掘“关系”背后的信息称为可能。知识图谱从业务的角度来看,解决了谁和谁关联,什么性质的关联,关联到的人有什么样的属性,这里面逻辑还是很清晰的,这里面有三个层次的应用:

1. 智能化搜索和可视化,如关系网络可视化的异构关联信息的快速检索,为人工审核提供直观参考;

2. 多层关系的历史风险表现的查询,可以根据某种节点类型在限定的层数中,按照某些类型的联系,查询一定时间窗里的属性并进行聚合;

3. 第三层次是对用户在网络中的位置的抽象和表示,将网络关系抽象成了模型可以消化的结构化向量,此外这种抽象表示可以应用在客户分群和异常客户检测上,而只有这个层次才能够支撑自动化的特征提取。

知识图谱使得我们对数据和信息有了集中化的整合,自动化的机器学习流使得从数据到支撑决策成为可能,然而离业务全流程的智能化自动决策还有明显的距离,目前的决策支持都是分段的,这就需要我们站在全局的角度,如整个产品生命周期的角度来构建并实现端到端的全局优化,这是一个系统工程,这当中会涉及到test and learn和基于增强学习的策略优化。

 

产品案例:

拍拍信自主研发的一站式反欺诈风控平台---风控云系统:

风控云是由拥有多年互联网金融行业风控管理经验的拍拍信专家团队精准切入线上风控痛点,对海量多维数据进行了大量挖掘分析,并结合以往服务的各个线上场景的客户实际需求与业务表现,自主研发。由规则引擎、大数据模型、反欺诈和人工智能(除了在大数据模型中已经涉及的深度学习、在线学习、迁移学习、集成学习和增强学习以外,风控云系统还采用了对抗学习来应对坏样本稀疏的特点,并且在无监督学习识别欺诈行为上做了尝试和落地,同时风控云集成了一系列的AI应用,如人脸识别、活体识别和背景相似度识别应用等。)等四大模块构成、将海量基础数据与先进算法分析与挖掘充分结合的一站式风控系统。

为企业客户提供贷前认证服务、反欺诈服务、模型评分、风险定价、授信给额策略、贷中风险监控和预警、贷后管理、资产回收策略等风控服务,帮助客户识别和规避从贷款申请到资产回收全流程中的风险,亦可根据客户需求对现有反欺诈、授信等策略进行优化。

风控云有别于传统金融机构的信贷风控体系,传统金融的风控主要采用强相关的金融数据,数据维度一般在几十个左右,其中信用相关程度强的数据维度为十个左右,包含年龄,职业,收入、工作单位等。金融企业通过多重审核参与为用户提交的数据进行打分,最后得到申请人的信用评分,依据评分高低来决定授信情况。

拍拍信研发的风控云一方面不断丰富传统风控数据的维度,另一方面优化传统金融的风控技术,有效帮助企业识别借款人风险。风控云的数据覆盖率越广,用户的“误杀率”越低,输出的信用评分就会更加客观、更接近借款人的实际风险。风控云的研发和使用实现了系统的定期策略优化和广泛的适用范围,大大提高了企业用户的使用便捷性。