信用卡欺诈数据的分析-excel篇

本篇文章为大家提供了数据集分析的思路和步骤,同时也分享了自己的经验。

一、背景

反欺诈是一项识别服务,是对交易诈骗、网络诈骗、电话诈骗、盗卡盗号等行为的一项风险识别。其核心是通过大数据的收集、分析和处理,建立反欺诈信用评分和反欺诈模型,解决不同场景中的风险问题。

国内常见的提供反欺诈服务的公司有:同盾科技,百融金服,众安保险的 Xmodel,腾讯的天御借贷反欺诈 AF,阿里云的云盾,蚂蚁金服的蚁盾;模式多为 Sass 服务,产品形态为客户端控制台 + 服务端调用反欺诈 API。

二、数据集分析

数据样本为 2013 年 9 月欧洲持卡人在两天内进行的 284,808 笔信用卡交易,其中 493 笔是欺诈交易。数据集非常不平衡,被盗刷占所有交易的 0.173%。
它只包含作为 PCA 转换结果的数字输入变量。不幸的是,由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。
特征 V1,V2,… V28 是使用 PCA 获得的主要组件,没有用 PCA 转换的唯一特征是“时间”和“量”。
特征“时间”包含数据集中每个事务和第一个事务之间经过的秒数。特征“金额”是交易金额,此特征可用于实例依赖的成本认知学习。特征“类”是响应变量,如果发生被盗刷,则取值 1,否则为 0。
数据来源:https://www.kaggle.com/mlg-ulb/creditcardfraud/kernels
包含: Time(交易时间,需将 s 转化为 hh-mm-ss 形式),V1~V28(经 PCA 转换后的数字变量),Amount(交易金额),Class(交易类型,1 为欺诈,0 为正常)

三、分析思路

在已知欺诈交易和非欺诈交易的情况下,分析两类的交易指标的四分位数、最大值、最小值、标准差、方差;四分位数和最大最小值可以绘制出该指标的箱线图,找出离群点,也可以观察出该指标中数据的离散程度;
通过方差观察该指标数据的稳定程度,通过标准差观察该指标数据的偏离程度,一般都应符合正态分布;做出图形后,观察欺诈交易在图形中的分布;
通过时间分析,寻找欺诈交易在哪些时间点发生的概率更高;
通过金额分析,寻找欺诈交易金额在哪个区间范围内概率更高,对比非欺诈交易金额的区间范围 i;
通过对 V1~V28 的分析,寻找该字段下欺诈交易与非欺诈交易各自的规则;
通过以上的分析,寻找欺诈交易和非欺诈交易的各自特性,当有新的一笔交易进入时,判断其属于哪一类的概率更高;
由于数据集受限,如果能对单个交易账户分析,在数据中增加交易地点、交易商户类别、交易频率的指标都可以使得分析更全面。

四、分析步骤

第一步:检查数据,是否有缺失值,数据类型是否符合将要进行的分析,结果为无缺失值,同时将欺诈交易与正常交易区分为两个工作表,方便后面分析;数据总计为 28.4 万条;
第二步:将时间换算为小时,总计为 48 小时,以 1 小时为间隔进行分组;

1. 分析交易时间与交易量的关系





正常交易特点:
正常交易分布聚集度明显,主要 集中 在 上午 9 点 - 下午 23 点 ,在 凌晨 0 点 - 上午 7 点 交易量较 低 。
欺诈交易特点:
欺诈交易的 时间离散度高 ,但在 峰值 迹象出现在两天的 凌晨 2-3 点 , 第一天的 11-12 点 ,在 上午 7-12 点 , 下午 2-10 点 ,两个时间段的总量分别为 88 笔、97 笔,且每 1 小时的交易量都比较平均。
综合以上:
在 凌晨 0 点 -4 点 间的交易,为 欺诈交易的概率高 ;在上午 9 点 - 下午 10 点间,欺诈交易多伪装成正常交易。

2. 分析交易金额与交易量的关系







从交易金额与交易量中明显看出,无论是欺诈交易还是正常交易,单笔交易金额都比较低,大量聚集在 100 元以下,将交易金额下钻至 0-500 元范围内,对比欺诈交易与正常交易的特点。
正常交易:
正常交易共 284315 笔,单笔最大值为 25,691.16,其中 单笔 500 元以下 的交易共有 27.5 万笔 ,占交易总量的 96.8% 。
欺诈交易:
欺诈交易共 492 笔,单笔最大值为 2,125.87,单笔金额多为 50 元以下 ,总计 305 笔 占欺诈交易总量的 62% ,其中 10 元以下 共 249 笔占欺诈交易总量 50% ,其次为 90-100 元,总计 34 笔。
综合以上:
欺诈交易和正常交易在图形的趋势上相似,都聚集于小额交易,单笔交易金额 50 元以下的为欺诈交易的概率更高。

3. 分析不同交易类型的映射值特点

通过对正常交易与欺诈交易的映射值对比分析,可以建立两种交易的映射值模型。
这批数据的处理过程中着实麻烦,每个字段下有 20 万 + 数据,excel 经常出现崩溃,原本我的思路是得出每个映射值的描述统计,使用切片器在数据透视表中对不同的映射值对应的同一描述统计字段进行视图。
最后改变策略为取映射值在 -1~1 之间,相同数量范围内观察映射值的特点;其实这样做是有缺点的,所取某个范围内的样本不具有普遍代表性。
期间我还尝试过另一种方法,在每个映射值中随机抽取 500 个样本,输出描述统计,与欺诈交易的描述统计作比较,在此就不再上图。





综合以上:
通过对交易金额、交易时间、交易的映射值进行大量数据统计分析,建立欺诈交易和正常交易的模型,当一笔交易进入时,在模型中根据各个特性的得分,得到最终评分,以某阈值为分界点,将交易判定为正常或欺诈。

五、经验分享

  1. 在输出前要明确自己分析的目标和思路,可以做模糊假设,在分析的过程中谨慎求证;输出的结果要检查是否为真,是否符合源数据,避免如数据类型的转换过程中出现错误;
  2. excel 中的数据透视图和数据分析很好用,在数据分析中有其他的方法比如随机抽样,回归等,虽然还不明白,但觉得里面嵌入的功能很多且高级;
  3. 本次数据分析中,并没有使用到太多 vlookup 的关联查询,在之后的练习中找一个关于此类查询进行练习。
     
    作者 @Pine 。