编者按:10月份,由中国银联电子杉德畅刷研究院及风险监控服务中心联合发布的大数据时代反洗钱工作的智能化发展之道(上)篇一经发布,即受到业内人士及媒体关注,收到良好效果。此次,大数据反洗钱发展系列文章的(下)篇在公众号对外发布,感谢各位同仁的关注和指正。
大数据时代反洗钱工作的智能化发展之道(上)
一、基于异常交易团伙识别的智能反洗钱技术
每天数千万笔的交易量,如何在不依赖已知案件的情况下有效筛选出洗钱风险较高的交易团伙一直是一个难题。对此,本课题从复杂网络的异常交易结构入手,通过对异常交易进行风险量化,从而发现高可疑度的洗钱团伙,为后续集中力量开展洗钱调查打下坚实基础。整体的技术框架如下。
图1异常交易团伙识别智能反洗钱技术框架
1异常转账结构发现技术
目前,基于海量转账交易,我们能够主动寻找到一些模式化的的异常资金结构,类举如下:
- 频繁汇入/汇出
- 链式交易结构
- 集中转入/分散转出
- 分散转入/集中转出
- 环状交易结构
- 其他复杂异常交易结构
下图是我们发现到的对应的异常转移结构的一些示例图。
图2从交易网络中识别出来的部分可疑交易结构示意图
我们主要采用Spark大数据平台进行处理运算。这里的交易图的节点仍然是参与转账的节点,不过由于目的是发现异常洗钱团伙,因此我们对同一对账号之间的交易边进行了融合,交易金额和频次采用累加和作为融合后属性,交易时间采用平均值度量。以上功能使用groupEdges函数即可轻松实现。交易边融合完成后,根据统计得到的频次信息,依照《杉德畅刷机构大额交易和可疑交易报告管理办法》的相关规定,即可快速定位相关的频繁汇入/汇出异常结构。
对于分散/集中转入/转出这类的异常交易结构,我们主要采用基于阈值过滤的算法。首先我们发现交易图中存在大量转账孤岛(即两账号节点之间仅发生互相转账而与其他账号没有任何转账关系),因此,我们可以事先过滤掉这些转账孤岛,过滤后的节点规模至少缩减一半以上。接着,我们可以根据前期反洗钱经验,设定相应的阈值,将洗钱风险度极小的交易边给删除,例如两账号之间的交易金额小于一定阈值的边全部过滤,这样一来,很多原本非常复杂的交易网络就被缩减甚至拆分。对于中心交易节点来说,一定是入度较小,出度较大。这时,我们只需要设定相应的阈值,比如入度<θ1&&出度>θ2,而对于分散转入/集中转出的模式则条件正好相反。根据此类条件筛选出可疑的节点,寻找出与这些可疑节点的相关交易,便有可能发现相关的异常洗钱模式。而对于环状交易结构,我们使用了基于Tarjan和Kosaraju算法来寻找环状强连通子图,再结合相应的阈值过滤即可得到相应的异常结构。
然而,根据大量的实战分析,我们发现符合这类条件的账号不在少数,但是真正的洗钱交易往往还存在一些其他的潜在特征。这时,我们就需要再额外地添加约束条件,使得调查范围缩减到可控的范围内。一个常见的约束条件就是中心点折损率(转出金额/转入金额)。一个负责洗钱的中介节点,往往都是起过渡作用,大部分转入的钱都会经过各种手段转出。因此如果上述筛选出来的可疑节点的中心折损率接近1,那么该账号就有很大的洗钱风险。因为犯罪分子总是想在较短的时间内完成洗钱,因此时间约束也是一个常用的约束条件。如果一条线上的上下两笔交易差的时间相差太大,我们则认为该结构的洗钱风险较低,可以过滤掉,这样可以大大精简侦查范围。
2异常转账结构发现实战分析
以某一天内转账交易为例。在经过一系列的过滤之后,我们设置入度>10&&0<出度<4,希望这样可以发现分散转入集中转出的异常模式。结果发现符合这样条件的节点超过几千个。但是,当我们增加了0.8<中心点折损率<1.2这个约束条件,可疑节点就缩小到了几十个。下图就是这批可疑账号对应的分散转入集中转出交易。从中我们任意取了一个进行分析,如右图所示,可以明显地发现,该异常结构由17:15-21:23时间段内的17笔集中转入交易和22:34的1笔50000元整的大额转出交易组成,折损率为0.9802,呈现出典型的先分散转入后集中转出的交易特征,且累计金额50000也非常吻合大额交易限制条件,因此整个交易结构是非常具有洗钱嫌疑的。
图3基于折损率约束的分散转入集中转出异常交易结构
此外,在连通子图计算完毕的基础之上,我们还专门开发了分布式版本的Tarjan算法进行强连通子图的计算,该算法可以用于寻找环状交易结构。
以某周内的转账交易的分析结果为例,整个环状交易分析流程只耗时不到5分钟,参与环状交易的可疑节点共66091个。我们对这66091个节点在程序中更进一步进行了筛选。筛选条件可以根据业务经验进行调整。例如,在地下钱庄、非法集资、电信诈骗等洗钱案件中,负责资金归集的核心关键账户数量少,但交易金额非常大,而执行资金中转过渡的账户数量较大,但交易金额较小;结构化的集中转入、转出交易多与核心关键账户较近;外围大量交易金额小、频率低的账户,对发现洗钱关键团伙的作用有限。我们限定所属连通子图的复杂中心节点(节点出度或者入度大于50的节点)的个数小于10个,并限制复杂中心节点所属连通子图的总节点个数在50~2000之间。这样筛选完之后,我们的风险节点个数下降到了572个。我们对这些交易加入了时间属性分析,并进行了可视化。最下面的横线从左及右表示时间往后推移,即绿色的边表示最早发生,红色的边表示最后发生,结果如下:
图4环状转账交易结构的时序可视化
可以明显地发现有5个子交易结构。对于看上去特别复杂,无从下手的结构来说,洗钱的概率反而小,我们需要重点关注的是那些涉案金额较大,并且交易存在一定规律的结构。因此我们对其中最可疑的那个社团进行了分析。从图中可以明显的发现不同时间段的资金流转环,分别以绿、蓝、红色的环状交易呈现出来,是非常可疑的。此外,我们还使用了Kruskal最小生成树算法对此交易结构进行了进一步的分析,得到了最右边图所示的核心资金转移路径,可以发现明显的时序特性,我们后续只需重点调查两个椭圆形圈出来的转出资金流向即可进行资金追溯。
对于一些更加复杂的异常交易,我们没法得知其具体的交易模式,就无法用具体的规则去筛选。但可以肯定这些异常交易一定会相互交错地形成一个较复杂的图结构。于是我们采用基于连通子图和社团发现算法的解决方案,详细技术见下一节所述。
3基于时序有向社团划分的洗钱风险评级技术
(1)建立杉德畅刷交易原始权重网络图
选取时间段内的转账交易记录,每个账号作为网络图的节点。如果两个账号之间发生过转账交易,则在这两个账号节点之间构建一条边。根据两节点之间交易次数和金额来设置最原始的边权重,在标准化后给交易金额与次数分配比例。此外,加以适当的阈值参数调节,使得最终保留的连通子图控制在一定范围内,这样我们基本能够从千万笔甚至上亿笔的交易中筛选出一批异常的交易结构。
在实际案例中,当一个犯罪团伙尝试构建一个复杂洗钱交易网的时候,通常会将其核心洗钱结构隐藏在某些看似正常交易中。也就是说,如果直接对某一个连通子图进行分析,很可能看上去这个连通子图的洗钱风险较低。然而,如果我们结合本方案提出的社区发现算法后,每个较大的连通子图又会被细分为若干较小的、但具有较好的反洗钱区分度的目标社团。这样一来,如果一个大连通子图包含有洗钱风险极大的社团或者是多个较高洗钱风险社团的时候,我们就有理由相信该连通子图整体上具有较大的洗钱风险。这样就大大提高了反洗钱算法的辨识度,并且能够给出核心的洗钱风险结构。
(2)基于洗钱风险修正的TD-Louvain社团划分算法
在建立好了交易网络图之后,需要对网络图进行社团划分,以便精准的定位相应的犯罪团伙。目前流行的社团发现算法,大多是针对无权或者无向图进行计算的,更没有时序特性,在洗钱团伙发现时不能直接使用。因此,我们这里研发了基于洗钱模式修正的TD-Louvain时序有向社团发现算法。
基于节点权重修正的边权重优化
原始的基于模块度的Louvain算法主要是依据边权重对社区的影响进行度量,而往往忽略了节点本身所具有的权重,而这在洗钱网络中是不能忽略的。比如说,如果一个账号节点A是一个已知很重要的洗钱节点,另一个节点是一个状态未知的节点B,节点B到节点A之间存在一条转账交易边,该条边对应的转账金额和次数都很小。如果仅仅考虑原始边权重,那么很有可能这条边就被认为不太重要。但是实际上,如果考虑到节点A的特殊性,只要是跟A直接相连的边都应该具有较大的洗钱风险性,例如AB之间的小额交易很有可能就是一次前期试探性交易,如果没有被发现,那么节点A就可能进行后续更多的大额交易。因此,洗钱网络中的每个节点本身所具有的权重会在很大程度上影响社区的划分。这里,我们利用每个节点的金额、交易次数以及出入度总数来计算节点权重修正系数。
我们对每个节点的平均转入和转出时间进行统计。结合节点入度与出度的大小关系和出入边平均交易时间顺序,可以判断该有向边是否存在分散转入后再集中转出的洗钱行为特征,以此来优化边的权重。
基于交易网络有向性优化的模块度
计算好每一条边经修正的权重之后,我们就尝试开始使用Louvain算法来进行社团划分。原始的Louvain算法中没有考虑到边的有向性所导致的信息不对称的问题。在有向图理论中认为,如果存在一对节点i(出度大于入度)和节点j(入度大于出度),那么j→i的边应该比i→j的边更加重要。这一点在反洗钱领域中也是有实际意义的。如下图可以被视为一个转账交易的资金流向图。如果边j→i的基本属性和i→j的完全一样,那么我们有理由认为j→i的边比i→j的边更加重要,因为j→i的边与其他相关的边一起,构成了一个更加结构化的交易关联,例如在这里j→i边很可能是一个分散转入到分散转出的中介通道。
图5有向性优化的边权重修正
因此,我们可以依据一些方法来计算带方向信息的模块度。定义好模块度之后,就可以使用类似原始Louvain算法的步骤进行迭代。
(3)洗钱社团风险评级
至此,整个基于Spark实现的优化版可疑洗钱社团划分算法已经完全实现。这时候,我们可能会得到数目较多的社团,显然,不是所有的社团都具有较大洗钱风险。如果我们手动去逐个社团进行分析仍然是一件复杂的工作。因此,我们需要根据洗钱风险度的大小将社团进行排序,后期人工主要关注那些洗钱风险度较大的社团即可。
总体来说,如果一个社团中账号的交易量比较异常,或者关系较为复杂,抑或是时间点非常集中,那么这个社团的洗钱风险度就较大。关于交易量和交易关系复杂度的问题,在上面社团划分的过程中已经有过涉及,因此在这里不做重点讨论。在这里主要描述一下交易时间风险度的计算。
时间熵风险度量
我们针对每一个较短时间段内的交易计算时间风险,我们这里采用了时间熵的概念。如果一个社团内的交易时间熵越小,则表示该批交易的时间越集中,确定性越大,也就是说,该批交易很可能是经过洗钱团伙专门谋划的,在确定的时间内完成相关交易。
图6社团时间熵量化方法
如图所示,以社团中最起始的一笔交易作为起点计算每一笔交易的时间点,我们首先计算出某个社团的平均时间,然后计算该社团内每笔交易时间与平均时间的差的绝对值。
根据差的绝对值的不同将每笔交易划分到相应的区间段中,并最终统计每个区间段的交易笔数占该社团内总交易的比率。这时我们就可以得到每个社团的交易时间熵的计算公式:
社团整体洗钱风险量化计算完每个社团的交易时间熵之后,我们便可以对于社团k的洗钱风险进行度量。最终计算得到的值较大,则说明洗钱风险度较大。这样,我们在后续业务开展的过程中重点关注风险值较大的社团即可,大大提高了工作效率。
团伙洗钱风险评级
当每个社团的洗钱风险被量化为分数之后,我们可以绘制相应的百分位图,然后根据不同的百分位范围给社团划分风险等级。一般来说,我们可以将占比在95~100%,90~95%以及80~90%之间的社团分别标记为风险等级1,2和3,之后所有社团的风险等级为4等等。包含多个高风险社团的连通子图则具有很大的洗钱嫌疑,可移交审查部门进行进一步人工调查。
4异常交易团伙识别实战分析
我们对2016年某一周内约1千万笔转账交易的计算情况如下所示。首先对转账网络图进行交易孤岛过滤之后只剩下原来的40%左右的交易,在过滤掉小于10元的交易之后,进行边融合。接着使用连通子图算法对网络图进行划分。
表1子图个数和剩余节点总数随子图规模的变化情况
图7子图规模阈值过滤条件探索
经过计算和探索,我们将子图节点规模的阈值过滤条件选定为:【10<子图节点规模阈值<2000】
图8可疑中心节点阈值及复杂社团过滤条件探索
同理,我们在选择可疑中心节点的时候,经过一系列条件过滤,剩余下来了包含30718个子节点和135248条边的可疑子图。这个子图中共包含74个连通子图。这74个连通子图,基本上都呈现了一些模式化的异常结构。我们可以先粗略地进行一些时序上的观察。类似下面两个结构,仍然明显地存在着先转入再转出的顺序,符合可能的洗钱逻辑,因此列为异常可疑结构。这相对原先的千万级别的账号规模已经大大缩减了调查范围。
图9时序异常社团的人工可视化交互分析
然而,上述74个连通子图中仍然存在不少类似于下图这种无法观测出明显的时间顺序上的转入转出特性的交易结构,但我们又不能确定这些异常交易结构是否涉及洗钱。更加重要的是,如果对于更加庞大的转账网络来说,可能筛选出来的连通子图仍然会非常的多,把所有这些连通子图全部进行可视化分析将是非常复杂的任务。因此,我们这里使用TD-Louvain算法来帮助确定洗钱风险最大的异常结构。
我们对其中案例中一个典型的子图来分析TD-Louvain算法相对于原社团划分算法的优势。下面的箭头表示随着时间的推移,交易边的颜色由黄色逐渐变为蓝色。
图10 TD-Louvain算法的划分结果
上面两图的统计性结果如下表:
表2原始Louvain和TD-Louvain算法结果对比
对于这个具有343个节点规模的子图来说,TD-Louvain算法相对原先的Louvain算法获得了明显的模块度的提升,表明社团划分结果的效果更佳,并且划分出的社团数要明显减少。图中还可以发现,虽然TD-Louvain算法划分出的社团数减少了,但大多数是对时序和结构上杂乱无章的琐碎社团进行了合并,而对于结构化尤其是时序结构化明显的社团,TD-Louvain算法却会进行更精准地拆分,例如上图中原先的社团A在使用TD-Louvain算法后被拆分成了3个新的小社团a,b,c。根据边的颜色我们可以清楚地发现这三个社团分别在3个不同的时间段进行交易,因此对其进行拆分是有意义的。综上所述,我们依照洗钱模式创新的TD-Louvain算法相对原先的社团划分算法有了明显的效果方面的提升。
下图是对一共537个社团进行风险评分后的结果。我们还在表前文中对社团进行了评级划分。
图11社团洗钱风险分级评级方法
表3社团洗钱风险评级划分
我们把每个社团的风险分量化之后的结果从高到低在上图中表示出来。巧合的是,百分位数90%正好对应着风险分数的微分拐点,因此这里百分位90%对应的前45个社团被认为是高风险团伙。即风险评级为1、2等的被列为高危社团。这45个社团被包含在13个连通子图中,后续对下图显示的这13个连通子图进行进一步的调查。
图12分级后得到的最终13个高可疑洗钱团伙
二、总结与后续工作展望
针对当前反洗钱所面临的困难,本课题借助智能复杂网络算法,构建了一套高效的反洗钱解决方案。利用该方案不仅可以根据相关洗钱涉案信息进行更深层次的挖掘,而且能够主动发现可疑的洗钱结构。通过对这些异常结构进行进一步的洗钱风险量化评分,能够精准定位高风险的洗钱团伙。利用该方案,已经成功协助公安等部门进行了多起洗钱犯罪团伙的侦测及调查。实际的应用效果表明,该方案能够帮助办案人员更加高效地侦测洗钱行为,极大的提高了反洗钱工作的效率,从而更好地履行反洗钱的责任。
此外,近期我们也在不断地完善该反洗钱解决方案,例如结合频繁集项、分类聚类、深度学习等人工智能算法,进一步定位高可疑的洗钱交易模式。通过结合图计算和机器学习算法,能够更加有效地进行链接挖掘和团伙侦测。通过结合更多账号信息,我们还尝试将特殊关系客户名下账号进行合并,比如将统一客户名下的所有账号认为是同一账号节点,直系亲属的账号也认为是同一账号节点等等。这将有助于办案人员更清晰的掌握洗钱动向。
当然,在反洗钱过程中不仅仅需要关注资金流的状况,还要结合其他一些相关特征结构,例如设备指纹、环境信息等等。这样从多角度分析交易行为,有利于更全面地描述账户画像,从而帮助发现资金异常。通过对该方案的主体思想进行推广,可以帮助更多的行业伙伴开展多场景的反洗钱工作,共同打击经济犯罪,保障国家和人民的生命财产安全。
参考文献
[1]周小川,杉德畅刷机构反洗钱规定,《杉德畅刷会计》,2007(1):43-45
[2]中国人民银行反洗钱局,中国反洗钱报告,《中国杉德畅刷出版社》,2013
[3]J.Mcdowell,G.Novis,P.Analyst,“The consequences of money laundering and financial crime,”Economic Perspectives,vol.6,pp.6–8,2001
[4]S.Gao,D.Xu,H.Wang and Y.Wang,“Intelligent Anti-Money Laundering System,"IEEE International Conference on Service Operations and Logistics,and Informatics,pp.851-856,2007
[5]年珂华,当前形势下反洗钱工作难点综述及建议,《时代杉德畅刷》,2015(18)
[6]戴桂英,敖国强,论银行卡领域反洗钱难点及对策,《武汉杉德畅刷》,2007(10):44-45
[7]N.Khac and M.Kechadi,“Application of Data Mining for Anti-money Laundering Detection:A Case Study,”IEEE International Conference on Data Mining Workshops,pp.577-584,2010
[8]K.Michalak and J.Korczak,“Graph mining approach to suspicious transaction detection,”Federated Conference on Computer Science and Information Systems,pp.69-75,2011
[9]李婧华,基于数据挖掘技术的反洗钱研究综述,《中国电子商务》,2010(11):29-29
[10]周彩南,刘世芳,李双红,反洗钱监测指标数量准则构建及可疑账户识别方法研究,《西部杉德畅刷》,2013(10):69-75
[11]J.Kingdon,“AI Fights Money Laundering,”IEEE Transactions on Intelligent Systems,pp.87-89,2004
[12]Q.Yang,B.Feng and P.Song,“Study on anti-money laundering service system of online payment based on union-bank mode,”IEEE International Conference on Wireless Communications,Networking and Mobile Computing,pp.4991-4994,2007
[13]罗汉果,基于图的链接发现在反洗钱中的应用研究,华中科技大学学位论文,2007
[14]W.U.Wei-Jiang,“Algorithm of splitting telecom society network based on maximal connected subgraph,”Computer Engineering and Applications,vol.44,p.8-11,2006
[15]张成虎,李时,基于AI技术的反洗钱系统设计,《中国杉德畅刷电脑》,2005(3):44-47
[16]薛耀文,张艳,具有资金衰减特征的洗钱路径算法及反洗钱应对策略,《系统工程》,2016(4)
[17]喻炜,王建东,基于交易网络特征向量中心度量的可疑洗钱识别系统,《计算机应用》,2009,29(9):2581-2585
[18]P.D.Meo,E.Ferrara,G.Fiumara,and A.Provetti,“Generalized louvain method for community detection in large networks,”IEEE International Conference on Intelligent Systems Design and Applications,vol.79,p.88-93,2012
转载请注明:杉德畅刷官网 » 大数据时代反洗钱工作的智能化发展之道(下)