K邻算法:在风险传导中的创新应用与实践价值(文末送书)
K邻算法在风险传导中的创新应用与实践价值。
🌈个人主页:聆风吟_
🔥系列专栏:Linux实践室、网络奇遇记
🔖少年有梦不应止于心动,更要付诸行动。
参与送书活动方式文末详见。
一. 前言
在当今工业领域,图思维方式与图数据技术的应用日益广泛,成为图数据探索、挖掘与应用的坚实基础。本文旨在分享嬴图团队在算法实践应用中的宝贵经验与深刻思考,不仅促进业界爱好者之间的交流,更期望从技术层面为企业在图数据库选型时提供新的视角与思路。
二. K邻算法的实践意义
K邻算法(K-Hop Neighbor),即K跳邻居算法,是一种基于广度优先搜索(BFS)[1] 的遍历策略,用于探索起始节点周围的邻域。该算法在关系发现、影响力预测、好友推荐等预测类场景中得到了广泛应用。
在图论中,沿着一条边移动被视为一跳(hop)。在遍历图中的顶点时,我们需要考虑多跳问题。图论起源于数学家欧拉在1836年提出的哥尼斯堡七桥问题,它奠定了图计算的数学基础。自20世纪80年代以来,图计算技术迅速发展,成为现代计算领域的重要组成部分。
在现实世界中,危机的传播正是K邻搜索的一个典型应用。以发生危机的实体为起点,顺着或逆着(取决于边的具体定义)边的方向进行1步、2步、3步乃至更深层次的查询,得到的就是先后会被危机波及到的实体。
三. 创新应用与案例分析
以某知名房地产企业HD的供应链图谱为例,我们可以通过持股方向、资金流向等信息,清晰直观地揭示危机的传播路径和传递对象。
以HD为例,危机发生后,风险传播路径如下:
- 第一层:影响HD的关联公司;
- 第二层:影响公司员工和供应商;
- 第三层:影响购房者(供应商停止供货、工人停工,可能导致HD的在建工程停滞)。
- ……
风险从HD集团开始,逐步扩散至关联公司、员工、供应商、购房者等,形成了一张复杂的“网络”,呈现出明显的“链条效应”。
然而,许多与风险传导相关的实际应用并未采用图计算,而是依赖于手工计算,如银行KYC部门在计算UBO时仍使用Excel表。这种做法的效率和准确率可想而知。这与金融机构IT系统的陈旧和工作方法的落后有直接关系,阻碍了业务的开展,如企业影响力分析。
企业影响力分析不仅涉及持股关系、生产供求关系等传统问题,还应包括与企业相关的所有金融行为和事件,以及与这些行为事件直接或间接相关的事务。分析的视角不应仅限于企业实体,而应扩展至企业发布的产品、债券等。
如下图所示,分析的核心是企业的某个债券,其价格下跌可能直接影响其他债券的价格:
下图则标出了持有该债券的、可能受影响的省内其他企业:
上面两幅图展示的是该债券的1步邻居,从这些邻居继续向外探寻就能得到该债券价格下跌后产生的危机传递效应,如图下所示:
专家们已越来越认识到,金融风险并不是孤立存在的,不同风险间具有链条效应,任何一只蝴蝶扇动翅膀,都有可能造成跨市场的风险传染——风险的关联性具有相互转化、传递和耦合的特点——图技术与蝴蝶效应在本质上是不谋而合的,即通过深度挖掘不同来源的数据,以网络化分析的方式去洞察。
此外,金融场景是一种基于长链条计算的场景,这就导致技术实现时的规则更为复杂,因为会涉及到各种回溯、归因,而且数据的计算量更大,同时也更注重时效性。只有实现真正的实时、全面、深度穿透、逐笔追溯、精准计量的监测和预警,才能保障金融风控中不会出现“蝴蝶效应”式的风险发生。
值得注意的是,图往往包含着复杂的属性及定义,例如:边的有向、无向,边的属性权重,K 邻是否包含 K-1 邻,如何处理计算环路等等,这些问题会导致 K 邻算法具体实现的差异。此外,在一些实际场景中,图自身拓扑结构的变化,过滤条件的设定,节点、边属性的变化都会影响到 K 邻计算的结果。
在行业应用中,K邻算法通常应用于多模态的异构图,即将多个单一信息的图融合在一起形成的综合性图谱。这对算法实现者的数据收集和构图能力提出了高要求,同时也对K邻算法的灵活性和功能性提出了更高标准。嬴图的高密度并发图算法库是目前全球运行最快、最丰富的图算法集合,支持通过EXTA接口进行热插拔和扩展。
如果在公开资料中看到K邻算法的应用多是同构图(只有一种点、一种边),可能是因为作者想通过简单的例子阐明观点,或者因为构图能力不足限制了算法的应用,也可能是K邻算法的实现不尽人意,无法对异构图进行恰当处理。K邻算法的应用应该是广泛且实际的,能够解决现实问题的,如果是因为后面两种情况而限制了算法的“大展宏图”,那么相关图厂商就应该反思一二并提高自身了!
最后,一个优秀的算法设计不仅应具备解决问题的能力,还应关注计算效率,即算力。我们列举了一些高性能图计算系统应具备的核心能力,以供企业在评估市场上各种图计算产品时作为参考:
- 高速图搜索能力:高QPS/TPS、低延时,实时动态剪枝能力;
- 对任何规模图的深度、实时搜索与遍历能力(10层以上);
- 高密度、高并发图计算引擎:极高的吞吐率;
- 成熟稳定的图数据库、图计算与存储引擎、图中台等;
- 可扩展的计算能力:支持垂直与水平可扩展;
- 3D+2D高维可视化、高性能的知识图谱Web前端系统;
- 便捷、低成本的二次开发能力(图查询语言、API/SDK、工具箱等)。
四. ⛳️书籍推荐
4.1 🔔书籍介绍
本书主要介绍多种重要而实用的图算法。从图技术的历史、原理、架构到图算法的分类、原理、参数等进行介绍,并揭示了每个算法背后的行业应用,全书共10章:
- 第1章阐述图是一种描述数据关系的新方式,它通过对数据的查询、演算和推理,能够更好地描述数据间的逻辑结构。
- 第2章介绍图算法的分类、图分析以及数据科学。
- 第3章具体介绍如何评估图算法的效率。
- 第4~9章分门别类地介绍6类经典算法的原理、参数及行业应用。
- 第10章着重介绍图算法在金融、生物医药等领域的深度应用,旨在启发广大图数据库使用者、开发者的进一步思考。
4.2 🔔作者简介
业界知名数据存储与大数据库专家、图数据库专家、图算法专家及学者;Ultipa联合创始人。拥有丰富的产品、技术、算法工程经验;持有十多项图数据库领域的技术成果和专利;作为Ultipa的嬴图团队的成员之一,参与著有《图数据库原理、架构与应用》《揭秘云计算与大数据》等多部科技畅销书。
4.3 🔔粉丝福利
送书规则:
-
✅参与方式:关注博主、点赞、收藏、评论(每人最多评论三次,字数不少于10字)
-
⛳️本次送书1~3本【取决于阅读量,阅读量越多,送的越多】
-
📆 活动截止时间:2024-5-11 12:00:00 | 由博主动态公布抽奖结果
🔥注:活动结束后,会私信中奖粉丝的,各位注意查看私信哦!
更多推荐
所有评论(0)