图是什么

图表示数据之间关系的抽象模型,广度深度优先搜索,增加权重(搜广推),路径规划,最短路径

图和矩阵

可以用矩阵描述点与点之间是否有连线(稀疏矩阵)

乘加 reduction 转置 按位apply

关联规则 欺诈检测

图计算面临的挑战

图数据的存储

所有的数据都是表,基于表的图查询是很低效的。如果要转换类型,那么需要遍历一遍,是非常耗时的,所以如何在表的数据结构上,实现兼容性。

设计了一种GraphAR数据格式,增加了一个单独的表,按照原点排序

为什么不直接使用CSR/COO/DIA/ELL?这些格式排布紧密,无法增量添加数据,需要额外的数据转换,无法处理标签和属性图

图数据的移动

现实中你的图计算任务是一个复杂工作流,通过文件共享比通过内存共享慢了5倍,数据需要序列化和反序列化操作,可能会经过多次遍历。数据移动比计算更昂贵,Vineyard:共享图数据。通过共享图数据大大减少真实应用的端到端时间

高性能kernel

BFS有两个参数控制,如果把参数进行小改动,整体会发生很大的改变,对于巨大的算法空间,可以使用完全不同的算法模式,实现完全相同的效果。GRAPE:高性能图算子库。分布式图处理——负载不均衡。Cost model?图划分?GRAPE-GUM:负载均衡的分布式图处理

动态更新

数据本身是实时性非常高的,这些数据通过mysql进入主数据库,在主数据库中以表的形式存储,一般来说表的查找是十分昂贵的,所以这种情况就要转变数据类型,进行动态更新。

GART:在线图计算引擎,可以实时进行数据备份,使之变成更适合图去做的方式。动态图上的更删查改。

HTGAP性能远高于传统在线图数据库(直接在关系代数上进行图操作),新鲜度远高于离线方案,略低于在线图数据库

服务化

用户对图的要求是多种多样,很难用一套系统满足所有需求。

GrahScope Flex:像LEGO一样拼装服务,编译方案和图算法、图表示学习。

GrahScope Flex

已有的图处理是很碎片化的,难以端到端处理用户的需求

一站式图处理框架:用户开发图计算应用的第一站,通过开源努力打造业界的图计算标准:

编程模型简单通用灵活