数据库有什么图 图数据库的特点

互联网 | 2022-08-04 02:48:33| 69
数据库有什么图  图数据库的特点

随着大数据时代的到来,传统关系数据库由于其在数据建模和存储方面的局限性,越来越难以满足大量频繁变化的需求。关系数据库虽然名字中有“关系”二字,但并不擅长处理复杂关系的查询和分析。此外,关系数据库也缺乏在多台服务器上水平伸缩的能力。基于此,一类被统称为“NoSQL”存储的非关系数据库应运而生,并很快被广泛研究和应用。NoSQL(不仅仅是SQL)是一种范围广泛、类型多样的数据持久化解决方案。它们不遵循关系数据库模型,也不使用SQL作为查询语言。它的数据存储不需要固定的表模式,而且往往避免了SQL的JOIN操作,一般的特点是横向可伸缩性。

简而言之,NoSQL数据库可以根据其数据存储模型分为四类:

  • 键值存储(键值存储)

  • 列(基于列的商店)

    文档存储

    图形数据库(图形数据库)

    从DB-Engines发布的数据库技术类别趋势图(见图1)不难看出,图表数据库在最近十年受到广泛关注,是发展最快的数据库类型。

    图1数据库技术发展趋势(截至2021年6月)来源:DB-Engines

    那么,到底什么是“图形数据库”?与关系数据库相比,图数据库的优势在哪里?

    本文摘自《新程序员002:新数据库时代软件定义的汽车》

    图形数据库和关系数据库的比较

    图形数据库是指用图形来表示、存储和查询数据的一种数据库。这里的“图”与图片、曲线图、图表等无关。,而是基于数学领域中的“图论”概念,通常用于描述某些事物之间的某种关系。例如,在我们的日常生活中:

  • 社交网络是图表。每一个社交网络参与者都是一个节点,我们在社交网络中的互动,比如“加好友”、“喜欢”,都是连接节点的边。

  • 城市交通是一张地图。每个路口,门牌号,公交车站等。是节点,街道或公交线路是边,连接可以到达的地方。

    知识也是一幅画。每一个名字、概念、人物、事件等。是节点,而类属关系、分类关系、因果关系等。是边,边将节点连接起来,形成一个巨大的、丰富的、不断进化的知识图谱。

    可以说图无处不在。正因如此,传统的关系数据库不善于处理关系问题,而图数据库可以很好地解决这一问题。图形数据库就是为了解决这个问题而诞生的。

    其实在某些方面,图数据库就像是新一代的关系数据库,不同的是图数据库不仅存储实体,还存储实体之间的关系。关系数据库通过“主键-外键”来表示隐含的“关系”连接,但实际上这里的“关系”是关系代数中的一个概念,与我们现实世界中的“关系”是不同的。

    通过预先在数据库中物理存储关系(我们称之为“原生”),graph database可以将查询性能从原来的几分钟提高到几毫秒,尤其是对于频繁的JOIN查询。图2比较了原生图数据库和关系数据库在社交网络数据集上搜索朋友圈的查询执行效率。显然,使用图数据库比使用传统的关系数据库效率高得多。

    图2比较图形数据库和关系数据库的查询性能。

    作为一种NoSQL数据库,图数据库通常不需要先定义严格的数据模式和强制字段类型,这使得它在处理结构化和半结构化数据时同样得心应手。

    除了存储和查询效率的优势,图数据库还具有更丰富的分析能力。通过比较这四种主要类型的非关系数据库的特点(见表1),我们可以知道。

    表1四种主要类型的非关系数据库的特征

    图形数据库的主要技术领域

    既然图形数据库有很多优点,发展很快,那么主要涉及哪些技术领域?我们用图3来描述它。具体来说,图形数据库的主要技术领域包括存储方式、图形模型、图形查询语言、图形分析和图形可视化。

    存储模式

    本机图与非本机图

    图形用节点和边来模拟现实世界。对于实际的底层物理存储技术,目前有两种主流方法:

  • 原生,即按照节点、边、属性组织数据存储。典型的例子有Secondary,JanusGraph,TigerGraph,Neo4j。

  • 非本机,使用其他存储类型。比如基于列存储的DataStax,基于键值对的OrientDB,基于文档的MongoDB。一些关系数据库还在关系存储之上提供类似图形的操作。

    一些图计算平台支持各种存储技术,包括图存储,称为“多模式”,比如百度HugeGraph。

    原生图形存储针对图形数据和图形操作的特点进行了优化,采用了从物理存储到内存中图形处理的一致模型,无需“模式转换”。在大数据量、深度复杂查询、高并发的情况下,其性能一般优于非原生图存储。

    图的分布式存储

    为了支持大规模的图形存储和查询,需要分布式的图形存储。有两种类型的分布式实现方法:

    1.碎片。分片是将数据按照一定的原则分布存储在多个存储实例中(比如按照节点的ID随机分布)。根据分割规则,它可以分为:

  • 按点拆分。每个边只保存一次,并且出现在同一个分区上。如果不同分区中的两条边有公共点,那么这些点将被复制到它们各自的分区中。这样邻居多的节点(忙节点)就会分布到多个分区,增加存储空空间,还可能造成同步问题。这种方法具有减少网络通信的优点。

  • 按边分割。边分割后,顶点只保存一次,切割的边会被打断,保存在不同的分区中。在基于边的操作中,对于两个顶点分成两个不同分区的边,需要通过网络传输数据。这样增加了网络传输的数据量,但是有节省存储空的好处。

    为了优化性能,目前比较常见的是分布式图的点切割。

    2.分区。因为现实世界中的图往往遵循“幂律分布”,即少数节点有大量的边,而大多数节点的边很少。存储碎片化必然会导致大量数据的冗余复制,或者增加分区间网络通信的负担。因此,另一种分布式方法是库分离。借助图建模,节点根据业务需求和查询类型分布在不同的数据库中,最大限度地减少了跨数据库的网络传输。不同数据库中的数据通过联邦查询来实现。

    图形模型

    在基于图的数据模型中,两种最常见的方法是资源描述框架(RDF)和标记属性图(LPG)。

    RDF

    RDF是W3C指定的标准。它使用Web标识符(URIs)来标识事物,并通过属性和属性值来描述资源。根据RDF的定义:

  • 资源是任何可以拥有URI的东西,例如“https://www.w3school.com.cn/rdfquot;;

  • 属性是有名字的资源,比如”。作者 quot或“主页 quot;

    属性值是一个属性的值,比如"。大卫 quot或者“https://www . w3school . com . cn quot;(请注意,属性值可以是另一个资源)。

    我们来看看RDF是如何描述“西湖是杭州的一个旅游景点”这一事实的(见图4)。

    图4RDF示例

    RDF的查询语言是SPARQL。如果要问“杭州有哪些旅游节点?”,使用SPARQL的查询如下:

    PREFIXns:lt;https://kg.com/ns/travel#gt;SELECT?placeWHERE{?placens:地理位置ns:杭州.?placens:实例ns:旅游景点.}

    液化石油气

    在LPG属性图模型中,数据对象被表示为节点(带有一个或多个标签)、关系和属性。我们用下面的例子来说明(见图5)。

    图5电影个人偏好属性图

    在图5中:

  • 节点/顶点是对象或实体的抽象,例如人、导演、电影和演员。一个节点可以有一个或多个标签。比如代表张艺谋的节点,可以有个人、导演、演员等标签。

  • 节点的属性。节点的属性为节点提供了丰富的语义。根据顶点类型的不同,每个顶点可以有不同的属性,比如以“人”为顶点,属性可以是“姓名”和“性别”。

    边缘/关系。一条边连接两个节点或同一个节点(指向自己的边)。边可以是有向的,也可以是无向的。边可以有多种类型。比如连接“李连杰”和“英雄”的边的类型是“主演”。

    边的属性。类似于顶点的属性,每条边也可以有属性。比如连接“李连杰”和“英雄”的边,其属性为“角色”,值为“未知”。

    与RDF相比,LPG更容易理解,建模更灵活,因为它可以在节点和边上定义丰富的属性。

    图形查询语言

    应该说,关系数据库在过去半个世纪的成功,离不开SQL查询语言的标准化。目前,图形查询语言(GQL)的标准化仍在进行中,其核心语法和特征基于Secondary的Cypher、Oracle的PGQL和GCORE框架。

    从查询语言本身来看,主要有两大类:

  • 类型(声明性)。声明式查询语言只要求用户描述要达到的目标,查询引擎分析查询语句,生成查询计划,然后执行。SQL是一种声明式查询语言。在图形数据库领域,Cypher是最流行的声明式查询语言。

  • 命令类型(命令式)。命令查询语言要求用户描述具体的操作步骤,然后由数据库执行。在图形数据库领域,Gremlin是最流行的(近似的)命令式查询语言。

    从未来的发展趋势来看,声明式查询语言因其简单易懂、学习门槛低、易于普及等特点,将成为主流的图查询语言。智能优化的查询执行引擎将是衡量图数据库技术优势的关键。

    图形分析

    在计算机科学领域,图算法是一个重要的算法类别,常用于解决复杂问题。你应该还记得“树的遍历”(前序,中序,后序等。)就是你在数据结构或者软件开发相关课程中会学到的。这是一个典型的图算法。一些成熟的图形数据库已经内置了这些图形算法,为图形数据提供高级分析功能。

    最短路径搜索

    最短路径是图计算中最常见的问题之一,通常出现在解决以下应用场景中:

  • 找到两个地理位置之间的导航路径;

  • 在社交网络分析中,计算人与人之间的距离,“最短”是基于路径之上的距离和代价,比如跳数最少;

    Dijkstra算法:带边权的最短路径;

    *算法:基于启发式规则的最短路径;

    k条最短路径。

    计算范围包括:

  • 节点之间;

  • 图中所有其他节点的单一起始点;

    在整个图中的所有节点对之间。

    除此之外,最小生成树、随机漫步等图遍历算法也属于这一类。

    社区检测

    “物以类聚”,这句话形象地描述了网络的一个重要特征:集群化。群体也被称为“社区”、“团体”、“群体”。社区的形成和演化是图分析和研究的另一个重要领域,因为它有助于我们理解和评价群体行为,研究新出现的现象。

    社区检测算法是对图中的节点进行分组和设置(见图6):同一集合中的节点之间的边(代表交互/连接)比属于不同集合的节点之间的边多。从这个意义上说,我们认为他们有更多的共同点。社区检测可以揭示节点集群、孤立组和网络结构。在社交网络分析中,这类信息有助于推断有共同兴趣的人。在产品推荐中,可以用来查找同类产品。在自然语言处理/理解(NLP/NLU)中,它可以用来对文本内容进行自动分类。社区检测算法也用于生成网络的可视化表示。

    6图中节点间边的密度反映了节点间的相关性。

    有助于推断有共同兴趣的人。在产品推荐中,可以用来查找同类产品。在自然语言处理/理解(NLP/NLU)中,它可以用来对文本内容进行自动分类。社区检测算法也用于生成网络的可视化表示。

    中心性算法

    在图论和网络分析中,中心性指数标识了图中最重要的顶点。它具有广泛的应用,包括识别社交网络中最有影响力的人、互联网或城市网络中的关键基础设施节点以及疾病的超级传播者。

    最成功的中心性算法是PageRank。这是谷歌搜索引擎背后的网页排序算法的核心。页面排名不仅计算页面本身的连接,还评估链接到它的其他页面的影响力。页面的重要性越高,信息源的可靠性就越高。应用到社交网络上,这个方法可以简单的解释为“认识我的人越重要,我就越重要”。这难道不合理吗?

    相似性算法

    相似性描述了两个节点和更复杂的子图结构在多大程度上属于同一类别,或者它们有多相似。

    图/网络相似性度量有三种基本方法:

  • 结构对等;

  • 自同构等价(自同构等价);

    正则等价(正则等价)。

    另一种是先将节点转换成N维向量(x1,x2,…x n)并“投影”到一个N维空空间,然后计算节点之间的角度或距离来度量相似度。这种转换方式称为“嵌入”,转换过程称为“图形表示”。如果通过算法自动获得最佳转换结果,这个过程称为“图形表示学习”。基于图的学习是近年来人工智能领域非常热门的方向,广泛应用于欺诈检测、智能推荐、自然语言处理等领域。

    图形可视化

    “一图胜千言”是对一张图片可视化最贴切的描述。可视化直观智能地展现数据之间的结构和关系,可以看到以前在表格或图表中看不到的内容。

    2019年,当新冠肺炎开始在全球肆虐时,Neo4j地图数据库社区的一群成员整合了许多异构的生物医学和环境数据集(https://github . com/新冠肺炎-net/新冠肺炎-community),建立了一个关于新冠肺炎的知识图谱,帮助研究人员分析宿主、病原体、环境和病毒之间的相互作用。图7是知识地图的部分可视化结果,地图最左侧是病毒爆发的地理位置的子地图,包括国家、地区和城市;绿色部分是流行病学子图,包括病毒株、病原体和宿主生物的信息。病例和菌株分别与它们被报告和发现的位置相关联;紫色部分是生物子图,代表生物、基因组、染色体、变异体等等。

    图7新冠肺炎知识地图

    数据的可视化建立了事物之间关系的最直观展示,使原本不明显甚至淹没在数据海洋中的重要特征显现出来,成为一种新的认知。

    图形数据库的未来展望

    在图形数据库出现和兴起的十多年里,它已经成功地应用于各个领域,并产生了许多创新的解决方案。

    在社交平台的“网络水军”识别中,通过分析用户关系图的特征,结合传统的基于用户行为和用户内容的发现方法,可以有效提高预测的准确性和鲁棒性。

    在金融领域,图形和图形分析帮助机构更高效地发现异常关联交易,以赢得反洗钱战争。

    在电力和电信行业中,图形数据库有助于管理复杂庞大的设备和线路网络,并及时分析故障根源和估计故障影响。

    在制造业、科研、医药等领域。,图数据库被广泛用于存储和查询知识图,成为大数据管理、数据分析、价值挖掘乃至人工智能技术等领域的重要支撑。

    在可预见的未来,图形数据库与人工智能技术的结合将带来更多的创新和飞跃。该数据库至少可以在以下四个方面帮助提高人工智能的能力。

    一是知识图谱,为决策支持提供领域相关知识/语境,有助于保证答案适合具体情境。

    其次,图提供了更高的处理效率,所以用图优化模型,加快学习过程,可以有效提升机器学习的效率。

    第三,基于数据关系的特征提取分析可以识别数据中最具预测性的元素。基于数据中发现的强特征的预测模型具有更高的准确性。

    第四,图提供了保证AI决策透明的方法,使得通过AI得到的结论更具可解释性。而AI和机器学习有很大的应用潜力,graph解锁了这种潜力。这是因为图形数据库技术支持领域的相关知识和相关数据,使得AI的适用范围更加广泛。

    此外,近年来,云部署的图形数据库(SaaS/DaaS)已经成为另一种发展趋势。国内很多厂商都推出了自主研发的云图数据库产品,如百度的HugeGraph、阿里的GDB、腾讯的TGDB、华为的GES图计算引擎等。

    就整体趋势而言,我们可以预见,在大数据时代,数据的匮乏不再是最大的挑战。我们渴望的是挖掘数据价值的能力,而数据的价值很大一部分在于数据之间的相关性。作为处理相关数据最有效的技术和方法,数据库和图形分析将继续大放异彩,谱写数据库应用的新篇章。

    相关推荐

    “租个手机回家过年”,我后悔了

    “租个手机回家过年”,我后悔了

    在一些人的观念里,“新年换新机”,寓意“新年新气象”,甚至很多人新的一年,是从换一部新手机开始。不过,为了换手机,有人做出了相对小众的选择:租手机。

    互联网 9 2023-01-29 10:40:45
    兔子成新宠:有商家年销20000只,最贵一只上万元

    兔子成新宠:有商家年销20000只,最贵一只上万元

    “看到它们活蹦乱跳的模样就很治愈。”春节长假还没结束,小倪就匆匆赶回杭州,从宠物寄养基地接回了两位“室友”——垂耳兔,“有一种把娃从幼儿园接回来的感觉”。

    互联网 8 2023-01-29 10:39:42
    直播带货的2022年,没有了头部主播、最低价和“神话”

    直播带货的2022年,没有了头部主播、最低价和“神话”

    随着2023年春节的到来,各大电商平台此前都已开启了相应的年货节活动。与之相应的是,李佳琦直播间也开始售卖各类年货,并开设了零食、生活用品、数码、美妆等多个专场,但在不久前有用户反馈,“李佳琦直播间的苹果产品价格并不香”。

    互联网 9 2023-01-29 10:38:29
    2023第一波报复性消费,杀到了

    2023第一波报复性消费,杀到了

    望眼欲穿,报复性消费终于开始来了。 疫情放开后的首个春节,热闹非凡——携程数据显示,国内外旅行订单均迎来3年巅峰,整体较2022年春节增长4倍;烟花“加特林”因为酷炫的燃放效果在网上走红,掀起了一波烟花消费潮;电影春节档上演“神仙打架”,票房五天冲破6 ...

    互联网 8 2023-01-29 10:37:52
    大厂元宇宙,又菜又爱玩

    大厂元宇宙,又菜又爱玩

    当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。

    互联网 7 2023-01-29 10:37:10
    2023,视频号带来了什么新希望?

    2023,视频号带来了什么新希望?

    吴丹的老家在四川达州,而她现在置身于一万两千公里之外的加拿大多伦多,今年是她在海外度过的第二个春节。尽管没有回家过年,该有的仪式感也没有少:

    互联网 7 2023-01-29 10:36:32
    “零下53度”的东北游,能火多久?

    “零下53度”的东北游,能火多久?

    千里冰封,万里雪飘。关于东北的想象,可以在冬天落地了。 春节期间,有抵达哈尔滨机场的游客发文表示,因零下30多度的低气温,飞机行李舱门被冻住,无法打开。今年过年尤其冷,很多东北人和游客的感知非常明显。有网友在社交平台上发布自己家门被大雪冻 ...

    互联网 8 2023-01-29 10:35:03
    月流水2000万、连续2年跻身头部,视频号直播怎么做?| 对话闪耀传媒

    月流水2000万、连续2年跻身头部,视频号直播怎么做?| 对话闪耀传媒

    “连续两年第八。” 2022年底,随着视频号年度赛事的结束,闪耀传媒公会长在朋友圈晒出了最终的公会赛结果。 闪耀传媒成立于2015年,曾是百度系娱乐直播业务的头部公会,在行业内颇具影响力。之后,由于没能抓住抖音、快手直播的黄金发展期,闪耀传媒险些掉 ...

    互联网 10 2023-01-29 10:34:35
    抖音上线超市业务 一切只是刚刚开始

    抖音上线超市业务 一切只是刚刚开始

    抖音正式上线超市业务 新年开工第一天,抖音就放出一个大招:抖音超市。 和之前的试点业务不一样,目前,抖音超市业务现已在抖音APP内正式开门迎客,全国各地用户可以在抖音内进行线上超市的购物体验。 我们通过抖音APP搜索栏,输入“抖音超市”,即可搜到抖 ...

    互联网 9 2023-01-29 10:34:07
    值得关注的一些私域结论

    值得关注的一些私域结论

    工具仍然存在巨大的、单点突破的可能。 2023年的行业主流,会是不同系统和工具间的互相协作、引入。 不排除行业中更多并购发生。 企业对私域预算会更加充足,各种SaaS系统和工具也会更加繁荣。 更集中和更长尾同时发生。 以上是见实在《2023私 ...

    互联网 8 2023-01-29 10:33:33