数据库有什么图 图数据库的特点

互联网 | 2022-08-04| 5

随着大数据时代的到来,传统关系数据库由于其在数据建模和存储方面的局限性,越来越难以满足大量频繁变化的需求。关系数据库虽然名字中有“关系”二字,但并不擅长处理复杂关系的查询和分析。此外,关系数据库也缺乏在多台服务器上水平伸缩的能力。基于此,一类被统称为“NoSQL”存储的非关系数据库应运而生,并很快被广泛研究和应用。NoSQL(不仅仅是SQL)是一种范围广泛、类型多样的数据持久化解决方案。它们不遵循关系数据库模型,也不使用SQL作为查询语言。它的数据存储不需要固定的表模式,而且往往避免了SQL的JOIN操作,一般的特点是横向可伸缩性。

简而言之,NoSQL数据库可以根据其数据存储模型分为四类:

  • 键值存储(键值存储)

  • 列(基于列的商店)

    文档存储

    图形数据库(图形数据库)

    从DB-Engines发布的数据库技术类别趋势图(见图1)不难看出,图表数据库在最近十年受到广泛关注,是发展最快的数据库类型。

    图1数据库技术发展趋势(截至2021年6月)来源:DB-Engines

    那么,到底什么是“图形数据库”?与关系数据库相比,图数据库的优势在哪里?

    本文摘自《新程序员002:新数据库时代软件定义的汽车》

    图形数据库和关系数据库的比较

    图形数据库是指用图形来表示、存储和查询数据的一种数据库。这里的“图”与图片、曲线图、图表等无关。,而是基于数学领域中的“图论”概念,通常用于描述某些事物之间的某种关系。例如,在我们的日常生活中:

  • 社交网络是图表。每一个社交网络参与者都是一个节点,我们在社交网络中的互动,比如“加好友”、“喜欢”,都是连接节点的边。

  • 城市交通是一张地图。每个路口,门牌号,公交车站等。是节点,街道或公交线路是边,连接可以到达的地方。

    知识也是一幅画。每一个名字、概念、人物、事件等。是节点,而类属关系、分类关系、因果关系等。是边,边将节点连接起来,形成一个巨大的、丰富的、不断进化的知识图谱。

    可以说图无处不在。正因如此,传统的关系数据库不善于处理关系问题,而图数据库可以很好地解决这一问题。图形数据库就是为了解决这个问题而诞生的。

    其实在某些方面,图数据库就像是新一代的关系数据库,不同的是图数据库不仅存储实体,还存储实体之间的关系。关系数据库通过“主键-外键”来表示隐含的“关系”连接,但实际上这里的“关系”是关系代数中的一个概念,与我们现实世界中的“关系”是不同的。

    通过预先在数据库中物理存储关系(我们称之为“原生”),graph database可以将查询性能从原来的几分钟提高到几毫秒,尤其是对于频繁的JOIN查询。图2比较了原生图数据库和关系数据库在社交网络数据集上搜索朋友圈的查询执行效率。显然,使用图数据库比使用传统的关系数据库效率高得多。

    图2比较图形数据库和关系数据库的查询性能。

    作为一种NoSQL数据库,图数据库通常不需要先定义严格的数据模式和强制字段类型,这使得它在处理结构化和半结构化数据时同样得心应手。

    除了存储和查询效率的优势,图数据库还具有更丰富的分析能力。通过比较这四种主要类型的非关系数据库的特点(见表1),我们可以知道。

    表1四种主要类型的非关系数据库的特征

    图形数据库的主要技术领域

    既然图形数据库有很多优点,发展很快,那么主要涉及哪些技术领域?我们用图3来描述它。具体来说,图形数据库的主要技术领域包括存储方式、图形模型、图形查询语言、图形分析和图形可视化。

    存储模式

    本机图与非本机图

    图形用节点和边来模拟现实世界。对于实际的底层物理存储技术,目前有两种主流方法:

  • 原生,即按照节点、边、属性组织数据存储。典型的例子有Secondary,JanusGraph,TigerGraph,Neo4j。

  • 非本机,使用其他存储类型。比如基于列存储的DataStax,基于键值对的OrientDB,基于文档的MongoDB。一些关系数据库还在关系存储之上提供类似图形的操作。

    一些图计算平台支持各种存储技术,包括图存储,称为“多模式”,比如百度HugeGraph。

    原生图形存储针对图形数据和图形操作的特点进行了优化,采用了从物理存储到内存中图形处理的一致模型,无需“模式转换”。在大数据量、深度复杂查询、高并发的情况下,其性能一般优于非原生图存储。

    图的分布式存储

    为了支持大规模的图形存储和查询,需要分布式的图形存储。有两种类型的分布式实现方法:

    1.碎片。分片是将数据按照一定的原则分布存储在多个存储实例中(比如按照节点的ID随机分布)。根据分割规则,它可以分为:

  • 按点拆分。每个边只保存一次,并且出现在同一个分区上。如果不同分区中的两条边有公共点,那么这些点将被复制到它们各自的分区中。这样邻居多的节点(忙节点)就会分布到多个分区,增加存储空空间,还可能造成同步问题。这种方法具有减少网络通信的优点。

  • 按边分割。边分割后,顶点只保存一次,切割的边会被打断,保存在不同的分区中。在基于边的操作中,对于两个顶点分成两个不同分区的边,需要通过网络传输数据。这样增加了网络传输的数据量,但是有节省存储空的好处。

    为了优化性能,目前比较常见的是分布式图的点切割。

    2.分区。因为现实世界中的图往往遵循“幂律分布”,即少数节点有大量的边,而大多数节点的边很少。存储碎片化必然会导致大量数据的冗余复制,或者增加分区间网络通信的负担。因此,另一种分布式方法是库分离。借助图建模,节点根据业务需求和查询类型分布在不同的数据库中,最大限度地减少了跨数据库的网络传输。不同数据库中的数据通过联邦查询来实现。

    图形模型

    在基于图的数据模型中,两种最常见的方法是资源描述框架(RDF)和标记属性图(LPG)。

    RDF

    RDF是W3C指定的标准。它使用Web标识符(URIs)来标识事物,并通过属性和属性值来描述资源。根据RDF的定义:

  • 资源是任何可以拥有URI的东西,例如“https://www.w3school.com.cn/rdfquot;;

  • 属性是有名字的资源,比如”。作者 quot或“主页 quot;

    属性值是一个属性的值,比如"。大卫 quot或者“https://www . w3school . com . cn quot;(请注意,属性值可以是另一个资源)。

    我们来看看RDF是如何描述“西湖是杭州的一个旅游景点”这一事实的(见图4)。

    图4RDF示例

    RDF的查询语言是SPARQL。如果要问“杭州有哪些旅游节点?”,使用SPARQL的查询如下:

    PREFIXns:lt;https://kg.com/ns/travel#gt;SELECT?placeWHERE{?placens:地理位置ns:杭州.?placens:实例ns:旅游景点.}

    液化石油气

    在LPG属性图模型中,数据对象被表示为节点(带有一个或多个标签)、关系和属性。我们用下面的例子来说明(见图5)。

    图5电影个人偏好属性图

    在图5中:

  • 节点/顶点是对象或实体的抽象,例如人、导演、电影和演员。一个节点可以有一个或多个标签。比如代表张艺谋的节点,可以有个人、导演、演员等标签。

  • 节点的属性。节点的属性为节点提供了丰富的语义。根据顶点类型的不同,每个顶点可以有不同的属性,比如以“人”为顶点,属性可以是“姓名”和“性别”。

    边缘/关系。一条边连接两个节点或同一个节点(指向自己的边)。边可以是有向的,也可以是无向的。边可以有多种类型。比如连接“李连杰”和“英雄”的边的类型是“主演”。

    边的属性。类似于顶点的属性,每条边也可以有属性。比如连接“李连杰”和“英雄”的边,其属性为“角色”,值为“未知”。

    与RDF相比,LPG更容易理解,建模更灵活,因为它可以在节点和边上定义丰富的属性。

    图形查询语言

    应该说,关系数据库在过去半个世纪的成功,离不开SQL查询语言的标准化。目前,图形查询语言(GQL)的标准化仍在进行中,其核心语法和特征基于Secondary的Cypher、Oracle的PGQL和GCORE框架。

    从查询语言本身来看,主要有两大类:

  • 类型(声明性)。声明式查询语言只要求用户描述要达到的目标,查询引擎分析查询语句,生成查询计划,然后执行。SQL是一种声明式查询语言。在图形数据库领域,Cypher是最流行的声明式查询语言。

  • 命令类型(命令式)。命令查询语言要求用户描述具体的操作步骤,然后由数据库执行。在图形数据库领域,Gremlin是最流行的(近似的)命令式查询语言。

    从未来的发展趋势来看,声明式查询语言因其简单易懂、学习门槛低、易于普及等特点,将成为主流的图查询语言。智能优化的查询执行引擎将是衡量图数据库技术优势的关键。

    图形分析

    在计算机科学领域,图算法是一个重要的算法类别,常用于解决复杂问题。你应该还记得“树的遍历”(前序,中序,后序等。)就是你在数据结构或者软件开发相关课程中会学到的。这是一个典型的图算法。一些成熟的图形数据库已经内置了这些图形算法,为图形数据提供高级分析功能。

    最短路径搜索

    最短路径是图计算中最常见的问题之一,通常出现在解决以下应用场景中:

  • 找到两个地理位置之间的导航路径;

  • 在社交网络分析中,计算人与人之间的距离,“最短”是基于路径之上的距离和代价,比如跳数最少;

    Dijkstra算法:带边权的最短路径;

    *算法:基于启发式规则的最短路径;

    k条最短路径。

    计算范围包括:

  • 节点之间;

  • 图中所有其他节点的单一起始点;

    在整个图中的所有节点对之间。

    除此之外,最小生成树、随机漫步等图遍历算法也属于这一类。

    社区检测

    “物以类聚”,这句话形象地描述了网络的一个重要特征:集群化。群体也被称为“社区”、“团体”、“群体”。社区的形成和演化是图分析和研究的另一个重要领域,因为它有助于我们理解和评价群体行为,研究新出现的现象。

    社区检测算法是对图中的节点进行分组和设置(见图6):同一集合中的节点之间的边(代表交互/连接)比属于不同集合的节点之间的边多。从这个意义上说,我们认为他们有更多的共同点。社区检测可以揭示节点集群、孤立组和网络结构。在社交网络分析中,这类信息有助于推断有共同兴趣的人。在产品推荐中,可以用来查找同类产品。在自然语言处理/理解(NLP/NLU)中,它可以用来对文本内容进行自动分类。社区检测算法也用于生成网络的可视化表示。

    6图中节点间边的密度反映了节点间的相关性。

    有助于推断有共同兴趣的人。在产品推荐中,可以用来查找同类产品。在自然语言处理/理解(NLP/NLU)中,它可以用来对文本内容进行自动分类。社区检测算法也用于生成网络的可视化表示。

    中心性算法

    在图论和网络分析中,中心性指数标识了图中最重要的顶点。它具有广泛的应用,包括识别社交网络中最有影响力的人、互联网或城市网络中的关键基础设施节点以及疾病的超级传播者。

    最成功的中心性算法是PageRank。这是谷歌搜索引擎背后的网页排序算法的核心。页面排名不仅计算页面本身的连接,还评估链接到它的其他页面的影响力。页面的重要性越高,信息源的可靠性就越高。应用到社交网络上,这个方法可以简单的解释为“认识我的人越重要,我就越重要”。这难道不合理吗?

    相似性算法

    相似性描述了两个节点和更复杂的子图结构在多大程度上属于同一类别,或者它们有多相似。

    图/网络相似性度量有三种基本方法:

  • 结构对等;

  • 自同构等价(自同构等价);

    正则等价(正则等价)。

    另一种是先将节点转换成N维向量(x1,x2,…x n)并“投影”到一个N维空空间,然后计算节点之间的角度或距离来度量相似度。这种转换方式称为“嵌入”,转换过程称为“图形表示”。如果通过算法自动获得最佳转换结果,这个过程称为“图形表示学习”。基于图的学习是近年来人工智能领域非常热门的方向,广泛应用于欺诈检测、智能推荐、自然语言处理等领域。

    图形可视化

    “一图胜千言”是对一张图片可视化最贴切的描述。可视化直观智能地展现数据之间的结构和关系,可以看到以前在表格或图表中看不到的内容。

    2019年,当新冠肺炎开始在全球肆虐时,Neo4j地图数据库社区的一群成员整合了许多异构的生物医学和环境数据集(https://github . com/新冠肺炎-net/新冠肺炎-community),建立了一个关于新冠肺炎的知识图谱,帮助研究人员分析宿主、病原体、环境和病毒之间的相互作用。图7是知识地图的部分可视化结果,地图最左侧是病毒爆发的地理位置的子地图,包括国家、地区和城市;绿色部分是流行病学子图,包括病毒株、病原体和宿主生物的信息。病例和菌株分别与它们被报告和发现的位置相关联;紫色部分是生物子图,代表生物、基因组、染色体、变异体等等。

    图7新冠肺炎知识地图

    数据的可视化建立了事物之间关系的最直观展示,使原本不明显甚至淹没在数据海洋中的重要特征显现出来,成为一种新的认知。

    图形数据库的未来展望

    在图形数据库出现和兴起的十多年里,它已经成功地应用于各个领域,并产生了许多创新的解决方案。

    在社交平台的“网络水军”识别中,通过分析用户关系图的特征,结合传统的基于用户行为和用户内容的发现方法,可以有效提高预测的准确性和鲁棒性。

    在金融领域,图形和图形分析帮助机构更高效地发现异常关联交易,以赢得反洗钱战争。

    在电力和电信行业中,图形数据库有助于管理复杂庞大的设备和线路网络,并及时分析故障根源和估计故障影响。

    在制造业、科研、医药等领域。,图数据库被广泛用于存储和查询知识图,成为大数据管理、数据分析、价值挖掘乃至人工智能技术等领域的重要支撑。

    在可预见的未来,图形数据库与人工智能技术的结合将带来更多的创新和飞跃。该数据库至少可以在以下四个方面帮助提高人工智能的能力。

    一是知识图谱,为决策支持提供领域相关知识/语境,有助于保证答案适合具体情境。

    其次,图提供了更高的处理效率,所以用图优化模型,加快学习过程,可以有效提升机器学习的效率。

    第三,基于数据关系的特征提取分析可以识别数据中最具预测性的元素。基于数据中发现的强特征的预测模型具有更高的准确性。

    第四,图提供了保证AI决策透明的方法,使得通过AI得到的结论更具可解释性。而AI和机器学习有很大的应用潜力,graph解锁了这种潜力。这是因为图形数据库技术支持领域的相关知识和相关数据,使得AI的适用范围更加广泛。

    此外,近年来,云部署的图形数据库(SaaS/DaaS)已经成为另一种发展趋势。国内很多厂商都推出了自主研发的云图数据库产品,如百度的HugeGraph、阿里的GDB、腾讯的TGDB、华为的GES图计算引擎等。

    就整体趋势而言,我们可以预见,在大数据时代,数据的匮乏不再是最大的挑战。我们渴望的是挖掘数据价值的能力,而数据的价值很大一部分在于数据之间的相关性。作为处理相关数据最有效的技术和方法,数据库和图形分析将继续大放异彩,谱写数据库应用的新篇章。

    相关推荐

    套路就是活路  没有套路的广告语

    套路就是活路 没有套路的广告语

    1我的一些在广告行业工作了十几年的朋友,自从网络营销的单子越来越多,日子就不好过了。不是那种执拗过时,结果被时代淘汰的剧本。他们都与时俱进-为了研究互联网,很多广告商天天上网,近40人还在用变声器假装小学生和其他小学生一起在网上喷,就是为了 ...

    互联网 1 2022-08-15
    爆品破圈:万块营销投放如何卖断货  爆品会怎么做分销

    爆品破圈:万块营销投放如何卖断货 爆品会怎么做分销

    │前言│要知道,人参那么奢侈,可以当饮料卖。它的成本高吗?卖的贵吗?没有,大的没有特别的没有,“全根”饮料出来后,售价才19.9。什么样的营销手段只需要1w的钱就能做到日产10万瓶以上?“一整根”饮料这个品牌,最近被品牌商和创业者当成了营销案例,现在 ...

    互联网 1 2022-08-15
    当横漂群演成为网红:有人用自媒体养活演员梦,有人靠造假博流量买房

    当横漂群演成为网红:有人用自媒体养活演员梦,有人靠造假博流量买房

    文章目录 用自媒体收入喂饱演员的梦想 "在横店,10个临时演员中有8个制作了自己的视频."说这句话的老高也是其中之一。他是东北00后,毕业后工作了8个月,存了点钱,辞职走上了漂泊之路。从离开的那天起,老高就开始用镜头记录自己的生活,在网上开 ...

    互联网 1 2022-08-15
    淘宝短视频营销  淘宝视频营销

    淘宝短视频营销 淘宝视频营销

    “每天早晚坚持涂,皮肤会又白又亮。点开链接,进来看看。”一年前,张茜双手捧着一瓶护肤水,用手机录制了一个10秒钟的短视频,然后简单剪辑后上传到pro-shot应用程序。这是她第一次尝试用短视频的形式推荐自己的产品,连“口号”都是即兴的。没想到,这个短 ...

    互联网 1 2022-08-15
    客单价高达万,会员复购率超%,周大福是如何做私域的?

    客单价高达万,会员复购率超%,周大福是如何做私域的?

    黄金行业和其他行业有很多不同:低频,高单价,非标。行业普遍强调营销和下线,获客成本极高。因此,很多人认为黄金珠宝行业不适合私人领域。然而,疫情的出现已经悄然改变了这个行业,很多品牌开始转型,周大福就是其中的代表。周大福官方《2021财年业绩 ...

    互联网 1 2022-08-15
    抖音淘宝竞争  抖音电商对淘宝的冲击

    抖音淘宝竞争 抖音电商对淘宝的冲击

    在淘宝短视频提速的过程中,Tik Tok也开始打造“电商节”,两者随着深入彼此腹地越来越相似。8月6日,Tik Tok电商开启“Tik Tok 818发现好物节”。从Tik Tok的节日诉求来看,目的是充分发挥全球兴趣电商的特点,通过短视频、直播、泛商城等渠道满足商家多样化 ...

    互联网 1 2022-08-15
    热点事件策划网络营销活动  抓住热点营销

    热点事件策划网络营销活动 抓住热点营销

    一年365天,全球节日多达466个,仅中国就有16个法定节日。然而,人的欲望不止于此。随着互联网的兴起,据不完全统计,各平台的节日数量已经超过100个:双11、618、年货节、女王节、美食节、美白防晒节、图书节...当节日越来越多,品牌越来越多,营销活动也 ...

    互联网 1 2022-08-15
    瑞幸咖啡和星巴克打工  星巴克和瑞幸是一个老板吗

    瑞幸咖啡和星巴克打工 星巴克和瑞幸是一个老板吗

    给大家讲一个“鬼”的故事。几年前,因为财务造假,濒临倒闭的Luckin coffee要上演女婿情节。嗯,最近瑞幸发布了第二季度财报,净收入飙升72%,达到32亿元。不幸的是,咖啡界的老大哥星巴克也在上个月发布了自己的成绩单。只有没有比较,就没有伤害。同样是 ...

    互联网 2 2022-08-15
    休食赛道“老大哥”猛扑私域!

    休食赛道“老大哥”猛扑私域!

    疫情之下,几乎所有的自助企业都在统一做私域,2020年以来一次又一次被证明。从根本上说,影响品牌选择的不是私人领域。私域只是工具,关系才是目的。《关系飞轮》一书指出,越来越多的用户倾向于与品牌模拟形成亲密关系,就像真正的家庭成员一样。这种新 ...

    互联网 3 2022-08-15
    美团王兴深度思考  美团创业者王兴

    美团王兴深度思考 美团创业者王兴

    进入电商两年后,美团全力押注同城电商进入2022年,美团做电商的动作会越来越频繁。1月,有媒体报道美团APP上线电商一级入口。2月份,美团推出了“百宝箱”,一个种草功能,之后升级为“购物”,类似小红书。3月,美团电商新增自营品牌店,推出自营品牌频道, ...

    互联网 2 2022-08-15