NLP知识图谱学习笔记

2023-09-25 5 0

NLP知识图谱学习笔记(一、知识图谱介绍)

    • 一、知识图谱简介
      • 1.1 引言
      • 1.2 什么是知识图谱?
        • 1.2.1 什么是图(Graph)?
        • 1.2.2 什么是 Schema ?
      • 1.3 知识图谱的价值在哪?
    • 二、怎么构建知识图谱?
      • 2.1 知识图谱的数据来源于哪里?
      • 2.2 信息抽取的难点在哪里?
      • 2.3 构建知识图谱所涉及的技术?
      • 2.4、知识图谱的具体构建技术是什么?
        • 2.4.1 实体命名识别(Named Entity Recognition)
        • 2.4.2 关系抽取(Relation Extraction)
        • 2.4.3 实体统一(Entity Resolution)
        • 2.4.4 指代消解(Disambiguation)
    • 三、知识图谱的存储
    • 四、Neo4J 介绍与安装
      • 4.1 引言
      • 4.2 Neo4J 下载
      • 4.3 Neo4J 安装
      • 4.4 Neo4J Web 界面 介绍
      • 4.5 Cypher查询语言
    • 五、Neo4J 实战
      • 5.1 引言
      • 5.2 创建节点
      • 5.3 创建关系
      • 5.4 创建 出生地关系
      • 5.5 图数据库查询
      • 5.6 删除和修改
    • 六、通过 Python 操作 Neo4j
      • 6.1 neo4j模块:执行CQL ( cypher ) 语句
      • 6.2 py2neo模块:通过操作python变量,达到操作neo4j的目的
    • 七、通过csv文件批量导入图数据

本笔记仅为巩固个人学习效果、督促自我进步用,若有读者发现不正确的地方请不吝指教。

参考链接:
https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task01.md

一、知识图谱简介

1.1 引言

知识图谱(Knowledge Graph)于2012年5月16日Google的产品中发布,一个较以往更为复杂的结构化数据源被用于服务自然语言查询。

从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。

早在 2010 年微软就开始构建知识图谱,包括 Satori 和 Probase;2012 年,Google 正式发布了 Google Knowledge Graph,现在规模已超 700 亿。目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别构建了商品知识图谱。

业内布局.jpg

图 1 业内布局

业内应用.jpg

图 2 业内应用

1.2 什么是知识图谱?

从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。但这有点抽象,所以换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。

知识图谱无论它是用于可视化,搜索还是AI应用等,不过是知识或者说数据的组织形式,那为什么不叫新的数据结构而是叫它Knowledge Graph?其一是因为引入了事物或者说数据知识或者就叫strings之间的关系(Links);其二是Google打的标语非常诱人:“things, not strings”,如何让历史发展过程中一直是strings的东西去成为things,也是对我们自身形成的知识体系的探索,strings之间的relations是一个方面,使用图来表达又是一个方面,等等还有很多方面需要不断去发现探究。

1.2.1 什么是图(Graph)?

图(Graph)是由节点(Vertex)和边(Edge)来构成,多关系图一般包含多种类型的节点和多种类型的边。实体(节点)指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系(边)则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。

image.png

图 3 图(Graph)介绍

1.2.2 什么是 Schema ?
  • 知识图谱另外一个很重要的概念是 Schema:
    • 介绍:限定待加入知识图谱数据的格式;相当于某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性
    • 作用:规范结构化数据的表达,一条数据必须满足Schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中, 一图胜千言
      • 图中的DataType限定了知识图谱节点值的类型为文本、日期、数字(浮点型与整型)
      • 图中的Thing限定了节点的类型及其属性(即图1-1中的边)
代码编程
赞赏

相关文章

使用RTL-SDR和Matlab Simulink玩转软件无线电(十二)
使用RTL-SDR和Matlab Simulink玩转软件无线电(十一)
使用RTL-SDR和Matlab Simulink玩转软件无线电(十)
使用RTL-SDR和Matlab Simulink玩转软件无线电(九)
使用RTL-SDR和Matlab Simulink玩转软件无线电(八)
使用RTL-SDR和Matlab Simulink玩转软件无线电(七)