Skip to content

Instantly share code, notes, and snippets.

@ansjsun
Last active August 29, 2015 13:59
Show Gist options
  • Save ansjsun/10817327 to your computer and use it in GitHub Desktop.
Save ansjsun/10817327 to your computer and use it in GitHub Desktop.
知识表述

wordnet

Wordnet 的基本设计原理是它的“词汇矩阵模型” 一个词汇矩阵从理论上可以用单词与其同义词集合之间的映射来表示。当某个词有多个同义词时,通常同义词集合足以满足差异性的要求。当然,同义词是词形之间的一种词汇关系,但由于这种关系在Wordnet中被赋予了中心角色。因此,同义关系的词被放在{}中,与其他被放进[]中的词汇关系的词区别开来。Wordnet是按语义关系组织,由于语义关系是多个词义之间的关系,而词义用同义词集合来表示,因此很自然地把语义关系看作为同义词集合之间的一些指针。

entrty news epg event org actor tag

  • 1.每一个实体名词都可以用这份tag词表进行描述
  • 2.每一个文章都可以用这份tag词表进行描述
  • 3.每一个epg都可以用这份tag词表进行描述
  • 5.tag词表中的词可以重复。由文章的上下文来确定具体对应的实体
  • 6.所对应的实体,有自身的属性,这个属性具有归一化的特点。需要处理别名操作(属性目前的作用也许不是那么重要)

hownet

简介

HowNet(知网)http://www.keenage.com/html/e_index.html 是由中国科学院董振东教授开发的一个汉语和英语的常识知识库。得克萨斯大学计算机系知识系统研究小组将知网列为本体项目之一,认为:“知网是一个在线的常识知识库,用于自然语言处理。它包含中文词典中概念与概念间的关系,概念的属性与属性之间的关系。同时还包含了与中文对应的英文概念,以及概念的属性之间的关系[6]。”Hownet的基本设计原理是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与Wordnet的本质不同。Hownet的建设方法的一个重要特点是自上而下的归纳的方法。通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。无论是义原的提取还是义原的考核与确定,在Hownet的建设中都是至关重要的并具有决定意义。

概念

概念是对词汇的一种描述,每一个词可以表达为几个概念,学术一点说,就是用只是表示语言来描述,这种只是表述语言,是用词汇作义源。

义源

义源是描述概念的最小意义单位。hownet中总共有1500个义源,主要分为以下几个大类

  • 基本义源
    • 事件
    • 实体
    • 属性-属性值
    • 数量-数量值
    • 次要特征
  • 语法义源
      • 语法
  • 关系义源
    • 动态角色
    • 动态属性

义源之间存在关系

* 上下位关系
* 同义关系
* 反义关系
* 对义关系
* 属性-宿主关系
* 部件-整体关系
* 材料-成品关系
* 事件-角色关系

这些关系之间是复杂的网状结构,而非一个树状结构

特点

不是将所有的概念归结到一个树状概念层次中,而是用一系列的义源来对每一个概念进行描述。

两者的区别

1、上下位关系

 这是二者都有的。Wordnet是词义之间的语义关系。Hownet的上下位关系由概念的主要特征体现,也具有继承关系。

2、同义关系

 同义关系是二者都有的。Wordnet最重要的关系是同义关系。Hownet对于同义的定义与Wordnet相似,都采取了较宽泛的定义,只是Wordnet的同义关系是显性的,而Hownet的同义关系是隐性的。

3、反义关系

 Wordnet对于反义关系采取了直接反义和间接反义两种关系都包括的方法。Hownet中的反义关系比Wordnet定义的还要宽泛,只要属性值一样就可以形成反义关系。

总结

经过对Wordnet和Hownet的一番比较,可以看出二者虽然是两种系统,但把二者结合起来研究,找出各自的不足之处,对自然语言处理研究还是有一点帮助作用的。Wordnet的词语概念是够用,但关系方面不足以支持推理。Hownet恰恰就是这样一种推理的知识库。Wordnet可向Hownet吸取这一点。Wordnet几乎没有关于句法方法方面的标注。而Hownet作为一个面向计算机并借助于计算机建立的常识知识库,它在语义知识构建方面明显优于Wordnet,而且许多现在Wordnet正致力解决的问题,在Hownet中都不是问题。所以在面向自然语言的信息处理方面,Hownet要优于Wordnet。当然Wordnet的研究人员也从来觉得这是一个“完工”的项目,Wordnet仍在继续发展中。

@ansjsun
Copy link
Author

ansjsun commented Apr 16, 2014

7.tag是松散的。一般以名词,和形容词组成,,tag可形容可以是另一个tag。本身只是一个特征

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment