Skip to content

Instantly share code, notes, and snippets.

@pdonald
Last active August 29, 2015 13:57
 • Star 0 You must be signed in to star a gist
 • Fork 0 You must be signed in to fork a gist
Star You must be signed in to star a gist
Embed
What would you like to do?
NLP failu formāti

Tokenizēts

Formāts:

 • garums
 • tokens
 • tips
 • pozīcija
 • teikuma numurs

Specene:

 • var nebūt zināms tips, tad ir \0
 • var nebūt zināms teikumu dalījums, tad ir 0 vai nav vispār

Piemērs:

2  es     w   1   1
1        s   3   1
3  eju    w   4   1
1  .     x   7   1
1        s   8   2
2  tu     w   9   3
5  skrien   w   11   3

Ieguvumi:

 • var saglabāt visu oriģinālo tekstu, ja vēlas
 • tokens var būt jebkas (ieskaitot jaunas līnijas, specsimboli, utt.)
 • var nelikt iekšā visus tokenus, ja negrib (piem., whitespace)
 • zināms dalījums teikumos
 • var binarizēt (t.i. skaitļi kļūst par, piem., uint16)
 • gan mašīnlasāms, gan daļēji cilvēklasāms
 • ātrāka apstrāde, jo jau zināms garums

Paplašinājumi

 • parasts: .tok
 • binarizēts: .tok.bin
 • saspiests: .tok.bin.gz

Morfoloģizēts

Papildinājumi:

 • nāk klāt tags
 • var nākt klāt lemma
 • pirmais variants ir īstais

Piemērs:

2  es     w   1   1   12 p-------/es
1        s   3   1
3  eju    w   4   1   13 d-------/iet    13 n-------/eja
1  .     x   7   1   11 t-------/.
1        s   8   2
2  tu     w   9   3   12 p-------/tu
5  skrien   w   11   3   16 d-------/skriet

Ieguvumi:

 • formāts ir papildinājums tokenizētajam tekstam
 • nedublicējas rindiņas
 • joprojām cilvēklasāms

Paplašinājumi

 • paraksts: .tokm
 • binarizēts: .tokm.bin
 • saspiests: .tokm.bin.gz

Tagots

Papildinājumi:

 • var būt tikai viens marķējums

Piemērs:

2  es     w   1   1   12 p-------/es
1        s   3   1
3  eju    w   4   1   13 d-------/iet
1  .     x   7   1   11 t-------/.
1        s   8   2
2  tu     w   9   3   12 p-------/tu
5  skrien   w   11   3   16 d-------/skriet

Iegvumi:

 • formāts ir identisks tokenizētajam un tagotajam

Paplašinājumi

 • paraksts: .tokpos
 • binarizēts: .tokpos.bin
 • saspiests: .tokpos.bin.gz

Tokenizēts

Formāts:

 • tokens
 • tips
 • pozīcija
 • teikuma numurs

Specene:

 • var nebūt zināms tips, tad ir \0
 • var nebūt zināms teikumu dalījums, tad ir 0 vai nav vispār
 • tokens ir escape'ots: 0x09 (tab) kļūst par \t, 0x0A (line feed) kļūst par \n, esošs \t kļūst par \\t un \n par \\n

Piemērs:

es     w   1   1
      s   3   1
eju    w   4   1
.     x   7   1
      s   8   2
\n     s   8   2
tu     w   9   3
skrien   w   11   3

Ieguvumi:

 • var saglabāt visu oriģinālo tekstu, ja vēlas
 • tokens var būt jebkas (ieskaitot jaunas līnijas, specsimboli, utt.)
 • var nelikt iekšā visus tokenus, ja negrib (piem., whitespace)
 • zināms dalījums teikumos
 • var binarizēt (t.i. skaitļi kļūst par, piem., uint16)
 • gan mašīnlasāms, gan cilvēklasāms

Paplašinājumi

 • parasts: .tok
 • binarizēts: .tok.bin
 • saspiests: .tok.bin.gz

Morfoloģizēts

Papildinājumi:

 • nāk klāt tags
 • var nākt klāt lemma
 • pirmais variants ir īstais

Piemērs:

es     w   1   1   p-------/es
      s   3   1
eju    w   4   1   d-------/iet    n-------/eja
      x   7   1   t-------/.
      s   8   2
\n     s   8   2
tu     w   9   3   p-------/tu
skrien   w   11   3   d-------/skriet

Ieguvumi:

 • formāts ir papildinājums tokenizētajam tekstam
 • nedublicējas rindiņas
 • joprojām cilvēklasāms

Paplašinājumi

 • paraksts: .tokm
 • binarizēts: .tokm.bin
 • saspiests: .tokm.bin.gz

Tagots

Papildinājumi:

 • var būt tikai viens marķējums

Piemērs:

es     w   1   1   p-------/es
      s   3   1
eju    w   4   1   d-------/iet
.     x   7   1   t-------/.
      s   8   2
\n     s   8   2
tu     w   9   3   p-------/tu
skrien   w   11   3   d-------/skriet

Iegvumi:

 • formāts ir identisks tokenizētajam un tagotajam

Paplašinājumi

 • paraksts: .tokpos
 • binarizēts: .tokpos.bin
 • saspiests: .tokpos.bin.gz
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment