Skip to content

Instantly share code, notes, and snippets.

@pdonald
Last active Aug 29, 2015
Embed
What would you like to do?
NLP failu formāti

Tokenizēts

Formāts:

  • garums
  • tokens
  • tips
  • pozīcija
  • teikuma numurs

Specene:

  • var nebūt zināms tips, tad ir \0
  • var nebūt zināms teikumu dalījums, tad ir 0 vai nav vispār

Piemērs:

2    es         w      1      1
1               s      3      1
3    eju        w      4      1
1    .          x      7      1
1               s      8      2
2    tu         w      9      3
5    skrien     w      11     3

Ieguvumi:

  • var saglabāt visu oriģinālo tekstu, ja vēlas
  • tokens var būt jebkas (ieskaitot jaunas līnijas, specsimboli, utt.)
  • var nelikt iekšā visus tokenus, ja negrib (piem., whitespace)
  • zināms dalījums teikumos
  • var binarizēt (t.i. skaitļi kļūst par, piem., uint16)
  • gan mašīnlasāms, gan daļēji cilvēklasāms
  • ātrāka apstrāde, jo jau zināms garums

Paplašinājumi

  • parasts: .tok
  • binarizēts: .tok.bin
  • saspiests: .tok.bin.gz

Morfoloģizēts

Papildinājumi:

  • nāk klāt tags
  • var nākt klāt lemma
  • pirmais variants ir īstais

Piemērs:

2    es         w      1      1     12 p-------/es
1               s      3      1
3    eju        w      4      1     13 d-------/iet       13 n-------/eja
1    .          x      7      1     11 t-------/.
1               s      8      2
2    tu         w      9      3     12 p-------/tu
5    skrien     w      11     3     16 d-------/skriet

Ieguvumi:

  • formāts ir papildinājums tokenizētajam tekstam
  • nedublicējas rindiņas
  • joprojām cilvēklasāms

Paplašinājumi

  • paraksts: .tokm
  • binarizēts: .tokm.bin
  • saspiests: .tokm.bin.gz

Tagots

Papildinājumi:

  • var būt tikai viens marķējums

Piemērs:

2    es         w      1      1     12 p-------/es
1               s      3      1
3    eju        w      4      1     13 d-------/iet
1    .          x      7      1     11 t-------/.
1               s      8      2
2    tu         w      9      3     12 p-------/tu
5    skrien     w      11     3     16 d-------/skriet

Iegvumi:

  • formāts ir identisks tokenizētajam un tagotajam

Paplašinājumi

  • paraksts: .tokpos
  • binarizēts: .tokpos.bin
  • saspiests: .tokpos.bin.gz

Tokenizēts

Formāts:

  • tokens
  • tips
  • pozīcija
  • teikuma numurs

Specene:

  • var nebūt zināms tips, tad ir \0
  • var nebūt zināms teikumu dalījums, tad ir 0 vai nav vispār
  • tokens ir escape'ots: 0x09 (tab) kļūst par \t, 0x0A (line feed) kļūst par \n, esošs \t kļūst par \\t un \n par \\n

Piemērs:

es         w      1      1
           s      3      1
eju        w      4      1
.          x      7      1
           s      8      2
\n         s      8      2
tu         w      9      3
skrien     w      11     3

Ieguvumi:

  • var saglabāt visu oriģinālo tekstu, ja vēlas
  • tokens var būt jebkas (ieskaitot jaunas līnijas, specsimboli, utt.)
  • var nelikt iekšā visus tokenus, ja negrib (piem., whitespace)
  • zināms dalījums teikumos
  • var binarizēt (t.i. skaitļi kļūst par, piem., uint16)
  • gan mašīnlasāms, gan cilvēklasāms

Paplašinājumi

  • parasts: .tok
  • binarizēts: .tok.bin
  • saspiests: .tok.bin.gz

Morfoloģizēts

Papildinājumi:

  • nāk klāt tags
  • var nākt klāt lemma
  • pirmais variants ir īstais

Piemērs:

es         w      1      1     p-------/es
           s      3      1
eju        w      4      1     d-------/iet       n-------/eja
           x      7      1     t-------/.
           s      8      2
\n         s      8      2
tu         w      9      3     p-------/tu
skrien     w      11     3     d-------/skriet

Ieguvumi:

  • formāts ir papildinājums tokenizētajam tekstam
  • nedublicējas rindiņas
  • joprojām cilvēklasāms

Paplašinājumi

  • paraksts: .tokm
  • binarizēts: .tokm.bin
  • saspiests: .tokm.bin.gz

Tagots

Papildinājumi:

  • var būt tikai viens marķējums

Piemērs:

es         w      1      1     p-------/es
           s      3      1
eju        w      4      1     d-------/iet
.          x      7      1     t-------/.
           s      8      2
\n         s      8      2
tu         w      9      3     p-------/tu
skrien     w      11     3     d-------/skriet

Iegvumi:

  • formāts ir identisks tokenizētajam un tagotajam

Paplašinājumi

  • paraksts: .tokpos
  • binarizēts: .tokpos.bin
  • saspiests: .tokpos.bin.gz
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment