Tokenizēts
Formāts:
- garums
- tokens
- tips
- pozīcija
- teikuma numurs
Specene:
- var nebūt zināms tips, tad ir
\0
- var nebūt zināms teikumu dalījums, tad ir
0
vai nav vispār
Piemērs:
2 es w 1 1
1 s 3 1
3 eju w 4 1
1 . x 7 1
1 s 8 2
2 tu w 9 3
5 skrien w 11 3
Ieguvumi:
- var saglabāt visu oriģinālo tekstu, ja vēlas
- tokens var būt jebkas (ieskaitot jaunas līnijas, specsimboli, utt.)
- var nelikt iekšā visus tokenus, ja negrib (piem., whitespace)
- zināms dalījums teikumos
- var binarizēt (t.i. skaitļi kļūst par, piem., uint16)
- gan mašīnlasāms, gan daļēji cilvēklasāms
- ātrāka apstrāde, jo jau zināms garums
Paplašinājumi
- parasts: .tok
- binarizēts: .tok.bin
- saspiests: .tok.bin.gz
Morfoloģizēts
Papildinājumi:
- nāk klāt tags
- var nākt klāt lemma
- pirmais variants ir īstais
Piemērs:
2 es w 1 1 12 p-------/es
1 s 3 1
3 eju w 4 1 13 d-------/iet 13 n-------/eja
1 . x 7 1 11 t-------/.
1 s 8 2
2 tu w 9 3 12 p-------/tu
5 skrien w 11 3 16 d-------/skriet
Ieguvumi:
- formāts ir papildinājums tokenizētajam tekstam
- nedublicējas rindiņas
- joprojām cilvēklasāms
Paplašinājumi
- paraksts: .tokm
- binarizēts: .tokm.bin
- saspiests: .tokm.bin.gz
Tagots
Papildinājumi:
- var būt tikai viens marķējums
Piemērs:
2 es w 1 1 12 p-------/es
1 s 3 1
3 eju w 4 1 13 d-------/iet
1 . x 7 1 11 t-------/.
1 s 8 2
2 tu w 9 3 12 p-------/tu
5 skrien w 11 3 16 d-------/skriet
Iegvumi:
- formāts ir identisks tokenizētajam un tagotajam
Paplašinājumi
- paraksts: .tokpos
- binarizēts: .tokpos.bin
- saspiests: .tokpos.bin.gz