Skip to content

Instantly share code, notes, and snippets.

@ignasio
Created July 18, 2016 08:31
Show Gist options
  • Save ignasio/6eeba0123bc088cd2a84c5e92f7aa0f9 to your computer and use it in GitHub Desktop.
Save ignasio/6eeba0123bc088cd2a84c5e92f7aa0f9 to your computer and use it in GitHub Desktop.
elasticsearch config for russian morphology based on hunspell
index:
number_of_shards: 3
number_of_replicas: 0 # not for production
analysis:
char_filter:
ru:
type: mapping
mappings: ['Ё=>Е', 'ё=>е']
analyzer:
ru_RU:
tokenizer: "standard"
filter: [stopwords_ru, stop, custom_word_delimiter, lowercase, ru_RU]
filter:
ru_RU:
type: "hunspell"
language: "ru_RU"
stopwords_ru:
type: stop
stopwords: [а,без,более,бы,был,была,были,было,быть,в,вам,вас,весь,во,вот,все,всего,всех,вы,где,да,даже,для,до,его,ее,если,есть,еще,же,за,здесь,и,из,или,им,их,к,как,ко,когда,кто,ли,либо,мне,может,мы,на,надо,наш,не,него,нее,нет,ни,них,но,ну,о,об,однако,он,она,они,оно,от,очень,по,под,при,с,со,так,также,такой,там,те,тем,то,того,тоже,той,только,том,ты,у,уже,хотя,чего,чей,чем,что,чтобы,чье,чья,эта,эти,это,я]
ignore_case: true
custom_word_delimiter:
type: word_delimiter
generate_word_parts: true
generate_number_parts: true
catenate_words: true
catenate_numbers: false
catenate_all: true
split_on_case_change: true
preserve_original: true
split_on_numerics: false
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment