Skip to content

Instantly share code, notes, and snippets.

@Artiesy
Forked from lord-alfred/_README.md
Created February 1, 2023 19:58
Show Gist options
  • Save Artiesy/0d0ec3f1c60d3477552541f418f8988d to your computer and use it in GitHub Desktop.
Save Artiesy/0d0ec3f1c60d3477552541f418f8988d to your computer and use it in GitHub Desktop.
Y-Factors Formula

Y-Factors Formula

Здесь опубликованы коэффициенты для одного из внутренних ранжировщиков в поиске Яндекса. Это не итоговая формула, которая влияет на результат появления ссылки в серпе, т.к. судя по изученному коду – внутри используется несколько ранжировщиков и поисковых движков, результаты которых мержатся между собой и уже итоговый результат приводит к распределению ссылок по топу выдачи.

коэффициенты влияния на факторы

Коэффициент Название Фактора Описание Фактора
0.564095297143887 FI_URL_DOMAIN_FRACTION Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли )
0.369078039338024 FI_QUERY_DOWNER_CLICKS_COMBO фактор, хитрым образом скомбинированный из FRC и псевдо-CTR
0.345115883490577 FI_MAX_WORD_HOST_CLICKS Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
0.315439457304752 FI_MAX_WORD_HOST_YABAR Наиболее характерное слово запроса, соответствующее сайту, по данным бара
0.276250497243267 FI_IS_COM Домен в зоне .com
0.254915495706702 FI_OQ_BCLM_PLAIN BCLM по запросному индексу для владельцев
0.231000481757815 FI_OWNER_CLICKS_PCTR Кликабельность владельца независимо от запроса
0.230257144838931 FI_MAX_WORD_HOST_RANK Хост ранк по максимально выраженному слову запроса (обычно это название сайта)
0.219595036178226 FI_QUERY_DOWNER_CLICKS_PCTR Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент
0.214713693660762 FI_QUERY_DOWNER_CLICKS_FRC отношение числа кликов по данному domainId ко всем кликам по запросу
0.209866937086235 FI_DOM_PHRASE_CLICK_RANK_BI Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов)
0.209508533629415 FI_OWNER_REQS_POPULARITY Популярность owner'а в запросах
0.205699196177282 FI_HAS_NO_QUERY_SHOWS Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов.
0.205184905115480 FI_DOM_PHRASE_YABAR_BI Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов)
0.202186193546053 FI_QUERY_DOWNER_WEIGHT_CLICK w/k
0.189743110446303 FI_OWNER_NAV_QUOTA Доля кликов по навигационным запросам
0.185032224423923 FI_QUERY_DOWNER_ONLY_CLICK_RATE o/i
0.182867833093047 FI_PAGE_RANK Page rank. Фактор ремапится.
0.179216994410993 FI_QUERY_DOWNER_ONLY_CLICK_RATE_REG o/i
0.178646516342524 FI_SUBQUERY_THEME_MATCH_A Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы ((http://wiki.yandex-team.ru/EvgenijjKroxalev/subquery правила колдунщика SubquerySearch )) Тематика документа определяется автоматическим классификатором
0.166327421401765 FI_OWNER_CLICKS_PCTR_REG Кликабельность владельца независимо от запроса, отдельно по регионам
0.165031403865939 FI_HAS_DETERMINED_CITIES Для сайта определен город
0.160420713540373 FI_QUERY_DOWNER_CLICKS_COMBO_REG Query DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt
0.160379344658431 FI_HAS_NO_QUERY_DOWNER_SHOWS Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов
0.156712439907419 FI_REG_HOST_RANK Cчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями
0.152953808712409 FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATE Сумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно.
0.148292222594522 FI_QUERY_DOWNER_SATISFIED4_RATE r_s4b/(r_k + 10)
0.147136648195774 FI_QUERY_DOWNER_YABAR_VISITS
0.129668929638366 FI_OQ_BM25_LEM Bm25 по запросному индексу для domAttr
0.129641401501547 FI_FIRST_WORD_HOST_CLICKS Кликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию.
0.127979729953137 FI_YABAR_HOST_AVG_ACTIONS среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
0.126700168643196 FI_OWNER_SESS_NORM_DUR nd/k нормированное время до клика
0.125675707803009 FI_OQ_BM25_STR Bm25 по запросному индексу для domAttr
0.122090633457258 FI_QUERY_DOWNER_YABAR_AVG_TIME среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)).
0.119512833156651 FI_QUERY_DOWNER_YABAR_VISITORS
0.118638180985299 FI_QUERY_DOWNER_CLICKS_FRC_REG отношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.115262514353577 FI_QUERY_DOWNER_WEIGHT_CLICK_REG w/k
0.114624515228977 FI_MATRIXNET Ко всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы)
0.113671587879567 FI_QUERY_MINONE Возвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#minone Подробнее))
0.112928770384249 FI_TITLE_TRIGRAMS_Q Вычисляет покрытие запроса буквенными триграммами заголовка документа
0.112334631253023 FI_OQ_BM25_SYN Bm25 по запросному индексу для domAttr
0.105135837056982 FI_OQ_BCLM_WEIGHTED BCLM по запросному индексу для domAttr
0.103903118421863 FI_QUERY_COMMERCIALITY_MX Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0 ((http://wiki.yandex-team.ru/AntonNeljubin/FaktorydljaNovogoKlassifikatorazaprosov факторы классификатора))((http://wiki.yandex-team.ru/JandeksPoisk/Antispam/AntiSEO/KlassifikatorKommercheskixZaprosov еще про него))
0.102548297661617 FI_OWNER_SATISFIED4_RATE Это SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок.
0.097713692186877 FI_SHOP Это магазин предложение (определяется по характерным ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Klassificacionnye?v=tkd#h45859-4 паттернам в url`е)) ). Не используется (deprecated)
0.097073501164592 FI_IS_HUB Хабовость страницы
0.096811143316269 FI_LINK_WEIGHTED_FORMS Взвешенная по весам слов сумма числа форм
0.096447224363928 FI_DIFFERENT_INTERNAL_LINKS Количество различных внутренних ссылок на страницу
0.094045741102708 FI_NUM_LINKS_FROM_SEGMENT_CONTENT
0.093045433292429 FI_MPSA Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA))
0.089404211238337 FI_URL_LINK_PERCENT Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок
0.087850313290757 FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXED Сумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка.
0.087122791007993 FI_PAGE_RANK_UKR Украинский Page rank
0.085929172196314 FI_YABAR_HOST_VISITORS кол-во уникальных посетителей, ремапится экспоненциально
0.085276276270387 FI_DOM_PHRASE_YABAR Переходы на сайт из поисковиков по отдельным словам, по данным бара
0.084699401575226 FI_GEO_RELEV_ALIEN_CITY Результат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0)
0.084012276385059 FI_GEO_RELEV_REGION_COUNTRY Три уровня совпадения географии пользователя и страницы
0.082967074248567 FI_GEO_REGION_PROXIM
0.081289466115302 FI_IS_NOT_RU Домен не в зоне .ru
0.080331864046170 FI_SYN_FL_REMAP2 Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
0.078872214489662 FI_LINK_BREAK Аналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение.
0.077454131996933 FI_QUERY_DOWNER_CLICK_SUMMARY подобранная формула
0.076343383792772 FI_DOM_PHRASE_CLICK_RANK Кликабельность домена по словам
0.075434934641649 FI_TEXT_BM25_ATTEN_SYN TR с дисконтом за номер предложения
0.074172193125966 FI_YABAR_HOST_AVG_TIME2 среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера
0.071481760992750 FI_QUERY_DOWNER_SATISFIED4_RATE_REG r_s4b/(r_k + 10)
0.071417326810502 FI_YABAR_HOST_INTERNAL_TRAFFIC доля заходов на сайт не по ссылкам (набор руками или с закладок)
0.071242787451280 FI_PAGE_RANK_BONUS Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
0.070074395872424 FI_TITLE_IDF_SUM Idf по различным частям документа, сломаны, не используются
0.069696682544392 FI_LONGEST_TEXT Размер самого большого текстового сегмента страницы (из фактора [18] PureText)
0.069268621800152 FI_EXPECTED_FOUND Ожидаемое количество найденного по запросу
0.067151098341326 FI_YABAR_URL_VISITS Посещаемость урла по данным я-бара
0.066890922161289 FI_URL_BM25 BM25 по URL'у
0.064310714968383 FI_URL_TRIGRAMS Модель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса.
0.062753581782970 FI_LAST_WORD_HOST_CLICKS Кликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов)
0.062474190501436 FI_NON_COMM_NORM_LR_LOG_RELEV XNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов)
0.061675217167197 FI_SOWNER_MAX_SUM_SOURCE_RANK Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца.
0.061031422056552 FI_HEADING_IDF_SUM Idf по различным частям документа, сломаны, не используются
0.060594485044371 FI_LERF_LR_LOG_RELEV Линковая релевантность с учетом качества каждой ссылки
0.059222635368125 FI_BF_LEMMA_ALL Варианты соответствующих факторов с учетом стоп слов
0.058870258158539 FI_BM25F_DPR_FIXED BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. ((http://wiki.yandex-team.ru/BM25FRework Результаты тестирования.))
0.058415162135787 FI_LONG_QUERY_SYN Фактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова.
0.057053549836014 FI_PERCENT_WORDS_IN_LINKS Процент числа слов внутри тега .. от числа всех слов
0.056552232052119 FI_PAGE_REGION_SIZE_IN Размер региона страницы
0.055767877134775 FI_TLP1_ALL Варианты соответствующих факторов с учетом стоп слов
0.055185094441888 FI_URL_NGRAMS_MODEL Фактор ранжирования UrlNGramsModel в erf
0.054926147793071 FI_QUERY_REF_TRIGRAM_Q ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание))
0.054680076158058 FI_QUERY_DOWNER_CLICK_SUMMARY_REG подобранная формула
0.054576897612176 FI_LANGUAGE_COMPLIANCE Язык документа соответствует языку запроса
0.054156294329288 FI_BM25F_DPR_OBSOLETE BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
0.051465613603836 FI_GEO_CITY_PROXIM Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. Основан на ((http://wiki.yandex-team.ru/ЯндексПоиск/КлассификацияСайтовИСтраниц/Географическая/ИспользованиеВПоиске геоклассификации сайтов))
0.051057813309267 FI_YABAR_URL_VISITORS Количество уникальных посетителей урла
0.050576094170344 FI_NUM_SLASHES Число слешей в урле
0.049845924868959 FI_SR Сложносоставной static rank, собирается из статических компонентов по отдельной формуле((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/#oftnd1 *)).
0.049061648412321 FI_LINK_RELEV Линковая релевантность. Фактор ремапится.
0.047914113074106 FI_QUERY_DOWNER_CLICKS_PCTR_REG Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt
0.047164043400143 FI_TITLE_IDF_SUM_FIXED Предыдущие факторы - исправленные
0.046891090311905 FI_LINK_PAIR_SYN Наличие в ссылках пар слов c учетом синонимов
0.046783126435468 FI_Q_DIVERSITY Степень централизации точек, из которой задается запрос
0.046757967567051 FI_DBM35 BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)
0.044511155721215 FI_LERF_GEO_LR_LOG_RELEV log(LerfLR, суженной на страну пользователя)
0.042452794899003 FI_LR_GEO_RELEV_REGION_COUNTRY Три уровня совпадения региона ссылок и запроса
0.038806477920761 FI_PASSAGE_LEGACY_TR TR лучшего пассажа - насколько качественный сниппет может получиться
0.038372460585705 FI_LCOR Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
0.038263040612831 FI_STATIC_TITLE_LR_BM25 BM25 заголовка страницы по текстам ссылок на неё
0.037180373854650 FI_COUNTRY_Q_DIVERSITY Степень централизации точек, из которой задается запрос (внутри страны)
0.035447186193336 FI_LINK_BREAK_SYN Количество ссылок, прошедших порог
0.033485833700259 FI_HIT_NUM_100 Преобразованное количество слов запроса во всех линках url`а.
0.032525279432611 FI_OWNER_SDIFF_SHOW_ENTROPY Энтропия - распределение показов
0.031399776481102 FI_TLBM25 Простой BM25 по тексту и линкам одновременно.
0.031186243849340 FI_WORDS_IN_TITLE Число слов русского языка в заголовке
0.030786458206337 FI_BCLM Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее))
0.030334786608805 FI_LONG_QUERY Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'.
0.027302374355601 FI_YA_BAR Посещаемость из Бара - ((http://wiki.yandex-team.ru/AndrejjKostjagin/YaBarLog/HostStat Описание данных)). Фактор ремапится.
0.026926509552263 FI_LOG_LR Логарифм от LR, линейно отображенный в [0,1].
0.026650508120317 FI_TRIGRAMS_COND_PROB Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов
0.025806639721603 FI_URL_SESS_NORM_DUR_RATE nd/i
0.025691573951246 FI_IDF_VARIANCE Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
0.025328925792111 FI_URL_SESS_NORM_DUR_RATE_REG nd/i
0.024263431712643 FI_COUNTERS_SEARCH_TRAFFIC1 Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
0.024006117828321 FI_TEXT_BREAK_EX количество предложений, в которых встречается много слов по точной форме
0.023610887210981 FI_QUERY_URL_CLICKS_FRC_REG отношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.022803839020796 FI_TEXT_WEIGHTED_FORMS Взвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
0.021178675054476 FI_NEW_LINK_QUALITY Классификатор качества входящих ссылок 2 - сломан, см [407]
0.021178675054476 FI_NEW_LINK_QUALITY_FIXED Классификатор качества входящих ссылок 2 исправленный
0.019988663575500 FI_CATALOG_RELEV LR по каталожным описаниям
0.019740981979634 FI_SWBM25 Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
0.019580616053835 FI_MEAN_WORD_LENGTH Средняя длина слова
0.019301158836494 FI_LINKS_IN_TITLE_TRIGRAMS Доля уникальных триграмм ссылок в триграммах заголовка
0.019119257307239 FI_LINK_RELEV_PHRASE (phrase) есть все слова запроса подряд в одном линке.
0.017641843798363 FI_QSEGMENTS_BREAKS Сегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты
0.016179974819787 FI_STATIC_TITLE_BM25_EX BM25 заголовка страницы по её тексту
0.013900531929943 FI_PERIODIC_LINK_DATES_PERCENT Периодичность ссылок на сайт
0.013412340418363 FI_GSK_URL_MODEL Фактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk
0.013370500669584 FI_LR_GEO_RELEV_REGION_NATDOM
0.013171579829370 FI_GEO_COUNTRY_PROXIM Географическая близость
0.013112575551553 FI_LINK_QUALITY_FIXED Качество входящих ссылок (классификатор Лещинера) исправленный
0.012081787040108 FI_COUNTRY_QUERY_REGIONALITY Страновый классификатор локализуемости - насколько запрос подразумевает контекст страны
0.011650367441796 FI_FEM_MAS_NOUNS_PORTION доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия).
0.010872234578071 FI_SYNT_QUALITY Имеет ли запрос полный синтаксический разбор
0.010581678208134 FI_SEGMENT_AUX_ALPHAS_IN_TEXT Количество букв в сегменте Aux
0.009455905387837 FI_LINK_SPEED Число обратное дисперсии временам появления ссылок со словами запроса
0.009314594460961 FI_GEO_LR_LOG_RELEV log(LR, суженной на страну пользователя)
0.008426829629948 FI_SPAM_KARMA Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
0.007908808762912 FI_URL_LENGTH_2 Длина URL'а с точностью до символа. Отключено в продакшн.
0.006691168756865 FI_ADD_TIME Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1.
0.006678481233760 FI_YABAR_HOST_SEARCH_TRAFFIC Доля трафика с поисковых систем
0.005160158423400 FI_PHRASE Есть ссылка, прошедшая кворум
0.004768007631846 FI_OWNER_SDIFF_SHOW_ENTROPY_REG Энтропия - распределение показов. Регионализованный
0.003890338237824 FI_YABAR_URL_AVG_TIME среднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами.
0.003622338166697 FI_QUERY_ISHUM Cпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#ishum Подробнее))
0.003363499486900 FI_COMM_LINKS_SEO_HOSTS_NON_COMM Фактор CommLinksSEOHosts умноженный на NonCommercialQuery
0.003128580544172 FI_LR_AMORTIZED_BY_AGE Линковая релевантность с пессимизацией за большой возраст линка
0.002431406823392 FI_SYN_FL_REMAP1 Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
0.001181036676865 FI_Q_DIVERSITY2 Географическая распределенность запроса
0.000692523218694 FI_C_IN_DEGREE_2 Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181rh58953-4#cindegree12 подробнее))
0.000426528744914 FI_LINK_AGE Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
0.000094696411924 FI_LERF_LANG_LR_LOG_RELEV LR с учетом совпадения языка ссылки и запроса и накрученности
0.000000136522746 FI_FIELD_LM Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
-0.000807198317231 FI_DMOZ_QUERY_BEST_THEME Наиболее вероятная тема запроса, определяемая ((http://wiki.yandex-team.ru/JandeksPoisk/ZarubezhnyjjInternet/DMOZqueryClassifier1 правилом колдунщика DMOZTheme)), учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1]
-0.000832706989751 FI_PAGE_REGION_REL_COVERAGE
-0.000833437078930 FI_GOOD_RATIO Какая доля ссылок “хорошая”
-0.000843495929565 FI_GEO_GEOMETRY_PROXIM Географическая близость пользователя и сайта
-0.001158034315755 FI_URL_LEN Длина URL'а, делённая на 5
-0.001209700633070 FI_COUNTRY_Q_DIVERSITY2 Географическая распределенность запроса внутри страны
-0.001250755074786 FI_ADV_PRONOUNS_PORTION доля местоименных существительных
-0.001564275785704 FI_LINK_QUALITY Качество входящих ссылок (классификатор Лещинера) - сломан, см [405]
-0.002170850269151 FI_TRIGRAMS_PROB Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
-0.003021983245146 FI_TRLR_QUORUM_LEMMA Вес слов запроса, которые есть в тексте с точностью до леммы
-0.005028751679547 FI_TOCM Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе
-0.005085205304656 FI_QCLASS_OAO организация
-0.005976754416269 FI_ADJ_PRONOUNS_PORTION доля местоименных прилагательных
-0.006679400217070 FI_TEXT_PAIR_EX наличие пар слов по точной форме
-0.006950709230428 FI_PAGE_REGION_INV_SIZE_IN Фактор обратно пропорционален размеру региона страницы
-0.007634608393132 FI_YABAR_HOST_AVG_TIME среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста
-0.008656938143421 FI_TEXT_FORMS Невзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
-0.010850511133080 FI_SECOND_INDEG_DISTR_XI Одиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/hostdegree подробнее))
-0.011207582653854 FI_NUM_NON_LETTERS_IN_URL Количество 'небукв' в урле
-0.011221458184058 FI_LR_WITHOUT_RARE линковая релевантность без учета редких слов
-0.011296769865650 FI_OWNER_SDIFF_CSRATIO_ENTROPY Энтропия - распределение отношения клики/показы
-0.011681967583253 FI_SEGMENT_AUX_SPACES_IN_TEXT Количество пробелов в сегменте Aux
-0.012429221647235 FI_PARTICLES_PORTION доля частиц
-0.012919083353605 FI_TEXT_HEAD_SYN наличие слов в заголовке c учетом синонимов
-0.013510450334814 FI_MORNING_QUERY Запрос задают преимущественно утром
-0.015212586791057 FI_TEXT_MAX_FORMS Максимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64
-0.016033504310566 FI_TEXT_FEATURES Качество текста. Считается по довольно сложной формуле
-0.016932610010322 FI_TEXT_PAIR_W1 Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
-0.017928063556114 FI_OWNER_SDIFF_CLICK_ENTROPY Энтропия - распределение кликов
-0.018278527670779 FI_QUERY_ISORG В запросе название организации (пример: Газпром, газпрома) ((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Описание))
-0.020210221137273 FI_PERCENT_FREQ_WORDS Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
-0.020628033510418 FI_URL_QUERY_VARIETY_REG Степень разнообразия запросов, по которым кликают данный урла, cчитается по регионам
-0.020921642736537 FI_TEXT_PAIR Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
-0.022152880819573 FI_TEXT_PAIR_SYN наличие пар слов c учетом синонимов (>=TxtPair)
-0.023916010788926 FI_OWNER_SDIFF_CSRATIO_ENTROPY_REG Энтропия - распределение отношения клики/показы. Регионализованный
-0.025355498987515 FI_QDOWNER_STAT_POWER Количество показов owner'а по запросу, нормировка x/(100 + x).
-0.027287688639737 FI_QUERY_ISGEO Cпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1 (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares Подробнее))
-0.028595315195293 FI_SEO_IN_PAY_LINKS Количество входящих сео-треш ссылок между хостами
-0.028608739038830 FI_RINGS_HOST_RANK_BADNESS_3 Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее))
-0.030877746812643 FI_PAGE_REGION_SIZE Размер региона страницы
-0.032004809610482 FI_HOST_SIZE Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом)
-0.032269052994315 FI_PLM Фактор про то, наскоько хороший сниппет может получиться.
-0.032828345615772 FI_PERCENT_VISIBLE_CONTENT Процент числа слов вне тегов (вне скобок <>) от числа всех слов
-0.034716206980983 FI_PAGE_DATE Дата документа которая прописана на странице, ремапится квадратным корнем
-0.036381245328354 FI_RINGS_HOST_RANK_BADNESS_1 Дополнительные факторы про раскрученность сайта линковыми кольцами , ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=181r#h58953-4 подробнее))
-0.036532955371613 FI_RINGS_HOST_RANK_BADNESS_OLD Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
-0.037878046829073 FI_TEXT_HEAD BM25 по словам только в заголовке.
-0.039215257302626 FI_TEXT_HI_RELEV_SYN BM25 c учетом синонимов
-0.039575532416190 FI_TEXT_HEAD_EX наличие слов в заголовке по точной форме
-0.044940112806396 FI_YMW_FULL Размер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
-0.044940112806396 FI_YMW_FULL2 Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
-0.044963560309064 FI_NEVASCA2 Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
-0.045942748393758 FI_HOST_RELIABILITY доля урлов, которые отвечают без ошибок
-0.046030869083841 FI_YABAR_URL_LCAC Число сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся
-0.053739168786067 FI_QUERY_WORD_COHESION_TR Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание))
-0.057014032623374 FI_COUNTERS_SEARCH_TRAFFIC2 Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
-0.057628362537565 FI_QSEGMENTS_WEIGHT Вес' сегментов запроса в тексте
-0.057658302748215 FI_METRIKA_URL_CORE_AUDIENCE Ядро аудитории страниц на которых есть счетчик Метрики
-0.059299975637935 FI_QSEGMENTS_BM25 BM25, где в качестве 'слов' выступают выделенные сегменты запроса
-0.059871381556405 FI_QUERY_MAXONE Возвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе. (см. ((http://wiki.yandex-team.ru/AlekseySokirko/QueryObjects som-овскую разметку))).((http://wiki.yandex-team.ru/ArsenGadzhikurbanov/Wares#maxone Подробнее))
-0.060922780495065 FI_LINKS_WITH_WORDS_PERCENT Процент входящих ссылок со словами запроса
-0.062810308974889 FI_TRLR_QUORUM_FM Вес слов запроса, которые есть в тексте в точной форме
-0.063761467432684 FI_PAGE_REGION_COVERAGE
-0.063976585802142 FI_PERCENT_USED_FREQ_WORDS Число использованных в тексте 500 самых популярных слов языка, деленное на 500
-0.065082391728977 FI_LR_MAX_DPR Максимальный dpr ссылки
-0.065128132003719 FI_DOC_LEN Длина документа в предложениях
-0.066463228806236 FI_IS_COMM документ из коммерческой-кишки. Не используется (deprecated)
-0.067337343351376 FI_LARGEST_SY_INEXACT_GROUP Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
-0.068235863277027 FI_HEADING_IDF_SUM_FIXED Предыдущие факторы - исправленные
-0.069803680024687 FI_RELEV_GEO_LINKS_PERCENT
-0.070483297609751 FI_LOCM Порядок слов в ссылках.
-0.070483297609751 FI_SYNSET_LOCM Копия фактора ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Locm LOCM)) для((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/Synset синсетов)).
-0.076334972364641 FI_TITLE_IN_LINKS_TRIGRAMS Доля уникальных триграмм заголовка в триграммах ссылок
-0.077504878926916 FI_TEXT_SKIP_PAIR TR по парам слов запроса через одно слово в текстах
-0.083831128507580 FI_LINKS_WITH_ALL_WORDS_PERCENT Процент входящих ссылок со всеми словами запроса
-0.084798680877042 FI_LONG Длинный документ (чем длиннее документ, тем больше значение фактора).
-0.086731079136512 FI_NUM_LATIN_LETTERS число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
-0.091993052812036 FI_QUERY_CITY При ответе на запрос важны результаты внутри города (основная масса локализуемых запросов)
-0.094096848692163 FI_TEXT_LIKE Качество текста (классификатор Алексеева)
-0.094261219650513 FI_YANDEX_ADV На сайте есть реклама Яндекса.
-0.096496414873675 FI_QUERY_REF_TRIGRAM_R ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#queryreftrigrams описание))
-0.097277529611975 FI_AURA_DOC_LOG_AUTHOR Логарифм числа шинглов, на которых данный владелец документа признан автором
-0.097686304848915 FI_AURA_DOC_LOG_SHARED Логарифм числа шинглов, на которых данный документ не уникален
-0.109820338929289 FI_TEXT_RELEV_PHRASE Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
-0.110593487056685 FI_AURA_DOC_MEAN_SHARED_WEIGHT Средний вес не-уникальных шинглов данного документа
-0.116819481337211 FI_TEXT_BRAEK_SYN количество предложений, в которых встречается много слов c учетом синонимов
-0.118606351159510 FI_QUERY_WORD_SEQUENCES_TR Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
-0.118870879105496 FI_QUERY_DOWNER_ENOUGH_CLICKED Количество кликов по владельцу и количество кликов по запросу больше 5
-0.123814718900663 FI_ESHOP_VALUE Магазинность страницы
-0.133931985443449 FI_CLASSIF_IS_SHOP Страница — магазин. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/OpisanijaFaktorov#isshop описание)). Не используется (deprecated)
-0.141668202468497 FI_PCT_LINKS Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0
-0.160285061981584 FI_OWNER_SDIFF_CLICK_ENTROPY_REG Энтропия - распределение кликов. Регионализованный
-0.162220616846705 FI_URL_PATH_AND_PARAMS_FRACTION То же, что и предыдущий фактор, но про весь урл кроме домена
-0.168645758020604 FI_GEO_CITY_URL_REGION_COUNTRY Совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.
-0.180963639077109 FI_COMM_LINKS_SEO_HOSTS Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов))
-0.194376876842978 FI_QURL_STAT_POWER Количество показов url'а по запросу, нормировка x/(100 + x).
-0.207437366708906 FI_DATER_AGE Разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях.
-0.250928463672112 FI_ADV На сайте есть реклама.

Источники

  • search/relevance/nav_linear.h
  • search/web/rearrange/facts/fact_snippet/factor_info/snippet_factors_info/factors_gen.in
  • search/web/rearrange/facts/fact_snippet/factor_info/query_factors_info/factors_gen.in
  • search/web_fresh_detector/factors_gen.in

Разобранные факторы от других авторов

Автор

Telegram: https://t.me/Lord_Alfred

PS

Не исключено, что может придти жалоба за публикацию этих данных, поэтому чтобы не потерять их – делайте Fork себе.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment