- Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа).
- Priority bonus, приоритет 7 — текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
- Приоритет strict для TR — текстовый приоритет — есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении).
- Приоритет phrase для TR — текстовый приоритет — есть все слова запроса подряд в документе.
- Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5]
- Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords).
- Длинный документ (чем длиннее документ, тем больше значение фактора).
- Hitweigt — вариант текстовой релевантности, в которой веса всех хитов считаются равными (т.е. не учитывают надбавки за title и за близость слов). При этом соответствующие хиты должны пройти ограничения синтаксического колдунщика, т.е. можно считать, что фактор TRhitw равен 0 тогда и только тогда, когда SoftAndOk равен 0
- Длинный текст без ссылок.
- Фактор про число refines. В языке запросов есть фича user refines (‘слово, перед которым стоит знак процентика’). По задумке это означает что-то вроде ‘хорошо бы, чтобы слово в документе было’. Единственное известное ((http://staff.yandex-team.ru/gulin Андрей Гулин)) ценное использование данной фичи — это запрос [%официальный %сайт НазваниеФирмы]. Пользователям данная фича неизвестна, т.к. не описана ни в какой документации. Планируется, что она исчезнет из языка запросов, но в колдунщике слова с приоритетом USER_REFINE останутся. Фактор говорит о том, сколько максимум USER_REFINE-слов одновременно встречалось в рамках единого попадания в кворум. Считается, что их от 0 до 3 (если >3, то считается, что 3). Это число мапится в полуинтервал [0,1)
- Число, на которое умножаются некоторые линковые факторы (именно, факторы номер 6, 7, 47, 66), если текстовая релевантность 0, и ссылок мало
- В текстовой релевантности произошло совпадение леммы.
- Dssm модель, обучена на переформулировки, в документной части использует релевантные запросу предложения
- TR деленный на куб количества слов в запросе и преобразованный стандартным remapTR.
- Язык документа — русский.
- Простой BM25 по тексту.
- Простой BM25 по парам слов — берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
- BM25 от количества предложений в документе, в которых встречается.
- BM25 по словам только в заголовке.
- BM25 по словам только с high rel-битиками (‘значимым’, с выделением (<b> итп)).
- У документа нет TR.
- наличие пар слов по точной форме
- количество предложений, в которых встречается много слов по точной форме
- наличие слов в заголовке по точной форме
- BM25 по точной форме
- Простой BM25 по точной форме.
- наличие пар слов c учетом синонимов (>=TxtPair)
- количество предложений, в которых встречается много слов c учетом синонимов
- наличие слов в заголовке c учетом синонимов
- BM25 c учетом синонимов
- Простой BM25 c учетом синонимов.
- Относительная частота слов запроса в ссылках (1 — слова запроса часто встречаются в ссылках, 0.3 — редко); если точнее, значение этого фактора пессимизируется при условии: TR=0 && LR=0 && (нет ни одной ссылки со всеми словами запроса) && (не прошёл кворум) && (в тексте встречается хотя бы одна пара слов запроса)
- Документ прошел softand по ограничениям синтаксического колдунщика. Только для документов, имеющих текстовую релевантность. Для однословных запросов всегда 1.
- Качество текста. Считается по довольно сложной формуле
- Качество текста (классификатор Алексеева)
- Длина документа в предложениях
- Тип документа — HTML
- документ из порно-кишки
- фэйковый документ
- коммерческая страница (классификатор Савина)
- в документе нет всех слов запроса (с точностью до синонима)
- процент слов запроса в документе (с точностью до синонима)
- в документе есть все слова запроса (с точностью до синонима)
- TR по парам слов запроса в обратном порядке
- TR по парам слов запроса через одно слово в текстах
- процент всех слова запроса в тексте (с точностью до формы)
- в документе есть все слова запроса (с точностью до формы)
- Длина текста страницы в словах TLen = Map(число слов, 1/400), где Map(x, y) = x*y / (1 + x*y)
- Длина максимального совпадения форм в тексте и запросе
- Вес максимального совпадения форм в тексте и запросе
- Длина максимального совпадения по лемме в тексте и запросе
- Вес максимального совпадения по лемме в тексте и запросе
- Варианты соответствующих факторов с учетом стоп слов
- TR лучшего пассажа — насколько качественный сниппет может получиться
- TR с дисконтом за номер предложения
- На странице есть про ‘оплату SMS’.
- Магазинность страницы
- Порнографичность страницы
- Стихотворность документа
- Максимальная стихотворность четверостишья
- Язык документа — английский
- Запрос полностью покрывается двумя точными группами, состоящими из exact match слов запроса подряд ((http://wiki.yandex-team.ru/poiskovajaplatforma/tr/CoverageByGroups Про покрытие группами))
- Cуществует группа, состоящая из exact match слов запроса, покрывающая запрос (возможно, с пропуском, добавлением или заменой слова)
- Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
- Язык документа кириллический
- Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
- Дата документа которая прописана на странице, ремапится квадратным корнем
- У документа есть текстовая релевантность
- BM25, где в качестве ‘слов’ выступают выделенные сегменты запроса
- Вес’ сегментов запроса в тексте
- Показатель неестественности текста с точки зрения русского языка. Число плохих пар слов в тексте, перенормированное в отрезок [0,1] по формуле z/(z+10)
- Доля плохих пар среди всех найденных в таблице: z/(x+1), где z – число плохих пар в тексте, а x – число ((http://wiki.yandex-team.ru/EvgenijjGrechnikov/TestSynonimizers 2000-релевантных)) пар
- число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
- Предыдущие факторы — исправленные
- Число слов в тексте (Слово — то, что выделил леммер), отображается в [0,1] по формуле x/(x+A)
- Число слов русского языка в заголовке
- Средняя длина слова
- Процент числа слов внутри тега <a>..</a> от числа всех слов
- Процент числа слов вне тегов (вне скобок <>) от числа всех слов
- Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
- Число использованных в тексте 500 самых популярных слов языка, деленное на 500
- Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы — число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
- Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы — ее вероятность, деленная на вероятность биграммы из первых двух слов
- Разница между текущей датой и датой документа, определённой датировщиком, 1 — дата документа равна текущей, 0 — документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 — DaterAge)*60)^2 = возраст страницы в днях.
- Максимальное число форм по всем словам запроса — max по всем словам запроса числа_форм_для_слова/64
- Взвешенная по весам слов сумма числа форм — сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
- Невзвешенная сумма числа форм — сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
- Аналоги одноименных факторов, вес слова = 1
- Доля разных частей речи в тексте. доля числительных (среди всех слов, у которых удалось распознать часть речи)
- доля частиц
- доля местоименных прилагательных
- доля местоименных существительных
- доля глаголов
- доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: ‘колибри’ — пример неопределённого рода, который можно определять двумя способами, ‘Александра’ — омонимия).
- Размер самого большого текстового сегмента страницы (из фактора [18] PureText)
- DSSM модель с ранним связыванием, обученная на реформулировках и дообученная на ASR гипотезы музыкальных запросов к Алисе
- DSSM модель с ранним связыванием, обученная на реформулировках и дообученная на музыкальные запросы к Алисе
- Простой BM25 по парам слов — берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
- Язык документа соответствует языку запроса
- На странице порно реклама
- BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
- Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее))
- Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
- Вычисляет покрытие запроса буквенными триграммами заголовка документа
- Вычисляет покрытие заголовка буквенными триграммами заголовка документа
- Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
- Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA))
- Отличается от BCLm тем, что веса всех слов считаются одинаковыми. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm2 BCLm2))
- Текстовая релевантность на основе языковой модели, учитывающая абсолютную позицию. Идем по тексту с окошком 20 слов, строим по каждому окошку языковую модель (то есть распределение вероятностей на словах русского языка) и вычисляем вероятность порождения запроса. За удаление от начала документа штрафуем модель.
- Модификация фактора Bclm2, облегченная для использования в фастранке. Основное отличие состоит в том, что в BclmLite не используются абсолютные смещения слов относительно начала документа. Вместо этого фактор работает с обычными позициями вида <Номер_предложения, Позиция_в_предложении>. При этом близость между словами учитывается только внутри предложения.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLmLite BCLmLite))
- Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
- uses ‘country aux tree’ (auxqc)
- Страница — ‘404’ (доля токенов ‘404’ по отношению к общему числу токенов на странице)
- Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание))
- Количество букв в сегменте Aux
- Количество пробелов в сегменте Aux
- Количество запятых в сегменте Content
- Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
- Язык документа соответствует стране запроса
- Доля сегментов запроса, присутствующая в тексте
- Язык документа — один из допустимых для Турции (турецкий, английский, немецкий, французский, арабский, азербайджанский) либо документ имеет нулевую длину. На поисковой стадии вычисляется только для IsRealGeoLocal запросов.
- Вариация на тему ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/DBM25 DBM25)), см. ysite/yandex/relevance/dbm25.cpp
- Популярность языка документа. Число от 0 до 1. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/LanguagePopularity LanguagePopularity))
- Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе
- Размечается пул из PRS логов при помощи Bert, обученного на sinsig. На этом пуле обучается dssm модель, с использованием BaseRegionChain
- BM25 заголовка страницы по её тексту
- BM25 заголовка страницы по текстам ссылок на неё
- Доля уникальных триграмм заголовка в триграммах ссылок
- Доля уникальных триграмм ссылок в триграммах заголовка
- Зарекламленность страницы
- DBM отдельно по числам
- DBM отдельно по гео-объектам запроса
- DBM отдельно по существительным
- Оценивает соответствие позиций слов в предложениях документа позициям слов в запросе.
- В документе присутствует ФИО из запроса.
- На документе есть прямая ссылка на файл
- На документе есть ссылка на файлхостинг
- Близость слов запроса к самому тяжелому слову.
- Документ содержит пользовательский отзыв/комментарий
- Функция правдоподобия распределения годов в документе. Временно отключен
- Среднее арифметическое позиций дат в документе. Временно отключен
- Доля слов документа из сегментов со score > 2.
- Finetuned reformulations DSSM to commercial clicked bargain odd-like target from visit log
- Фактор по ФИО из оригинального запроса Считается по содержимому документа. Алгоритм: Chain0Wcm
- Запросно-документная модель навигационности.
- Фактор по тексту запроса и заголовку (title) документа, оценка соответствия числовых диапазонов при словах-маркерах
- Фактор по ФИО из оригинального запроса Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
- Фактор по ФИО из оригинального запроса Текст документа. Алгоритм CosineMatchMaxPrediction.
- Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Считается по содержимому документа. Алгоритм: Chain0Wcm
- Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
- Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Текст документа. Алгоритм CosineMatchMaxPrediction.
- DSSMное предсказание клика по данным, специфичным для Алисы
- Фактор по телефонным аттрибутам tel_full из оригинального запроса Текст документа. Алгоритм агрегации весов слов Bocm15. Коэффициент нормализации 0.01.
- Предсказание суммарного таймспента до конца сессии при условии реализации этой пары запрос-документ
- Предсказание вклада этой пары запрос-документ в таймспент
- Предсказание процента длины трека, который будет проигран при условии реализации этой пары запрос-трек
- Bm15K01 factor over hits from Title
- Bocm15K001 factor over hits from Title
- Bm11Norm16384 factor over hits from Text
- Bocm11Norm256 factor over hits from Text
- CosineMatchMaxPrediction factor over hits from Text
- Bm15FLogK0001 factor over hits from FieldSet2 stream
- BclmWeightedFLogW0K0001 factor over hits from FieldSet3 stream
- Bm15FLogW0K00001 factor over hits from FieldSetUT stream
- Chain0Wcm factor over hits from Body
- PairMinProximity factor over hits from Body
- MinWindowSize factor over hits from Body
- Нейронная модель качества контента для медицинской тематики
- Нейронная модель качества контента для медицинской тематики (для экспов)
- Нейронная модель качества контента для финансовой и юридической тематик
- Нейронная модель качества контента для финансовой и юридической тематик (для экспов)
- Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Bm11 по тексту и тайтлу документа
- Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. CosineMatchMaxPrediction по тексту и тайтлу документа
- Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор: Bm15 по группе стримов 2.
- Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор: BclmWeightedFLogW0 по группе стримов 3.
- Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор Chain0Wcm по тексту документа
- Нейронная модель качества контента для sos тематики
- Нейронная модель качества контента для sos тематики (для экспов)
- Предсказание таймспента сессии при условии реализации данной пары запрос-документ
- Фактор по оригинальному запросу. Считается по заголовку документа. Алгоритм агрегации весов слов — BclmMixPlain: линейная смесь аннотационного Bclm веса и взвешенного Positionless веса слова, затем пословные счётчики агрегируются через bm15. Коэффициент нормализации 10^(-5).
- Фактор по оригинальному запросу. Считается по заголовку документа. Алгоритм CMMatchTop5AvgMatchValue.
- Фактор по оригинальному запросу. Считается по заголовку документа. Степень покрытия слов запроса с точностью до формы (без синонимов).
- Фактор по оригинальному запросу. Считается по заголовку документа. Вес хита умножается на 1/ (1 + позиция слова в предложении) Алгоритм агрегации весов слов: Bm15. Коэффициент нормализации 0.5.
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм агрегации весов слов — BclmMixPlain: линейная смесь аннотационного Bclm веса и взвешенного Positionless веса слова, затем пословные счётчики агрегируются через bm15. Коэффициент нормализации 10^(-5).
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм CosineMatchMaxPrediction.
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм AllWcmWeightedPrediction.
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм агрегации весов слов Bocm15. Коэффициент нормализации 0.01.
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм: QueryPartMatchSumValueAny.
- Фактор по оригинальному запросу. Считается по содержимому документа. Степень покрытия слов запроса с точностью до формы (без синонимов).
- Фактор по оригинальному запросу. Считается по содержимому документа. Степень покрытия слов запроса в точной форме.
- Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм аггрегации весов: Bm15MaxAnnotation Коэффициент нормализации 0.01.
- DSSM model trained on clicks. Takes bigrams into account. Embeddings for documents are computed offline.
- Документная dssm модель language classifier rus.
- Документная dssm модель language classifier eng.
- Документная dssm модель language classifier other.
- Предсказание DSSM модели для определения нерелевантных ответов Алисы
- BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. Используются только хиты текстов.
- DSSM model trained on click odd pool
- DSSM model trained on click personalization pool
- DSSM model trained on click triangle pool
- Нейронная документная модель для поиска неожиданной жести
- Исходный запрос с удалением глаголов. Считается по заголовку документа. Алгоритм агрегации весов слов: Bm15. Коэффициент нормализации 0.1.
- Исходный запрос с удалением глаголов. Считается по компазиционном стриму, состоящего из токенезированного урла и заголовка документа. Алгоритм агрегации весов слов: Bm15FLogW0. Коэффициент нормализации 0.0001.
- Исходный запрос с удалением глаголов. Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
- Фактор по фильтрованному оригинальному запросу: вычисляется dssm-расстояние от запроса без слов до исходного запроса, после чего происходит отсечение по порогу. Взвешенное объединение стримов Url,Title,Body,Links,CorrectedCtr,LongClick,OneClick,BrowserPageRank,SplitDwellTime,SamplePeriodDayFrc,SimpleClick,YabarVisits,YabarTime. Алгоритм агрегации весов слов: Bm15FLog (Bm15 агрегация логарифмов встречаемости слов). Коэффициент нормализации 0.001.
- Фактор по фильтрованному оригинальному запросу: вычисляется dssm-расстояние от запроса без слов до исходного запроса, после чего происходит отсечение по порогу. Считается по компазиционном стриму, состоящего из токенезированного урла и заголовка документа. Алгоритм агрегации весов слов: Bm15FLogW0. Коэффициент нормализации 0.0001.
- DSSM model trained on cross language CTRs using serp similarity hard miner.
- Для всех слов слов запроса вычисляется вес методом query-mutation (расстояние между запросами при налиичии и отсуствии слова). Берётся сумма весов слов найденных в тайтле, делённое на сумму весов всех слов.
- Для всех слов слов запроса вычисляется вес методом query-mutation (расстояние между запросами при налиичии и отсуствии слова). Берётся максимум веса среди слов, отсутсвующих в тайтле документа.
- Результат применения нейронной модели, обученной отличать длинные клики от остальных событий, входом модели являтся пословные и биграмные счётчики, рассчитываемые по текстовым стримам (Body, Url).
- Считается как (80-x) где x — возвраст документа в часах (непрерывно). Использует данные датировщика RobotAddTime
- Считается как (10-x) где x — возвраст документа в днях (непрерывно). Использует данные датировщика RobotAddTime
- Разница между текущей датой и датой документа, определённой датировщиком RobotAddTime, 1 — дата равна текущей, 0 — документу 10 дней и больше, или дата не определена
- DSSM модель, которая предсказывает логарифм самого длинного клика на серпе. В качестве негативных примеров выбираем урлы из прошлых запросов этого же пользователя, причем максимальное время между запросами не более 7 минут (суперхарды по переформулировкам)
- DSSM модель с ранним связыванием, обученная на переформулировках, которая предсказывает логарифм самого длинного клика на серпе.
- Neural network value for contexts of query hits in document text. Predicts relevance-all-8-years. Uses formula ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1 predictions for learning.
- DSSM модель, обученная на пуле переформулировок, которая в запросной части помимо самого запроса получает 4 расширения XfDt с самым большим весом
- Модель, обученная на предсказание оценки формулой ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1.
- Нейронная документная модель для поиска неожиданной жести (для экспов)
- Модель, обученная на предсказание оценки формулой ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1 и дообученная на оценки релевантности.