Текстовая релевантность (maxfreq – частота самого частого слова, которая имеет смысл длины документа).
Priority bonus, приоритет 7 — текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
Приоритет strict для TR — текстовый приоритет — есть все слова запроса где-то в документе (при этом они проходят контекстные ограничения запроса, например, оба слова д.б. в одном предложении).
Приоритет phrase для TR — текстовый приоритет — есть все слова запроса подряд в документе.
Наличие точной фразы (текста запроса) в заголовке (если точнее, в первом предложении документа). Контекстные ограничения и стоп слова учитываются в точности как в TRp2, т.е. factor[8] minors factor[5]
Встретился участок, прошедший кворум, в котором все словопозиции обозначены как имеющие релевантность BEST_RELEV (заголовок или meta keywords).
Длинный документ (чем длиннее документ, тем больше значение фактора).
Hitweigt — вариант текстовой релевантности, в которой веса всех хитов считаются равными (т.е. не учитывают надбавки за title и за близость слов). При этом соответствующие хиты должны пройти ограничения синтаксического колдунщика, т.е. можно считать, что фактор TRhitw равен 0 тогда и только тогда, когда SoftAndOk равен 0
Длинный текст без ссылок.
Фактор про число refines. В языке запросов есть фича user refines (‘слово, перед которым стоит знак процентика’). По задумке это означает что-то вроде ‘хорошо бы, чтобы слово в документе было’. Единственное известное ((http://staff.yandex-team.ru/gulin Андрей Гулин)) ценное использование данной фичи — это запрос [%официальный %сайт НазваниеФирмы]. Пользователям данная фича неизвестна, т.к. не описана ни в какой документации. Планируется, что она исчезнет из языка запросов, но в колдунщике слова с приоритетом USER_REFINE останутся. Фактор говорит о том, сколько максимум USER_REFINE-слов одновременно встречалось в рамках единого попадания в кворум. Считается, что их от 0 до 3 (если >3, то считается, что 3). Это число мапится в полуинтервал [0,1)
Число, на которое умножаются некоторые линковые факторы (именно, факторы номер 6, 7, 47, 66), если текстовая релевантность 0, и ссылок мало
В текстовой релевантности произошло совпадение леммы.
Dssm модель, обучена на переформулировки, в документной части использует релевантные запросу предложения
TR деленный на куб количества слов в запросе и преобразованный стандартным remapTR.
Язык документа — русский.
Простой BM25 по тексту.
Простой BM25 по парам слов — берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
BM25 от количества предложений в документе, в которых встречается.
BM25 по словам только в заголовке.
BM25 по словам только с high rel-битиками (‘значимым’, с выделением (<b> итп)).
У документа нет TR.
наличие пар слов по точной форме
количество предложений, в которых встречается много слов по точной форме
наличие слов в заголовке по точной форме
BM25 по точной форме
Простой BM25 по точной форме.
наличие пар слов c учетом синонимов (>=TxtPair)
количество предложений, в которых встречается много слов c учетом синонимов
наличие слов в заголовке c учетом синонимов
BM25 c учетом синонимов
Простой BM25 c учетом синонимов.
Относительная частота слов запроса в ссылках (1 — слова запроса часто встречаются в ссылках, 0.3 — редко); если точнее, значение этого фактора пессимизируется при условии: TR=0 && LR=0 && (нет ни одной ссылки со всеми словами запроса) && (не прошёл кворум) && (в тексте встречается хотя бы одна пара слов запроса)
Документ прошел softand по ограничениям синтаксического колдунщика. Только для документов, имеющих текстовую релевантность. Для однословных запросов всегда 1.
Качество текста. Считается по довольно сложной формуле
Качество текста (классификатор Алексеева)
Длина документа в предложениях
Тип документа — HTML
документ из порно-кишки
фэйковый документ
коммерческая страница (классификатор Савина)
в документе нет всех слов запроса (с точностью до синонима)
процент слов запроса в документе (с точностью до синонима)
в документе есть все слова запроса (с точностью до синонима)
TR по парам слов запроса в обратном порядке
TR по парам слов запроса через одно слово в текстах
процент всех слова запроса в тексте (с точностью до формы)
в документе есть все слова запроса (с точностью до формы)
Длина текста страницы в словах TLen = Map(число слов, 1/400), где Map(x, y) = x*y / (1 + x*y)
Длина максимального совпадения форм в тексте и запросе
Вес максимального совпадения форм в тексте и запросе
Длина максимального совпадения по лемме в тексте и запросе
Вес максимального совпадения по лемме в тексте и запросе
Варианты соответствующих факторов с учетом стоп слов
TR лучшего пассажа — насколько качественный сниппет может получиться
TR с дисконтом за номер предложения
На странице есть про ‘оплату SMS’.
Магазинность страницы
Порнографичность страницы
Стихотворность документа
Максимальная стихотворность четверостишья
Язык документа — английский
Запрос полностью покрывается двумя точными группами, состоящими из exact match слов запроса подряд ((http://wiki.yandex-team.ru/poiskovajaplatforma/tr/CoverageByGroups Про покрытие группами))
Cуществует группа, состоящая из exact match слов запроса, покрывающая запрос (возможно, с пропуском, добавлением или заменой слова)
Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
Язык документа кириллический
Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/antispam?v=1il#h58953-2 подробнее))
Дата документа которая прописана на странице, ремапится квадратным корнем
У документа есть текстовая релевантность
BM25, где в качестве ‘слов’ выступают выделенные сегменты запроса
Вес’ сегментов запроса в тексте
Показатель неестественности текста с точки зрения русского языка. Число плохих пар слов в тексте, перенормированное в отрезок [0,1] по формуле z/(z+10)
Доля плохих пар среди всех найденных в таблице: z/(x+1), где z – число плохих пар в тексте, а x – число ((http://wiki.yandex-team.ru/EvgenijjGrechnikov/TestSynonimizers 2000-релевантных)) пар
число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
Предыдущие факторы — исправленные
Число слов в тексте (Слово — то, что выделил леммер), отображается в [0,1] по формуле x/(x+A)
Число слов русского языка в заголовке
Средняя длина слова
Процент числа слов внутри тега <a>..</a> от числа всех слов
Процент числа слов вне тегов (вне скобок <>) от числа всех слов
Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
Число использованных в тексте 500 самых популярных слов языка, деленное на 500
Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы — число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы — ее вероятность, деленная на вероятность биграммы из первых двух слов
Разница между текущей датой и датой документа, определённой датировщиком, 1 — дата документа равна текущей, 0 — документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 — DaterAge)*60)^2 = возраст страницы в днях.
Максимальное число форм по всем словам запроса — max по всем словам запроса числа_форм_для_слова/64
Взвешенная по весам слов сумма числа форм — сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
Невзвешенная сумма числа форм — сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
Аналоги одноименных факторов, вес слова = 1
Доля разных частей речи в тексте. доля числительных (среди всех слов, у которых удалось распознать часть речи)
доля частиц
доля местоименных прилагательных
доля местоименных существительных
доля глаголов
доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: ‘колибри’ — пример неопределённого рода, который можно определять двумя способами, ‘Александра’ — омонимия).
Размер самого большого текстового сегмента страницы (из фактора [18] PureText)
DSSM модель с ранним связыванием, обученная на реформулировках и дообученная на ASR гипотезы музыкальных запросов к Алисе
DSSM модель с ранним связыванием, обученная на реформулировках и дообученная на музыкальные запросы к Алисе
Простой BM25 по парам слов — берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
Язык документа соответствует языку запроса
На странице порно реклама
BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
Фактор имени Buettcher, Clarke и Lushman (модифицированный) ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm подробнее))
Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/MPSA MPSA))
Отличается от BCLm тем, что веса всех слов считаются одинаковыми. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLm2 BCLm2))
Текстовая релевантность на основе языковой модели, учитывающая абсолютную позицию. Идем по тексту с окошком 20 слов, строим по каждому окошку языковую модель (то есть распределение вероятностей на словах русского языка) и вычисляем вероятность порождения запроса. За удаление от начала документа штрафуем модель.
Модификация фактора Bclm2, облегченная для использования в фастранке. Основное отличие состоит в том, что в BclmLite не используются абсолютные смещения слов относительно начала документа. Вместо этого фактор работает с обычными позициями вида <Номер_предложения, Позиция_в_предложении>. При этом близость между словами учитывается только внутри предложения.((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/BCLmLite BCLmLite))
Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/YMW подробнее))
uses ‘country aux tree’ (auxqc)
Страница — ‘404’ (доля токенов ‘404’ по отношению к общему числу токенов на странице)
Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. ((http://wiki.yandex-team.ru/SergejjKrylov/QueryWordCohesionTR описание))
Количество букв в сегменте Aux
Количество пробелов в сегменте Aux
Количество запятых в сегменте Content
Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
Язык документа соответствует стране запроса
Доля сегментов запроса, присутствующая в тексте
Язык документа — один из допустимых для Турции (турецкий, английский, немецкий, французский, арабский, азербайджанский) либо документ имеет нулевую длину. На поисковой стадии вычисляется только для IsRealGeoLocal запросов.
Вариация на тему ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/DBM25 DBM25)), см. ysite/yandex/relevance/dbm25.cpp
Популярность языка документа. Число от 0 до 1. ((http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/LanguagePopularity LanguagePopularity))
Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе
Размечается пул из PRS логов при помощи Bert, обученного на sinsig. На этом пуле обучается dssm модель, с использованием BaseRegionChain
BM25 заголовка страницы по её тексту
BM25 заголовка страницы по текстам ссылок на неё
Доля уникальных триграмм заголовка в триграммах ссылок
Доля уникальных триграмм ссылок в триграммах заголовка
Зарекламленность страницы
DBM отдельно по числам
DBM отдельно по гео-объектам запроса
DBM отдельно по существительным
Оценивает соответствие позиций слов в предложениях документа позициям слов в запросе.
В документе присутствует ФИО из запроса.
На документе есть прямая ссылка на файл
На документе есть ссылка на файлхостинг
Близость слов запроса к самому тяжелому слову.
Документ содержит пользовательский отзыв/комментарий
Функция правдоподобия распределения годов в документе. Временно отключен
Среднее арифметическое позиций дат в документе. Временно отключен
Доля слов документа из сегментов со score > 2.
Finetuned reformulations DSSM to commercial clicked bargain odd-like target from visit log
Фактор по ФИО из оригинального запроса Считается по содержимому документа. Алгоритм: Chain0Wcm
Запросно-документная модель навигационности.
Фактор по тексту запроса и заголовку (title) документа, оценка соответствия числовых диапазонов при словах-маркерах
Фактор по ФИО из оригинального запроса Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
Фактор по ФИО из оригинального запроса Текст документа. Алгоритм CosineMatchMaxPrediction.
Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Считается по содержимому документа. Алгоритм: Chain0Wcm
Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
Фактор по всем ФИО из оригинального запроса Агрегация по всем расширениям. Тип аггрегации по расширениям: наибольшее значение фактора; Текст документа. Алгоритм CosineMatchMaxPrediction.
DSSMное предсказание клика по данным, специфичным для Алисы
Фактор по телефонным аттрибутам tel_full из оригинального запроса Текст документа. Алгоритм агрегации весов слов Bocm15. Коэффициент нормализации 0.01.
Предсказание суммарного таймспента до конца сессии при условии реализации этой пары запрос-документ
Предсказание вклада этой пары запрос-документ в таймспент
Предсказание процента длины трека, который будет проигран при условии реализации этой пары запрос-трек
Bm15K01 factor over hits from Title
Bocm15K001 factor over hits from Title
Bm11Norm16384 factor over hits from Text
Bocm11Norm256 factor over hits from Text
CosineMatchMaxPrediction factor over hits from Text
Bm15FLogK0001 factor over hits from FieldSet2 stream
BclmWeightedFLogW0K0001 factor over hits from FieldSet3 stream
Bm15FLogW0K00001 factor over hits from FieldSetUT stream
Chain0Wcm factor over hits from Body
PairMinProximity factor over hits from Body
MinWindowSize factor over hits from Body
Нейронная модель качества контента для медицинской тематики
Нейронная модель качества контента для медицинской тематики (для экспов)
Нейронная модель качества контента для финансовой и юридической тематик
Нейронная модель качества контента для финансовой и юридической тематик (для экспов)
Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Bm11 по тексту и тайтлу документа
Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. CosineMatchMaxPrediction по тексту и тайтлу документа
Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор: Bm15 по группе стримов 2.
Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор: BclmWeightedFLogW0 по группе стримов 3.
Фактор лингвистического бустинга. Тип расширений: RequestWithRegionName. Фактор Chain0Wcm по тексту документа
Нейронная модель качества контента для sos тематики
Нейронная модель качества контента для sos тематики (для экспов)
Предсказание таймспента сессии при условии реализации данной пары запрос-документ
Фактор по оригинальному запросу. Считается по заголовку документа. Алгоритм агрегации весов слов — BclmMixPlain: линейная смесь аннотационного Bclm веса и взвешенного Positionless веса слова, затем пословные счётчики агрегируются через bm15. Коэффициент нормализации 10^(-5).
Фактор по оригинальному запросу. Считается по заголовку документа. Алгоритм CMMatchTop5AvgMatchValue.
Фактор по оригинальному запросу. Считается по заголовку документа. Степень покрытия слов запроса с точностью до формы (без синонимов).
Фактор по оригинальному запросу. Считается по заголовку документа. Вес хита умножается на 1/ (1 + позиция слова в предложении) Алгоритм агрегации весов слов: Bm15. Коэффициент нормализации 0.5.
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм агрегации весов слов — BclmMixPlain: линейная смесь аннотационного Bclm веса и взвешенного Positionless веса слова, затем пословные счётчики агрегируются через bm15. Коэффициент нормализации 10^(-5).
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм CosineMatchMaxPrediction.
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм AllWcmWeightedPrediction.
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм агрегации весов слов Bocm15. Коэффициент нормализации 0.01.
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм: QueryPartMatchSumValueAny.
Фактор по оригинальному запросу. Считается по содержимому документа. Степень покрытия слов запроса с точностью до формы (без синонимов).
Фактор по оригинальному запросу. Считается по содержимому документа. Степень покрытия слов запроса в точной форме.
Фактор по оригинальному запросу. Считается по содержимому документа. Алгоритм аггрегации весов: Bm15MaxAnnotation Коэффициент нормализации 0.01.
DSSM model trained on clicks. Takes bigrams into account. Embeddings for documents are computed offline.
Документная dssm модель language classifier rus.
Документная dssm модель language classifier eng.
Документная dssm модель language classifier other.
Предсказание DSSM модели для определения нерелевантных ответов Алисы
BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. Используются только хиты текстов.
DSSM model trained on click odd pool
DSSM model trained on click personalization pool
DSSM model trained on click triangle pool
Нейронная документная модель для поиска неожиданной жести
Исходный запрос с удалением глаголов. Считается по заголовку документа. Алгоритм агрегации весов слов: Bm15. Коэффициент нормализации 0.1.
Исходный запрос с удалением глаголов. Считается по компазиционном стриму, состоящего из токенезированного урла и заголовка документа. Алгоритм агрегации весов слов: Bm15FLogW0. Коэффициент нормализации 0.0001.
Исходный запрос с удалением глаголов. Считается по содержимому документа. Минимальный размер окна, в которой входят все слова запроса. Нормировано на число слов в запросе.
Фактор по фильтрованному оригинальному запросу: вычисляется dssm-расстояние от запроса без слов до исходного запроса, после чего происходит отсечение по порогу. Взвешенное объединение стримов Url,Title,Body,Links,CorrectedCtr,LongClick,OneClick,BrowserPageRank,SplitDwellTime,SamplePeriodDayFrc,SimpleClick,YabarVisits,YabarTime. Алгоритм агрегации весов слов: Bm15FLog (Bm15 агрегация логарифмов встречаемости слов). Коэффициент нормализации 0.001.
Фактор по фильтрованному оригинальному запросу: вычисляется dssm-расстояние от запроса без слов до исходного запроса, после чего происходит отсечение по порогу. Считается по компазиционном стриму, состоящего из токенезированного урла и заголовка документа. Алгоритм агрегации весов слов: Bm15FLogW0. Коэффициент нормализации 0.0001.
DSSM model trained on cross language CTRs using serp similarity hard miner.
Для всех слов слов запроса вычисляется вес методом query-mutation (расстояние между запросами при налиичии и отсуствии слова). Берётся сумма весов слов найденных в тайтле, делённое на сумму весов всех слов.
Для всех слов слов запроса вычисляется вес методом query-mutation (расстояние между запросами при налиичии и отсуствии слова). Берётся максимум веса среди слов, отсутсвующих в тайтле документа.
Результат применения нейронной модели, обученной отличать длинные клики от остальных событий, входом модели являтся пословные и биграмные счётчики, рассчитываемые по текстовым стримам (Body, Url).
Считается как (80-x) где x — возвраст документа в часах (непрерывно). Использует данные датировщика RobotAddTime
Считается как (10-x) где x — возвраст документа в днях (непрерывно). Использует данные датировщика RobotAddTime
Разница между текущей датой и датой документа, определённой датировщиком RobotAddTime, 1 — дата равна текущей, 0 — документу 10 дней и больше, или дата не определена
DSSM модель, которая предсказывает логарифм самого длинного клика на серпе. В качестве негативных примеров выбираем урлы из прошлых запросов этого же пользователя, причем максимальное время между запросами не более 7 минут (суперхарды по переформулировкам)
DSSM модель с ранним связыванием, обученная на переформулировках, которая предсказывает логарифм самого длинного клика на серпе.
Neural network value for contexts of query hits in document text. Predicts relevance-all-8-years. Uses formula ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1 predictions for learning.
DSSM модель, обученная на пуле переформулировок, которая в запросной части помимо самого запроса получает 4 расширения XfDt с самым большим весом
Модель, обученная на предсказание оценки формулой ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1.
Нейронная документная модель для поиска неожиданной жести (для экспов)
Модель, обученная на предсказание оценки формулой ussr-dump-20190719 prs-20190720 all-8-years [t > 0.25] CrossEntropy 20k 0.25 -S 0.8 -Z 1 и дообученная на оценки релевантности.