В этой статье мы погрузимся во внутреннюю работу Google — инструмента, которым мы пользуемся ежедневно, но который мало кто понимает по-настоящему. После недавней утечки документов по антимонопольному иску против Google у нас появилась уникальная возможность изучить алгоритмы Google. Некоторые из этих алгоритмов уже были известны, но интерес представляет внутренняя информация, которой мы никогда не делились. Мы изучим, как эти технологии обрабатывают наши поисковые запросы и определяют результаты, которые мы видим. В этом анализе я стремлюсь дать четкое и детальное представление о сложных системах, стоящих за каждым поиском Google. Более того, я попытаюсь представить архитектуру Google в виде диаграммы с учетом новых открытий.
Выводы:
Система искусственного интеллекта Google, RankBrain, улучшает результаты поиска, понимая язык и намерения запросов. Navboost анализирует взаимодействие пользователей с результатами поиска, а DeepRank и RankEmbed-BERT улучшают понимание запросов. MUM обрабатывает информацию на разных языках и в разных форматах, а Google использует такие метрики, как IS Score, и проводит эксперименты для повышения качества поиска. Свежесть и интеграция с Chrome — важные факторы доминирования в поиске.
Клики пользователей и человеческие оценки — важные факторы ранжирования результатов поиска Google, позволяющие постоянно вносить коррективы и улучшения. Сочетание автоматической обратной связи и человеческого контроля помогает Google понимать запросы и адаптироваться к меняющимся тенденциям. Кроме того, интеграция Google Chrome с Google Search оказывает значительное влияние на цифровой ландшафт.
Краткий пересказ статьи:
- RankBrain — это система искусственного интеллекта и машинного обучения Google, запущенная в 2015 году. Она улучшает обработку результатов поиска, понимая язык и намерения за запросами. RankBrain является третьим по важности фактором в ранжировании Google и использует тензорные процессоры (TPU) для повышения вычислительной мощности. Компонентами RankBrain являются QBST и Term Weighting, которые фокусируются на важных терминах в запросе и ранжируют результаты. BERT, хотя и эффективен, имеет ограничения в работе с большими системами запоминания, такими как QBST.
- Navboost — ключевой фактор для Google, улучшающий ранжирование результатов поиска. Он анализирует взаимодействие пользователей с результатами поиска, основываясь на их кликах, чтобы определить качество результатов. Эта система использует алгоритмы машинного обучения, обученные на основе человеческих оценок, для улучшения ранжирования. Удаление Navboost приводило к ухудшению результатов, что подтверждает его важность для Google.
- DeepRank — это шаг вперед в понимании естественного языка для поисковых систем. Он основан на BERT и помогает системе лучше понимать намерения и контекст запросов. DeepRank обучается на большом объеме данных и использует отзывы о кликах и человеческие оценки для точной настройки результатов поиска, делая их более релевантными для пользовательских запросов.
- RankEmbed вероятно предназначена для встраивания релевантных признаков для ранжирования в поисковой системе Google. RankEmbed-BERT, улучшенная версия, комбинирует алгоритм и структуру BERT для лучшего понимания языка. Обучается на части трафика с использованием данных о кликах и запросах, а также данными от человеческих экспертов. RankEmbed-BERT вносит вклад в ранжирование Google, работая после первичного получения результатов.
- MUM — мультимодальная система понимания языка Google, запущенная в 2021 году. Она обрабатывает информацию на 75 языках и в различных форматах, обеспечивая более полные и контекстные ответы. Tangram собирает данные из Glue для формирования SERP, включая нетекстовые элементы. Freshness Node и Instant Glue обеспечивают актуальность результатов. Google объединяет эти алгоритмы для понимания запроса, определения релевантности, приоритета свежести и персонализации результатов. Tangram,
- Glue и RankEmbed-BERT — ключевые инновации в поиске.
Google использует ряд метрик для оценки качества поиска и корректировки факторов ранжирования. Одной из таких метрик является IS Score (Information Satisfaction Score), который формируется на основе оценок экспертов по качеству результатов поиска. IS Score используется для сравнения работы Google с другими поисковыми системами и для обучения моделей, таких как RankBrain и RankEmbed BERT. Другая метрика, IS4@5, оценивает качество верхних пяти результатов поиска, но ограничена в своей способности учитывать все аспекты качества поиска, такие как реклама. Несмотря на важность экспертных оценок, они могут быть ограничены в своей способности оценить релевантность и свежесть результатов. Это вызывает проблемы, такие как временные несоответствия, повторное использование оценок и оценка популярности запросов. Однако Google стремится улучшить оценку качества поиска, учитывая разнообразие факторов и ограничений, связанных с человеческими экспертными оценками. - Google проводит эксперименты с реальным трафиком, чтобы проверить новые функции перед их общим внедрением. Они активируют эти функции для маленькой группы пользователей и сравнивают их поведение с теми, у кого эти функции не активированы. Они анализируют данные, такие как клики на результаты, количество запросов, отказы и время до клика, чтобы понять, насколько полезны новые функции. В судебных документах упоминаются две основные метрики: взвешенные по позиции длительные клики и внимание, которые помогают оценить удовлетворенность пользователей и их взаимодействие с результатами поиска. Google также использует чередование для тестирования алгоритмов вместо традиционных A/B-тестов, что помогает им быстро и надежно оценивать изменения в рейтинге.
- Свежесть играет ключевую роль в результатах и функциях поиска. Google стремится показывать актуальную информацию и прекращать показ устаревшего контента. Они используют различные метрики для определения свежести контента и его релевантности. Система индексирования определяет приоритеты документов с учетом задержки, стоимости и качества. Роль узла свежести заключается в поддержке актуальности результатов. Google использовал систему Caffeine для этой цели, которая была заменена новой, более гибкой структурой микросервисов. Метрики свежести включают коррелированные нграммы и термины, униграммы, время события, сущности графа знаний и другие. Эта информация важна для цифровых редакторов и специалистов в области медиа.
- Экспертное мнение и внутренние данные Google подтверждают, что Chrome не просто браузер, а ключевой инструмент в стратегии поискового доминирования компании. Интеграция Chrome с Google Search дает компании значительное преимущество в контроле над информационным потоком и цифровой рекламой. Пользователи часто предпочитают Google из-за удобства его стандартной настройки и связанных с ней когнитивных предубеждений. Установленные по умолчанию настройки конфиденциальности также создают препятствия для изменения предпочтений пользователей, что усиливается поведенческими факторами, такими как статус-кво и неприятие потерь.
- Изучив внутренние механизмы Google, мы видим, что клики пользователей и человеческие оценки играют ключевую роль в определении ранжирования результатов поиска. Эти данные помогают Google улучшать свои алгоритмы и делать поиск более релевантным и точным. Однако, несмотря на желание точности, иногда цифры могут не совпадать. Человеческий фактор остается неотъемлемой частью этого процесса, даже в мире искусственного интеллекта. Взаимодействие автоматической обратной связи и человеческого контроля позволяет Google лучше понимать потребности пользователей и адаптироваться к изменяющимся трендам. С развитием искусственного интеллекта будет интересно увидеть, как Google будет балансировать между этими аспектами, чтобы улучшить поисковый опыт в постоянно меняющейся среде с учетом конфиденциальности.
- Chrome, в свою очередь, представляет собой не просто браузер, а ключевой элемент цифрового господства Google. Его интеграция с Google Search и установка по умолчанию влияют на динамику рынка и цифровую среду. Вопросы антимонопольного регулирования вызывают интерес, особенно учитывая предыдущие штрафы, но они продолжают оставаться доминирующими игроками в индустрии.
Алгоритмы Google раскрыты
Сначала мы сосредоточимся на извлечении всех алгоритмов, упомянутых в двух документах. Первый касается показаний Панду Наяка (вице-президента Alphabet), а второй — опровергающих показаний профессора Дугласа У. Оарда, касающихся мнений, высказанных экспертом Google, профессором Эдвардом А. Фоксом, в его отчете от 3 июня 2022 года. В этом последнем документе обсуждался знаменитый и противоречивый «отчет Фокса», в котором Google манипулировала экспериментальными данными, пытаясь продемонстрировать, что данные пользователей не так уж важны для них. Я постараюсь объяснить каждый алгоритм, основываясь на официальной информации, если таковая имеется, а затем помещу информацию, извлеченную из эксперимента, в изображение.
Navboost
Для Google это ключевой и один из самых важных факторов. Об этом также стало известно из утечки «Проекта Веритас» 2019 года, поскольку Пол Хаар добавил это в свое резюме
Navboost собирает данные о том, как пользователи взаимодействуют с результатами поиска, в частности, через их клики по различным запросам. Эта система регистрирует клики и использует алгоритмы, которые учатся на основе человеческих оценок качества, чтобы улучшить ранжирование результатов. Идея заключается в том, что если результат часто выбирают (и положительно оценивают) по определенному запросу, то он, вероятно, должен иметь более высокий рейтинг. Интересно, что много лет назад Google экспериментировал с удалением Navboost и обнаружил, что результаты ухудшились.
RankBrain
RankBrain, запущенная в 2015 году, — это система искусственного интеллекта и машинного обучения Google, необходимая для обработки результатов поиска. Благодаря машинному обучению она постоянно совершенствует свою способность понимать язык и намерения, стоящие за поисковыми запросами, и особенно эффективна в интерпретации неоднозначных или сложных запросов. Считается, что он стал третьим по важности фактором в ранжировании Google после контента и ссылок. В нем используется блок тензорной обработки (TPU), что значительно повышает его вычислительные возможности и энергоэффективность.
Я делаю вывод, что QBST и Term Weighting являются компонентами RankBrain. Поэтому я включил их сюда. QBST (Query Based Salient Terms) фокусируется на наиболее важных терминах в запросе и связанных с ним документах, используя эту информацию для влияния на ранжирование результатов. Это означает, что поисковая система может быстро распознать наиболее важные аспекты запроса пользователя и определить приоритетность соответствующих результатов. Например, это особенно полезно для неоднозначных или сложных запросов. В свидетельском документе QBST упоминается в контексте ограничений BERT. В частности, говорится, что «BERT не является частью больших систем запоминания, таких как navboost, QBST и т. д.». Это означает, что, несмотря на высокую эффективность BERT в понимании и обработке естественного языка, у него есть определенные ограничения, одним из которых является его способность справиться с крупными системами запоминания, такими как QBST, или заменить их.
Взвешивание терминов регулирует относительную важность отдельных терминов в запросе, основываясь на том, как пользователи взаимодействуют с результатами поиска. Это помогает определить, насколько релевантны определенные термины в контексте запроса. Взвешивание также эффективно обрабатывает термины, которые очень часто или очень редко встречаются в базе данных поисковой системы, тем самым балансируя результаты.
DeepRank
Это шаг вперед в понимании естественного языка, позволяющий поисковой системе лучше понимать намерения и контекст запросов. Это достигается благодаря BERT; по сути, DeepRank — это внутреннее название BERT. Благодаря предварительному обучению на большом количестве документов и корректировке с помощью отзывов о кликах и человеческих оценок DeepRank может точно настроить результаты поиска, чтобы они были более интуитивными и релевантными тому, что пользователи действительно ищут.
RankEmbed
RankEmbed, вероятно, ориентирована на задачу встраивания релевантных признаков для ранжирования. Хотя в документах нет никаких подробностей о его функциях и возможностях, мы можем сделать вывод, что это система глубокого обучения, предназначенная для улучшения процесса классификации поиска Google.
RankEmbed-BERT
RankEmbed-BERT — это улучшенная версия RankEmbed, объединяющая алгоритм и структуру BERT. Эта интеграция была проведена для того, чтобы значительно улучшить возможности RankEmbed по пониманию языка. Его эффективность может снизиться, если его не переучивать на свежие данные. Для его обучения используется лишь небольшая часть трафика, что говорит о том, что нет необходимости использовать все доступные данные. RankEmbed-BERT, наряду с другими моделями глубокого обучения, такими как RankBrain и DeepRank, вносит свой вклад в итоговое ранжирование в поисковой системе Google, но работает после первичного получения результатов (повторного ранжирования). Она обучается на данных о кликах и запросах и точно настраивается с помощью данных от человеческих экспертов (IS), и ее обучение требует больших вычислительных затрат, чем обучение моделей с прямолинейным движением, таких как RankBrain.
MUM
Он примерно в 1000 раз мощнее, чем BERT, и представляет собой значительное усовершенствование поиска Google. Запущенный в июне 2021 года, он не только понимает 75 языков, но и является мультимодальным, то есть может интерпретировать и обрабатывать информацию в различных форматах. Эта мультимодальная способность позволяет MUM предлагать более полные и контекстные ответы, уменьшая необходимость в многократном поиске для получения подробной информации. Однако его использование очень избирательно из-за высокой вычислительной нагрузки.
Танграм и «клей»
Все эти системы работают вместе в рамках Tangram, который отвечает за сборку SERP с помощью данных из Glue. Это не просто ранжирование результатов, а их организация в полезном и доступном для пользователей виде, с учетом таких элементов, как карусели изображений, прямые ответы и другие нетекстовые элементы.
Наконец, Freshness Node и Instant Glue обеспечивают актуальность результатов, придавая больший вес свежей информации, что особенно важно при поиске новостей или текущих событий.
В своем исследовании они ссылаются на теракт в Ницце, где основное намерение запроса изменилось в день теракта, что привело к тому, что Instant Glue подавил общие изображения Танграма и вместо этого продвинул соответствующие новости и фотографии из Ниццы («nice pictures» против «Nice pictures»):
При всем этом Google объединяет эти алгоритмы, чтобы:
- Понять запрос: Расшифровывать намерения, стоящие за словами и фразами, которые пользователи вводят в строку поиска.
- Определить релевантность: Ранжирование результатов на основе соответствия их содержания запросу, используя сигналы от прошлых взаимодействий и рейтинги качества.
- Приоритет свежести: Обеспечение того, чтобы самая свежая и релевантная информация поднималась в рейтинге, когда это важно.
- Персонализация результатов: Привязка результатов поиска не только к запросу, но и к контексту пользователя, например, к его местоположению и используемому устройству. Вряд ли можно придумать что-то более персонализированное, чем это.
Из всего, что мы видели до сих пор, я считаю, что Tangram, Glue и RankEmbed-BERT — это единственные новинки, просочившиеся в сеть на сегодняшний день. Как мы уже видели, эти алгоритмы питаются различными метриками, которые мы сейчас разложим по полочкам, снова извлекая информацию из испытания.
Метрики, используемые Google для оценки качества поиска
В этом разделе мы снова сосредоточимся на опровержении показаний профессора Дугласа У. Оарда и включим информацию из предыдущей утечки — «Проекта Веритас». На одном из слайдов было показано, что Google использует следующие метрики для разработки и корректировки факторов, которые алгоритм учитывает при ранжировании результатов поиска, а также для отслеживания того, как изменения в алгоритме влияют на качество результатов поиска. Цель — попытаться уловить в них намерение пользователя.
1. IS Score
Специалисты по оценке играют важнейшую роль в разработке и совершенствовании поисковых продуктов Google. Благодаря их работе создается метрика, известная как «IS score» (Information Satisfaction Score, от 0 до 100), которая формируется на основе оценок экспертов и используется в качестве основного показателя качества в Google. Оценка производится анонимно, когда оценщики не знают, тестируют ли они Google или Bing, и используется для сравнения работы Google с его главным конкурентом. Оценки ИБ не только отражают воспринимаемое качество, но и используются для обучения различных моделей в поисковой системе Google, включая алгоритмы классификации, такие как RankBrain и RankEmbed BERT. Согласно документам, с 2021 года используется IS4. IS4 считается приблизительным значением полезности для пользователя и должен рассматриваться как таковой. Он описывается как, возможно, самая важная метрика ранжирования, но при этом подчеркивается, что он является приблизительным и подвержен ошибкам, о которых мы поговорим позже.
Также упоминается производная от этой метрики, IS4@5. Метрика IS4@5 используется Google для оценки качества результатов поиска, уделяя особое внимание первым пяти позициям. В эту метрику входят и специальные поисковые функции, такие как OneBox (известные как «синие ссылки»). Существует вариант этой метрики, названный IS4@5 web, который фокусируется исключительно на оценке первых пяти веб-результатов, исключая другие элементы, такие как реклама в результатах поиска.
Хотя IS4@5 полезен для быстрой оценки качества и релевантности верхних результатов поиска, сфера его применения ограничена. Она не охватывает все аспекты качества поиска, в частности, не учитывает такие элементы, как реклама в результатах. Поэтому метрика дает неполное представление о качестве поиска. Для полной и точной оценки качества результатов поиска Google необходимо учитывать более широкий спектр показателей и факторов, подобно тому, как общее состояние здоровья оценивается по целому ряду показателей, а не только по весу. Ограничения человеческих оценщиков Специалисты по оценке сталкиваются с рядом проблем, таких как понимание технических запросов, оценка популярности продуктов или интерпретаций запросов. Кроме того, языковые модели, такие как MUM, могут прийти к пониманию языка и глобальных знаний так же, как и человеческие оценщики, что создает как возможности, так и проблемы для будущего оценки релевантности. Несмотря на их важность, их точка зрения значительно отличается от точки зрения реальных пользователей. Эксперты могут не обладать конкретными знаниями или предыдущим опытом, который может быть у пользователей в отношении темы запроса, что может повлиять на их оценку релевантности и качества результатов поиска. На основе утечек документов 2018 и 2021 годов мне удалось составить список всех ошибок, которые Google признает в своих внутренних презентациях.
- Временные несоответствия: Несоответствия могут возникать из-за того, что запросы, оценки и документы могут быть сделаны в разное время, что приводит к оценкам, которые не совсем точно отражают текущую релевантность документов.
- Повторное использование оценок: Практика повторного использования оценок для быстрой оценки и контроля затрат может привести к тому, что оценки не будут отражать текущую свежесть или актуальность контента.
- Понимание технических запросов: Специалисты по оценке могут не понимать технические запросы, что приводит к трудностям в оценке релевантности специализированных или нишевых тем.
- Оценка популярности: Специалистам по оценке сложно определить популярность среди интерпретаций запросов конкурентов или конкурирующих продуктов, что может повлиять на точность их оценок.
- Разнообразие специалистов по оценке: Отсутствие разнообразия среди оценщиков в некоторых местах, а также тот факт, что все они являются взрослыми, не отражает разнообразия пользовательской базы Google, которая включает несовершеннолетних.
- Пользовательский контент: Эксперты, как правило, сурово относятся к пользовательскому контенту, что может привести к недооценке его ценности и значимости, несмотря на то что он полезен и актуален.
- Обучение узлов свежести: Они сигнализируют о проблемах с настройкой моделей свежести из-за отсутствия адекватных обучающих меток.
- Человеческие эксперты часто не уделяют достаточного внимания аспекту свежести релевантности или не имеют временного контекста для запроса.
- Это приводит к недооценке последних результатов для запросов, ищущих новизну. Существующая утилита Tangram Utility, основанная на IS и используемая для обучения кривых релевантности и других скоринговых кривых, страдает от той же проблемы. Из-за ограничений, связанных с человеческими метками, кривые оценки узла свежести были вручную скорректированы после его первого выпуска.
Я искренне верю, что за эффективное функционирование «паразитного SEO» отвечают человеческие оценщики, о чем, наконец, стало известно Дэнни Салливану и о чем он поделился в этом твите:
Если мы посмотрим на изменения в последних рекомендациях по качеству, то увидим, как они окончательно скорректировали определение метрики «Удовлетворение потребностей» и включили новый пример для оценщиков, согласно которому, даже если результат является авторитетным, если он не содержит информации, которую ищет пользователь, он не должен оцениваться так высоко.
Новый запуск Google Notes, как мне кажется, также указывает на эту причину. Google не в состоянии со 100-процентной уверенностью определить, что представляет собой качественный контент.
Я верю, что эти события, о которых я рассказываю, произошедшие почти одновременно, не являются совпадением и что вскоре мы увидим изменения.
2. PQ (Качество страницы)
Здесь я делаю вывод, что они говорят о Page Quality, так что это моя интерпретация. Если так, то в судебных документах нет ничего, кроме упоминания о нем как об используемой метрике. Единственный официальный документ, в котором упоминается PQ, — это Search Quality Rater Guidelines, который со временем меняется. Таким образом, это еще одна задача для человеческих оценщиков.
Эта информация также передается алгоритмам для создания моделей. Здесь мы можем увидеть предложение о такой утечке в «Проекте Веритас»:
Интересный момент: согласно документам, специалисты по оценке качества оценивают только страницы на мобильных устройствах.
3. Side-by-Side
Вероятно, это относится к тестам, в которых два набора результатов поиска размещаются рядом друг с другом, чтобы эксперты могли сравнить их относительное качество. Это помогает определить, какой набор результатов более релевантен или полезен для данного поискового запроса. Если это так, то я помню, что у Google был собственный загружаемый инструмент для этого — sxse.
Инструмент позволяет пользователям голосовать за тот набор результатов поиска, который им больше нравится, тем самым обеспечивая прямую обратную связь об эффективности различных корректировок или версий поисковых систем.
4. Эксперименты
В официальной информации, опубликованной в журнале How Search Works, говорится, что Google проводит эксперименты с реальным трафиком, чтобы проверить, как люди взаимодействуют с новой функцией, прежде чем распространить ее на всех. Они активируют функцию у небольшого процента пользователей и сравнивают их поведение с поведением контрольной группы, у которой эта функция отсутствует. Подробные показатели взаимодействия пользователей с результатами поиска включают в себя:
- Клики на результаты
- Количество выполненных поисковых запросов
- Отказ от запроса
- Сколько времени потребовалось людям, чтобы нажать на результат.
Эти данные помогают оценить, насколько положительным является взаимодействие с новой функцией, и убедиться, что изменения повышают релевантность и полезность результатов поиска. Однако в судебных документах указаны только две метрики:
- Взвешенные по позиции длительные клики: Эта метрика учитывает продолжительность кликов и их положение на странице результатов, отражая удовлетворенность пользователей найденными результатами.
- Внимание: Эта метрика может подразумевать измерение времени, проведенного на странице, давая представление о том, как долго пользователи взаимодействуют с результатами и их содержимым.
Кроме того, в стенограмме показаний Панду Наяка говорится, что они проводят многочисленные тесты алгоритмов, используя чередование вместо традиционных A/B-тестов. Это позволяет им проводить быстрые и надежные эксперименты, что дает возможность интерпретировать колебания в рейтинге.
5. Свежесть
Свежесть — важнейший аспект как результатов, так и функций поиска. Важно показывать релевантную информацию, как только она становится доступной, и прекращать показ контента, когда он устаревает. Чтобы алгоритмы ранжирования отображали в SERP свежие документы, системы индексирования и обслуживания должны быть способны обнаруживать, индексировать и предоставлять свежие документы с очень низкой задержкой. Хотя в идеале весь индекс должен быть как можно более актуальным, существуют технические и финансовые ограничения, которые не позволяют индексировать каждый документ с низкой задержкой. Система индексирования определяет приоритеты документов на разных путях, предлагая различные компромиссы между задержкой, стоимостью и качеством. Существует риск, что актуальность очень свежего контента будет недооценена, и, наоборот, контент с большим количеством доказательств актуальности станет менее актуальным из-за изменения смысла запроса.
Роль узла свежести заключается в добавлении исправлений к устаревшим оценкам. Для запросов, ищущих свежий контент, он продвигает свежий контент и снижает оценку устаревшего. Не так давно появилась информация о том, что Google Caffeine (также известная как система индексации на основе перколятора) больше не существует. Хотя старое название все еще используется, то, что существует сейчас, на самом деле является совершенно новой системой. Новый «Кофеин» — это набор микросервисов, которые взаимодействуют друг с другом. Это означает, что различные части системы индексирования работают как независимые, но взаимосвязанные сервисы, каждый из которых выполняет определенную функцию. Такая структура может обеспечить большую гибкость, масштабируемость и простоту внесения обновлений и улучшений. Как я понимаю, частью этих микросервисов будут Tangram и Glue, а именно узел свежести и Instant Glue. Я говорю так, потому что в другом просочившемся документе из «Проекта Веритас» я обнаружил, что в 2016 году было предложение сделать или включить «мгновенное ускорение навигации» в качестве сигнала свежести, а также посещения Chrome.
К настоящему моменту они уже включили «Freshdocs-instant» (извлекается из списка pubsub под названием freshdocs-instant-docs pubsub, куда попадают новости, опубликованные этими СМИ в течение 1 минуты с момента публикации) и корреляции поисковых пиков и генерации контента:
Среди метрик свежести есть несколько, которые определяются благодаря анализу коррелированных нграмм и коррелированных терминов (Correlated Salient Terms): Коррелированные Нграммы: Это группы слов, которые встречаются вместе в статистически значимой последовательности. Корреляция может внезапно увеличиться во время какого-либо события или трендовой темы, что указывает на всплеск. Коррелирующие термины: Это выделяющиеся термины, которые тесно связаны с темой или событием и частота появления которых в документах увеличивается в течение короткого периода, что свидетельствует о всплеске интереса или связанной активности. После обнаружения всплесков можно использовать следующие метрики свежести:
- Униграммы (RTW): Для каждого документа используется заголовок, тексты ссылок и первые 400 символов основного текста. Они разбиваются на униграммы, релевантные для обнаружения трендов, и добавляются в индекс Hivemind. Основной текст, как правило, содержит главное содержание статьи, исключая повторяющиеся или общие элементы (boilerplate).
- Полчаса с момента наступления эпохи (TEHH): Это мера времени, выраженная в количестве получасов с начала отсчета времени Unix. Она помогает определить, когда что-то произошло, с точностью до получаса.
- Сущности графа знаний (RTKG): Ссылки на объекты в Графе знаний Google, который представляет собой базу данных реальных сущностей (людей, мест, вещей) и их взаимосвязей. Она помогает обогатить поиск семантическим пониманием и контекстом.
- Ячейки S2 (S2): Ссылки на объекты в Графе знаний Google, который представляет собой базу данных реальных сущностей (людей, мест, вещей) и их взаимосвязей. Она помогает обогатить поиск семантическим пониманием и контекстом.
- Freshbox Article Score (RTF): Это геометрические деления земной поверхности, используемые для географической индексации на картах. Они облегчают ассоциацию веб-контента с точным географическим местоположением.
- Document NSR (RTN): Это может означать News Relevance of the Document и, по-видимому, является метрикой, определяющей, насколько релевантным и надежным является документ по отношению к текущим событиям или трендам. Эта метрика также может помочь отсеять низкокачественный или спамный контент, гарантируя, что проиндексированные и выделенные документы будут высокого качества и значимы для поиска в реальном времени.
- Географические размеры: Характеристики, определяющие географическое положение события или темы, упомянутой в документе. Они могут включать координаты, географические названия или идентификаторы, такие как ячейки S2.
Если вы работаете в СМИ, эта информация является ключевой, и я всегда включаю ее в свои тренинги для цифровых редакторов.
Важность кликов
В этом разделе мы рассмотрим внутреннюю презентацию Google под названием «Унифицированное прогнозирование кликов», презентацию «Google — это волшебно», презентацию Search All Hands, внутреннее письмо Дэнни Салливана и документы из утечки «Project Veritas». На протяжении всего этого процесса мы видим фундаментальную важность кликов для понимания поведения/потребностей пользователей. Другими словами, Google нужны наши данные. Интересно, что одной из вещей, о которых Google было запрещено говорить, были клики.
Прежде чем начать, важно отметить, что основные документы, в которых говорилось о кликах, датируются 2016 годом, и с тех пор Google претерпела значительные изменения. Несмотря на эту эволюцию, в основе их подхода по-прежнему лежит анализ поведения пользователей, рассматривающий его как сигнал качества. Помните патент, в котором они объясняют модель CAS?
Каждый поиск и каждый клик пользователя способствуют обучению и постоянному совершенствованию Google. Этот цикл обратной связи позволяет Google адаптироваться и «узнавать» о поисковых предпочтениях и поведении пользователей, поддерживая иллюзию того, что он понимает их потребности.
Ежедневно Google анализирует более миллиарда новых поведений в системе, призванной постоянно корректировать и превосходить будущие прогнозы, основанные на прошлых данных. По крайней мере до 2016 года это превышало возможности систем искусственного интеллекта, что требовало ручной работы, которую мы видели ранее, а также корректировок, вносимых RankLab. RankLab, как я понимаю, это лаборатория, которая тестирует различные весовые коэффициенты сигналов и факторов ранжирования, а также их последующее влияние. Возможно, они также отвечают за внутренний инструмент «Twiddler» (об этом я также читал много лет назад в «Project Veritas»), предназначенный для ручного изменения IR-кодов определенных результатов, или, другими словами, для того, чтобы иметь возможность делать все следующее:
В то время как рейтинги человеческих оценщиков дают базовое представление, клики позволяют получить гораздо более подробную панораму поискового поведения.
Это позволяет выявить сложные закономерности и изучить эффекты второго и третьего порядка.
- Эффекты второго порядка отражают возникающие закономерности: Если большинство предпочитает подробные статьи быстрым спискам, Google обнаруживает это. Со временем он корректирует свои алгоритмы, чтобы отдавать приоритет более подробным статьям в смежных поисковых запросах.
- Эффекты третьего порядка — это более широкие, долгосрочные изменения: Если тенденции кликов благоприятствуют всеобъемлющим руководствам, создатели контента адаптируются. Они начинают выпускать более подробные статьи и меньше списков, тем самым меняя характер контента, доступного в сети.
В анализируемых документах приводится конкретный случай, когда релевантность результатов поиска была улучшена за счет анализа кликов. Google выявил расхождение в предпочтениях пользователей, основанных на кликах, в отношении нескольких документов, которые оказались релевантными, несмотря на то что были окружены набором из 15 000 документов, считавшихся нерелевантными. Это открытие подчеркивает важность пользовательских кликов как ценного инструмента для выявления скрытой релевантности в больших объемах данных.
Google «тренируется на прошлом, чтобы предсказать будущее», чтобы избежать чрезмерной подгонки. Благодаря постоянным оценкам и обновлению данных модели остаются актуальными и релевантными. Ключевым аспектом этой стратегии является локальная персонализация, обеспечивающая релевантность результатов для разных пользователей в разных регионах. Что касается персонализации, то в более позднем документе Google утверждает, что она носит ограниченный характер и редко изменяет ранжирование. Они также отмечают, что она никогда не применяется в «Топ-стори». В основном она используется для того, чтобы лучше понять, что именно ищут, например, используя контекст предыдущих поисковых запросов, а также для создания прогнозируемых предложений с помощью автозаполнения. Они упоминают, что могут немного приподнять видеопровайдера, которым часто пользуется пользователь, но все будут видеть в основном одни и те же результаты. По их словам, запрос важнее пользовательских данных. Важно помнить, что такой подход, ориентированный на клики, сталкивается с трудностями, особенно при работе с новым или нечастым контентом. Оценка качества результатов поиска — это сложный процесс, который выходит за рамки простого подсчета кликов. Хотя этой статье, которую я написал, уже несколько лет, я думаю, она поможет глубже разобраться в этом вопросе.
Архитектура Google
Следуя предыдущему разделу, я мысленно представляю, как можно расположить все эти элементы на схеме. Вполне вероятно, что некоторые компоненты архитектуры Google не находятся в определенных местах или не связаны друг с другом, но я считаю, что этого более чем достаточно в качестве приближения.
Google и Chrome: Борьба за право быть поисковой системой и браузером по умолчанию
В этом последнем разделе мы сосредоточимся на показаниях свидетеля-эксперта Антонио Рангеля, поведенческого экономиста и профессора Калифорнийского технологического института, об использовании опций по умолчанию для влияния на выбор пользователя, на внутренней презентации «О стратегической ценности домашней страницы по умолчанию для Google» и на ответах Джима Колотуроса, вице-президента Google, во внутренней электронной почте. Как утверждает Джим Колотурос во внутренней переписке, Chrome — это не просто браузер, а ключевой элемент в головоломке поискового доминирования Google. Среди данных, которые собирает Google, — шаблоны поиска, клики на результаты поиска и взаимодействие с различными веб-сайтами, что очень важно для совершенствования алгоритмов Google, повышения точности результатов поиска и эффективности целевой рекламы. По мнению Антонио Рангеля, господство Chrome на рынке выходит за рамки его популярности. Он выступает в качестве шлюза в экосистему Google, влияя на то, как пользователи получают доступ к информации и онлайн-сервисам. Интеграция Chrome с поисковой системой Google Search, являющейся поисковой системой по умолчанию, дает Google значительное преимущество в контроле над потоком информации и цифровой рекламы.
Несмотря на популярность Google, Bing — не самая плохая поисковая система. Однако многие пользователи предпочитают Google из-за удобства его стандартной конфигурации и связанных с ней когнитивных предубеждений. На мобильных устройствах влияние поисковых систем по умолчанию сильнее из-за трения, связанного с их изменением: для изменения поисковой системы по умолчанию требуется до 12 кликов.
Это предпочтение по умолчанию также влияет на решения потребителей о конфиденциальности. Настройки конфиденциальности Google по умолчанию создают значительные трудности для тех, кто предпочитает более ограниченный сбор данных. Изменение стандартных настроек требует осведомленности о доступных альтернативах, изучения необходимых шагов для внесения изменений и их реализации, что представляет собой значительное трение. Кроме того, поведенческие предубеждения, такие как статус-кво и неприятие потерь, заставляют пользователей склоняться к сохранению опций Google по умолчанию. Более подробно я объясняю все это здесь. Показания Антонио Рангеля напрямую перекликаются с откровениями внутреннего анализа Google. Документ показывает, что настройка домашней страницы браузера оказывает значительное влияние на долю поисковых систем на рынке и поведение пользователей. В частности, большой процент пользователей, у которых Google является домашней страницей по умолчанию, выполняют на 50 % больше поисковых запросов в Google, чем те, кто этого не делает.
Это говорит о сильной корреляции между домашней страницей по умолчанию и предпочтениями поисковых систем. Кроме того, влияние этого параметра варьируется по регионам: оно более выражено в Европе, на Ближнем Востоке, в Африке и Латинской Америке и менее — в Азиатско-Тихоокеанском регионе и Северной Америке. Анализ также показывает, что Google менее уязвим к изменениям настроек домашней страницы по сравнению с такими конкурентами, как Yahoo и MSN, которые могут понести значительные потери, если лишатся этих настроек.
Настройка домашней страницы рассматривается как ключевой стратегический инструмент Google, позволяющий не только сохранить свою долю рынка, но и как потенциальная уязвимость для конкурентов. Кроме того, подчеркивается, что большинство пользователей не выбирают поисковую систему активно, а склоняются к стандартному доступу, предоставляемому настройками домашней страницы. С экономической точки зрения, дополнительная пожизненная стоимость Google, установленного в качестве домашней страницы, составляет около 3 долларов на пользователя.
Заключение
Изучив алгоритмы и внутреннюю работу Google, мы убедились, что клики пользователей и человеческие оценки играют важную роль в ранжировании результатов поиска. Клики, как прямые индикаторы предпочтений пользователей, необходимы Google для постоянной корректировки и улучшения релевантности и точности своих ответов. Хотя иногда они могут хотеть обратного, когда цифры не сходятся… Кроме того, человеческие эксперты вносят важнейший вклад в оценку и понимание, который даже в эпоху искусственного интеллекта остается незаменимым. Лично я очень удивлен этим моментом: я знал, что оценщики важны, но не до такой степени. Сочетание этих двух составляющих — автоматической обратной связи через клики и человеческого контроля — позволяет Google не только лучше понимать поисковые запросы, но и адаптироваться к меняющимся тенденциям и информационным потребностям. По мере развития искусственного интеллекта будет интересно посмотреть, как Google продолжит балансировать между этими элементами, чтобы улучшить и персонализировать поисковый опыт в постоянно меняющейся экосистеме с акцентом на конфиденциальность. С другой стороны, Chrome — это не просто браузер, а важнейший компонент цифрового господства компании. Его синергия с Google Search и внедрение по умолчанию во многих областях влияют на динамику рынка и всю цифровую среду. Посмотрим, чем закончится антимонопольное разбирательство, но они уже более 10 лет не выплачивают штрафы в размере около 10 000 миллионов евро за злоупотребление доминирующим положением.