Новый патент Google о дублирующемся контенте в системе веб-краулера | Контекстная реклама: Бегун, Директ и Adsense. Поисковая оптимизация - SEO.
Блог о контекстной рекламе. Бегун, Директ и AdSense - как заработать вебмастеру.

Новый патент Google о дублирующемся контенте в системе веб-краулера 10 Декабрь 2021

Некоторые патенты поисковых машин позволяют увидеть, как эти поисковые машины выполняют базовые функции. Под базовыми функциями я подразумеваю такие основы как краулинг страниц, индексация страниц и показ результатов поиска пользователям.

Например, год назад обсуждался патент Google о якорном тексте и различных скоростях краулинга. Тот патент, поданный на рассмотрение еще в 2003 году, позволял нам заглянуть в механизмы краулинга веб-страниц и сбора адресов страниц, встречавшихся в сети. В нем описывалась частота с которой Google может посещать страницы. Некоторые могли проверяться раз в сутки, а некоторые - почти в реальном времени, часто раз в несколько минут. Кстати, обратите внимание на то, что патент был подан на рассмотрение в 2003 году, и вспомните, как актуальна нынче тема поиска в реальном времени.

Итак, в старом патенте рассматривались такие темы как возможности краулеров поисковой машины различно обрабатывать временные (302) и постоянные (301) редиректы, отмечая и иногда переходя по временным редиректам немедленно (для принятия решения какую же страницу отображать в результатах поиска), и собирая адреса, связанные с постоянными редиректами, в очередь для обращения к ним позднее (иногда более чем на неделю).

Там же обсуждалось как текст вокруг ссылок и якорный текст, обнаруженный во время краулинга страницы, может быть использован для аннотации ссылок. Также уделялось внимание свойствам, на которые поисковая машина может обращать внимание при определении того, стоит ли связывать текст с расположенной рядом ссылкой.

Кроме того, патент раскрывал еще одну важную тему - как определить дублирующийся контент, встречающийся при краулинге веб-страниц и как определить лучший (канонический) адрес для контента. Для поисковой машины это крайне важный момент, ведь если контент повторяется на многих страницах, то нет смысла тратить время и ресурсы на индексацию и вывод в поисковых результатах более одного источника для дублирующегося контента.

На этой неделе Google получили патент, который более детально описывает возможное обращение поисковой машины с дублирующимся контентом. Некоторые изобретения патента пересекаются с изобретениями из патента о якорном тексте, и обе заявки были поданы в один день. Причина, по которой Google может искать дублирующийся контент во время краулинга веб-страниц, раскрывается в самом начале текста патента:

В то же время все чаще встречается ситуация, когда существует множество дубликатов документа с идентичным контентом, хотя физически они могут находиться на различных серверах в сети.

С одной стороны, эти копии документа могут быть полезны, так как они снижают вероятность отсутствия доступа к документам в случае отключения одного сервера. С другой стороны, они могут существенно увеличить нагрузку и снизить эффективность поисковой машины как на фронт-энде так и на бэк-энде, если их не обработать соответствующим образом.

Например, возьмем бэк-энд поисковой машины. Если копии одного документа будут рассматриваться как различные документы не связанные друг с другом посредством контента, это приведет к растрате ресурсов поисковой машины, как то дискового пространства, памяти и/или сетевого канала; для обработки дублирующихся документов.

Со стороны фронт-энда, сохранение дублирующихся документов приведет к необходимости поисковой машине проводить поиск в огромных индексах и использовать больше вычислительных возможностей для обработки запросов. Также при включении в результаты с различающимся контентом множества одинаковых документов может пострадать опыт пользователя.

По этим причинам желательно разработать систему и методы детектирования дублирующихся документов на стадии краулинга, до того, как поисковая машина предпримет какие-либо дальнейшие попытки обработки таких документов.

Также было бы желательно наладить эффективное управление дублирующимися документами, чтобы поисковая машина могла эффективно предоставлять наиболее подходящий и надежный контент в ответ на запрос, набор результатов к которому содержит один из дублирующихся документов.

Патент:

Детектирование дублирующихся документов в системе веб-краулера
Изобретатели: Daniel Dulitz, Alexandre A. Verstak, Sanjay Ghemawat, Jeffrey A. Dean
Принадлежит Google
US Patent 7,627,613
Одобрено 1 декабря 2009
Подано на рассмотрение 3 июля 2003

Аннотация

Дублирующиеся документы детектируются в системе веб-краулера. При получении просканированного документа и его идентификации определяется набор документов (если таковой существует) обладающих одинаковым контентом. Информация, идентифицирующая вновь просканированный документ и выбранный набор документов, вставляется в информацию, идентифицирующую набор документов.

Дублирующиеся документы включаются и исключаются из новых наборов документов на основе показателей каждого документа, не зависящих от запроса. В соответствии с набором предустановленных условий идентифицируется один документ, который будет представлять новый набор документов.

Описательная часть патента во многом повторяет детали уже раскрытые в более ранних патентах, касающиеся того, как Google может обращаться с краулингом и якорным текстом. Например, описывая как адреса некоторых веб-страниц циклично сканируются на периодической основе с перерывами, исчисляющимися днями, неделями или даже дольше. Некоторые адреса сканируются ежедневно, а другие - вообще несколько раз в день.

Патент о детектировании дублирующихся документов не слишком концентрируется на якорном тексте, но зато раскрывает некоторые подробности того, как может фильтр контента поисковой машины работать с серверами дублирующегося контента (в патенте такие сервера называются Dupserver). Первым шагом, который может предпринять поисковая машина при получении вновь отсканированной страницы от веб-краулера, может быть сверка с Dupserver на предмет того, является ли страница копией другого документа. Если является, то далее может следовать определение канонической (основной) версии документа.

Этот патент, скорее всего, не покрывает все виды дублирующегося контента, которые Google может обнаружить - многие страницы с дублирующимся контентом могут отличаться друг от друга различными характеристиками. Например, использованием разных шаблонов, заполненных стандартным контентом вроде заголовков, подвалов и боковых колонок, меняющихся от адреса к адресу. Или же страницы могут содержать часть дублирующегося контента и часть уникального. Или же контента, скопированного из разных источников и собранного на одной странице. Патент определяет вид дублирующегося контента, о котором идет речь, а также позволяет узнать о том, как могут обрабатываться редиректы и дублирующийся контент с ними связанный:

Дублирующиеся документы это документы, имеющие значительную часть идентичного контента или, в некоторых случаях, полностью идентичный контент, но имеющие различные адреса.

Соответственно, существует как минимум три сценария в которых веб-краулер может встретить дублирующиеся документы:

· две страницы, включая любую комбинацию обычной веб-страницы (веб-страниц) и страниы (страниц) временного редиректа, являются дублирующимися документами, если имеют идентичный контент страницы, но разные адреса (URL);

· две страницы временных редиректов являются дублирующимися документами если они ведут на один целевой адрес, но адреса их источников различаются;

· обычная веб-страница и страница временного редиректа являются дублирующимися документами если адрес обычной веб-страницы является целевым адресом страницы временного редиректа или контент обычной веб-страницы совпадает с контентом страницы временного редиректа.

Страницы постоянных редиректов не задействованы напрямую в детектировании дублирующихся документов, так как краулеры настроены не скачивать контент целевых страниц. Тем не менее, обычные веб-страницы или страницы временного редиректа могут в своем контенте содержать адрес, являющийся исходным адресом страницы с постоянным редиректом. Таким образом, кроме определения дублирующихся документов, Dupserver также выполняет задание по замене исходных адресов, вставленных в контент обычной веб-страницы или страницы временного редиректа, соответствующими целевыми адресами постоянных редиректов, известными Dupserver‘у.

В патенте упоминаются некоторые подробности различных методов детектирования дублирующегося контента, которые могут использоваться. Среди них есть, например, взятие “отпечатков пальцев” контента на страницах для последующего сопоставления контента с разных страниц. Также рассматриваются возможности хранения таких “отпечатков” в таблицах и выбора канонических адресов для контента.

Быстры просмотр патента может привести кого-то к выводу, что канонической версией контента должна выбираться страница с наивысшим показателем PageRank, но в патенте сказано, что иногда “канонической страницей соответствующего класса не обязательно становится документ с наивысшими оценками (т.е. наивысшим PageRank или другими параметрами, не зависящими от запроса)”.

Нам предоставляют следующий пример. Google может сохранить все страницы с дублирующимся контентом. Затем при нахождении новой копии машина может оценить PageRank (или другой показатель, не зависящий от запроса) новой страницы и определить является ли этот показатель значительно выше соответствующих показателей уже известных копий. И лишь затем новая страница может быть (а может и не быть) назначена канонической. Возможно, что учитываются и другие факторы, но открыто в патенте эти факторы не называются.

Выводы

Даже несмотря на то, что этот патент о дублирующемся контенте и связанный с ним патент о якорном тексте были поданы на рассмотрение более 6 лет назад, они стоят потраченного на ознакомление с ними времени. В них довольно подробно описаны способы краулинга страниц, которые может применять Google, а также способы сбора и обработки полученной со страниц информации. Если вас интересует то, как работают поисковые машины, то эти два документа дадут вам интересные идеи о том, что происходит во время краулинга страниц. Например:

Переводной материал, источник

Рекомендую к прочтению:

Поисковые таксономии и поисковые машины: ответы на вопросы против ссылок на веб-страницы
Как поисковая машина может изменять рейтинг
Как поисковые машины могут расшифровывать аббревиатуры в запросах

Google получили патент на Trust Rank
Сегментация веб-страниц в Yahoo: Отделение шума от информации
Патент Google о подсказках и аннотации к ссылке.
Как поисковая машина может различать запросы от ботов и людей
Как поисковые машины могут ранжировать пользовательский контент

Комментарии»

1. mindwork - 13 Декабрь 2021

Гугл становится ближе к народу. (-: Эти патенты дают хоть не много понять механизмы поисковой машины. Спасибо за интересную статью.

2. admin - 13 Декабрь 2021

Про Гугл всегда было больше информации, чем про отечественные поисковики. А сейчас пришло время переводов всего многообразия на русский язык. Рад что информация показалась интересной. ;)


👩‍⚕️ рулетка видеочат онлайн