Как поисковая машина может различать запросы от ботов и людей | Контекстная реклама: Бегун, Директ и Adsense. Поисковая оптимизация - SEO.
Блог о контекстной рекламе. Бегун, Директ и AdSense - как заработать вебмастеру.

Как поисковая машина может различать запросы от ботов и людей 27 Октябрь 2021

Некоторые посетители поисковых машин являются людьми, ищущими информацию. Но некоторые из посетителей могут преследовать другие цели и даже не являться людьми.

Автоматические посетители могут пытаться проверить рейтинг страниц в поисковых результатах, провести исследование по ключевым словам, найти результаты игр, искать сайты для последующего спама или изменять уровни CTR.

Все эти посетители, не являющиеся людьми, используют ресурсы поисковой машины и при этом могут вмешиваться в данные, предоставляемые машиной, так как могут повлиять на поисковые рейтинги и поисковые предположения.

Google годами просит своих посетителей не использовать подобных программ. В мвоих советах вебмастерам представители Google пишут:

Не используйте несанкционированные компьютерные программы для добавления страниц, проверки рейтинга и т.п. Подобные программы потребляют вычислительные мощности и нарушают наши условия предоставления услуг.

Скорее всего, все основные поисковые машины разработали способы определения того, является ли посетитель ботом или человеком. Недавно опубликованный патент Microsoft может подсказать нам, как именно они это делают.

Патент

Классификация трафика поисковых запросов
Изобретатели:
Greg Buehrer, Kumar Chellapilla, Jack W. Stokes
Принадлежит
Microsoft
US Patent Application 20210265317
Опубликовано 22 октября 2021
Подано на рассмотрение 21 апреля 2020

Аннотация

Метод классификации трафика поисковых запросов может включать получение множества отмеченных образцов трафика поисковых запросов и генерацию набора характеристик разбитого на характеристики физических лимитов человека и поведенческие характеристики потока запросов. С использованием множества отмеченных образцов трафика поисковых запросов и набора характеристик может быть создана модель. Модель впоследствии может быть применена для классификации получаемого трафика поисковых запросов как сгенерированного человеком или автоматическим процессом.

При отслеживании поисковых запросов пользователей поисковая машина может собрать значительное количество информации, связанной с этими запросами.

Эта информация может включать как сами ключевые слова, так и мета-данные о запросах вроде:

Так как все запросы обрабатываются поисковой машиной, то они могут быть проанализированы и помечены в соответствии с тем, были ли они введены человек или автоматическим процессом.

Так как же узнать, введен запрос человеком или машиной?

Физические лимиты людей производящих поиск

Одним из способов различить запросы, исходящие от людей и машин, является установка физических лимитов, присущих человеку. В патенте упомянуты сразу два подобных метода:

Количество – Люди могут производить только определенное количество поисков за определенное количество времени. Посетитель, подающий 100 запросов за 10 секунд скорее всего человеком не является. 200 запросов от того же посетителя в день тоже выглядит не слишком правдоподобно. В качестве примера приводится посетитель, искавший слово “mynet” 12061 раз за один день.

Месторасположение – Человеку трудно находиться более чем в одном месте одновременно. Поисковая машина может отслеживать IP адреса, используемые пользователем с одним ID, и оценивать расстояния между географическими точками, с которых производится поиск за определенное время. Вполне возможно, что кто-то использует поиск с нескольких компьютеров (например, дома, на работе и с мобильного устройства). Но если запросы приходят рядом во времени из различных уголков земного шара, то это может быть признаком использования ботнетов или одного из инструментов для анонимного серфинга без выключения cookies.

Поведенческие характеристики

Физические ограничения, конечно, могут помочь в определении автоматических запросов. С другой стороны, автоматические запросы могут быть специально замедлены и сделаны более похожими на созданные человеком.

Могут существовать поведенческие характеристики, позволяющие определить то, что запросы являются автоматическими. Ниже представлены несколько наборов паттернов, которые изобретатели приводят в патенте и которые могут использоваться в их системе для различения автоматического и живого пользователя.

CTR

Пользователи довольно часто переходят по ссылкам в поисковых результатах. В патенте говорится, что “обычно пользователи кликают хотя бы раз в 10 запросов”. Автоматические программы не кликают по ссылкам, так что это может помочь поисковой машине определить, кто же ведет поиск.

Некоторые боты собирают дополнительную информацию по целевым URL, так что может быть несколько схем действий ботов.

В патенте говорится о трех “типичных” схемах CTR для ботов:

Боты ищут в алфавитном порядке (иногда)

Существует ли паттерн поисков, вроде того что поиски проводятся в алфавитном порядке? Если так, то более вероятно, что это автоматические поиски.

Боты ищут с использованием спам-слов

В патенте утверждается, что некоторые слова имеют больше “очков спама”, чем другие. Пользователи, с ID которых приходят запросы с большим количеством подобных спам-слов, скорее всего являются компьютерными программами. То же самое касается запросов на тему адалта.

Энтропия ключевых слов поисковых запросов

Признаком автоматических запросов может быть их перенасыщенность ключевыми словами.

Периодичность времени запроса

Поисковой машиной могут учитываться интервалы времени между запросами с одного ID или времени между запросами и кликом по ссылке в результатах. Если в этих интервалах обнаруживается четкий паттерн, то это может быть признаком бота.

Продвинутый синтаксис запроса

Множество запросов с использованием специальных операторов в течение дня может быть признаком автоматического трафика.

Энтропия категорий

Отдельным запросам могут быть присвоены категории. В случае, если с одного ID происходит множество запросов по узкой группе категорий, то это может служить признаком машинных запросов.

Тренды и репутации

Индикаторами активности ботов могут быть поиски с IP или user agents, находящихся в черном списке, а также запросы с определенными кодами стран.

Некоторые боты производят поиск по редким запросам с большой частотой. Некоторые проводят поисковые сессии в которых каждый запрос кажется бессмысленным. Также к активности ботов могут иметь отношение запросы, при которых пользователи часто кликают на результат, вероятность выбора которого слишком низка.

Выводы

В нашем обзоре не перечислены все методы, описанные в патенте. Очень вероятно, что существуют и другие схемы, по которым современные поисковые машины могут разделять трафик запросов на “человеческий” и “машинный”, и которые не были описаны в патенте.

Патент говорит нам, что поисковые машины могут присваивать метки получаемым поисковым запросам, но умалчивает о том, как они используются впоследствии.

Как и любой вебмастер, сотрудники поисковых машин хотят иметь возможность знать, откуда приходит их трафик и как их сайт используется. Вероятно, что при определении трафика как автоматического, поисковые машины могут попросить пользователя подтвердить обратное путем распознавания капчи или чего-то подобного.

Переводной материал, источник

Рекомендую к прочтению:

Как поисковые машины могут расшифровывать аббревиатуры в запросах

Google получили патент на Trust Rank
Сегментация веб-страниц в Yahoo: Отделение шума от информации
SEO под мобильный поиск
Патент Google о подсказках и аннотации к ссылке.
Патент об универсальном поиске Google

Комментарии»

1. Кийосаки - 5 Ноябрь 2021

Хорошая, подробная статья. Денис, спасибо.

2. Mendel - 22 Ноябрь 2021

Хорошая статья.
Нет повода как всегда побурчать :)
Вещи очевидные, но не всем известные…
Из классики стоит еще упомянуть что умники старающиеся выдать бота за человека рандомизируют параметры. однако распределение вероятностей у них почти всегда меандр а не гаусовское.
(Если реальные значения распределяются в некоем промежутке случайно, то вероятности разных значений отличаются, и как правило в концах диапозона меньше чем в середине, а если случайности делает робот, то у него внутри диапазона вероятности одинаковые, а потом резко обрываются в ноль… на самом деле немного сложнее но для упрощения сойдет)

3. docx - 23 Ноябрь 2021

Спасибо за информацию. Не думал, что из патентного документа столько извлечь интересного.

4. admin - 1 Декабрь 2021

Спасибо, не мне, а автору исходных текстов на англ. языке.


👩‍⚕️ рулетка видеочат онлайн