9 июля 5 минут чтения #Технологии

Как работают поисковые системы

Иллюстрация материала

На заре интернета пользователям хватало информации с сайтов, добавленных в закладки. Всемирная паутина быстро росла, а ориентироваться во всем ее разнообразии становилось сложнее. Появившиеся сайты-каталоги стали настолько велики, что сначала разработчики задумались о поиске внутри сайтов, а потом и о глобальном поисковике по всему интернету.

Что такое поисковая система?

Поисковая система — сложный и ресурсоемкий механизм. За внешней простотой — ввести запрос, нажать на поиск, получить результат — стоит работа тысяч людей, миллионов серверов и миллиарды инвестиций. Все ради того, чтобы система не просто держалась на плаву, а была полезной для пользователей. Конкуренция в сфере IT-технологий — вещь серьезная: большинство поисковиков первого поколения либо исчезли совсем, либо были поглощены более удачливыми коллегами по автоматической индексации. Зайти со своим поисковиком на рынок сегодня — из разряда фантастики. Например, корпорация Microsoft долгое время пыталась вывести свой поисковик Bing, но их усилия оказались несоизмеримы с позицией прямого конкурента — доля рынка Bing 12,26% против доли рынка Google в 69,24%. И это не считая того, что одно время Google и вовсе подозревал Bing в жульничестве по выдаче результатов. Только представьте, как это могло сказаться на их репутации!

Кстати, особой лояльности пользователей Bing так и не снискал: « B ut I t’s N ot G oogle» — именно так в шутку расшифровывают название этого поисковика.

Такая расстановка сил дает все основания считать, что никакой интриги в виде новой поисковой системы в ближайшее время не предвидится. Максимум, чего стоит ждать, так это слияний, поглощений и банального распределения долей рынка, что тоже интересно.

Мировой рынок поисковых систем

Нет сомнений, что Google — поисковая система № 1 в мире. Но у нас и в странах Азии топ поисковиков выглядит несколько иначе. Например, в Тайване и Японии большей популярностью пользуется Yahoo!, а в Южной Корее популярна собственная разработка — поисковик Naver. На рейтинг поисковиков в Китае не в последнюю очередь оказал влияние так называемый Великий китайский файрволл, или попросту — интернет-цензура, которая действует в Поднебесной. По условиям соглашения между корпорацией Google и правительством компания блокирует доступ к политически неблагонадежным сайтам на территории Китая. Там популярны поисковики Soso, Baidu, Sogou.

Специально для тех, привык задавать вопросы, а не искать ответы самостоятельно, придуман сайт Let Me Google That For You. Предполагалось, что при помощи этого сервиса можно наглядно отправить надоедливого собеседника в самостоятельное плавание по поисковику. Но сегодня его использование по правилам цифрового этикета граничит с дурным тоном.

А как у нас?

В России же ситуация сложилась по-своему уникальная. Во-первых, Google пришел на российский рынок еще в 2004 году, но за пятнадцать лет так и не смог закрепиться в вершине рейтинга. Первое место у нас безоговорочно принадлежит Яндексу. В 2003 году Google безуспешно пытался навязать Яндексу сотрудничество: цена отечественного поисковика выросла с $30 до $130 млн долларов, но переговоры длиной в год так ни к чему и не привели. Создатели Яндекса вовремя поняли, что речь идет не о слиянии, а о поглощении, и отказались от «выгодной» сделки. В итоге Google все-таки успел отжать у Яндекса существенную долю рынка, но не одержал верх. Негласное соревнование даже привело к судебным тяжбам на тему честной конкуренции. Конфликт, впрочем, разрешился в пользу отечественного поисковика.

Кроме Яндекса у нас действуют поисковики Rambler и Mail.ru, но их доля на рынке так мала, что в формате этой статьи они заслуживают только упоминания. В целом отечественные поисковые системы примечательны тем, что заточены на индексацию не всего подряд, а в основном ресурсов в доменных зонах с преобладающим русским языком. Также они индексируют и ищут тексты на украинском, белорусском, татарском, английском и других языках.

Производные от слова «гугл» давно стали именем нарицательным не только в русском языке, но и в десятке других. «Погугли!» —  говорим мы, отправляя собеседника за подробной информацией в интернет.

Как работают поисковики?

Сбор информации, ее структуризация и регулярное обновление, поиск по ней с соответствующим ранжированием — вот задачи, с которыми ежесекундно справляются поисковые системы. То, что со стороны пользователя выглядит элементарным, в действительности представляет анализ миллиарда страниц, отсеивание лишнего и формирование списка по релевантности. И все это за пару секунд от клика до выдачи! Такая сверхсложная задача была бы невозможна без предварительного сбора информации. Этой работой занимаются специальные индексирующие роботы. Индексация сайтов — процесс довольно времязатратный, но необходимый. Поисковые системы работают с полученными файлами: принимают запросы от пользователей, обрабатывают их и возвращают результаты. Полезность поисковой системы зависит не от количества выданных страниц, а от их релевантности. Для этого используют методы ранжирования, которые позволяют вывести в начало списка наиболее актуальные результаты.

Поисковая бомба — абсурдный или провокационный результат выдачи на произвольный запрос. Принято считать, что поисковые бомбы являются случайной ошибкой системы, но многие из них провоцируются искусственно на фоне острых социальных или политических тем.

Как правильно гуглить?

На просторах интернета распространена версия, что места в топе выдаче выдаются не по релевантности сайтов запросу, а в зависимости от того, кто больше заплатит. Причем не тому, кто отвечает за SEO-продвижение, а напрямую поисковику. Утверждение это спорное, но не безосновательное: тот же Google легко идет на ухудшение выдачи в угоду контекстной рекламе. Некоторые пользователи и вовсе предлагают осуществлять запросы только через частный доступ, чтобы не наблюдать потом рекламу по теме запроса. Но это тема отдельной статьи, а в рамках этой мы расскажем про язык поисковых запросов.

Этот язык зависит от выбранного поисковика и состоит из морфологии, регулярных выражений, а также логических операторов, префиксов обязательности, возможности учета расстояния между словами, возможностей расширенного или уточненного поиска. Звучит сложно, поэтому сразу перейдем к конкретике.

Избегайте грамматических ошибок

Правило, с которого стоит начать, — будьте грамотны. Сегодня поисковики автоматически исправляют допущенные пользователями ошибки и даже ошибочно выбранную раскладку клавиатуры, но эта функция работает не всегда. Получили в выдаче ссылки на сомнительные ресурсы — перепроверьте запрос. Обратное тоже верно: иногда поисковики автоматически исправляют даже нужные пользователям запросы.

Формулируйте

Некорректно сформулированный запрос приведет к некорректной выдаче. Общие и односложные запросы не содержат конкретики. Не оставляйте поисковик в недоумении — ищете вы историю появления смартфонов, планируете его отремонтировать или только собираетесь купить.

Конкретизируйте

Конкретика поможет поисковику собрать нужную именно для вас информацию. Например, если вы планируете купить смартфон определенной модели и цвета, то эти характеристики стоит вписать в строку сразу, а не ограничиваться абстрактным запросом «купить смартфон».

Переформулируйте

Если вас не удовлетворили полученные результаты, то сформулируйте запрос иначе. Например, используя синонимы.

Добавьте символов

Определенный ряд символов поможет сделать поиск еще эффективнее:

  • префиксы обязательности + и — используются, если надо включить или исключить из результатов поиска определенную информацию;
  • восклицательный знак ! используют для указания точной словоформы. Иначе поисковая система предоставит результаты вне зависимости от числа или падежа;
  • кавычки «» используют для поиска точной фразы.
Одним из способов конкретизации запросов пользователей являются подсказки от поисковых систем. Пользователю достаточно ввести одно слово в строке, как алгоритм сам подбросит ему наиболее часто встречающиеся варианты с этим словом.

Еще можно задать поиск в пределах одного сайта, по названию страниц или по названию ссылок, а также по файлам с определенным разрешением. Возможности расширенного поиска предполагают использование словарного фильтра, даты, языка, изображения и формата выдачи. Одним словом, все, что сделает использование поисковой системы еще удобнее для пользователя.