Большинство пользователей только в общих чертах представляют себе, как работает поисковая машина. Поэтому в данной главе мы рассматриваем основные понятия и устройство поисковых систем (они же поисковые машины, или поисковики). Если вы хорошо знаете, что такое индекс и поисковый запрос, можете смело дальше не читать.
Главный элемент структуры современного Интернета - это поисковые машины, или поисковики.
Поиско́вая систе́ма - программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. В просторечии под поисковой системой подразумевают веб-сайт, на которой размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) - комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании-разработчика поисковой системы
Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google (произносится как гугл). В российском же, а точнее, в русскоязычном Интернете (Рунете), наиболее популярный поисковик - Яндекс. В два раза (по количеству поисковых запросов в день) от Яндекса отстает Рамблер, потом следует «русский» Google, затем, совсем далеко от лидеров, следует Апорт, Mail.ru, а также Yahoo, Nigma и KM.ru.
Почему именно поисковики заняли в Интернете самое важное место?Потому что они упорядочивают хаос. Ведь сайты и их страницы разбросаны в Интернете без какого-либо порядка, без первой или последней страницы, без способа перехода к следующей странице. «Читать» Интернет подряд - невозможно. Ситуация тут такая же, как и с телефонными номерами. Телефонные номера рассыпаны в беспорядке в «пространстве» всех телефонных номеров. Есть, конечно, какие-то закономерности в распределении первых цифр номера (можно догадаться о районе города по номеру АТС или угадать оператора мобильной связи), но чтобы найти точный номер нужной организации, нужна записная книжка или какой-то другой список персон или организаций. Именно поэтому для номеров телефонов существуют справочники. Аналогом телефонных справочников в Интернете сейчас служат поисковые машины, которые обеспечивают "прозрачность" Интернета для пользователей. Как же они это делают?
За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними еще до своего первого выхода в Интернет. В Интернете используются эти же способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Это - оглавление, ссылки и предметный указатель.
ОглавлениеПервый, самый естественный способ поиска нужной страницы - это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы. Этому способу поиска в Интернете соответствуют каталоги. В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу. Сначала именно каталоги были основным способом упорядочения Интернета, но потом постепенно уступили первенство поисковикам - и на то было много причин.
СсылкиВторой привычный нам способ поиска - это ссылки в тексте на нужные страницы книги, например "подробнее об этом см. на стр. 234". Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 234 и найти в ее тексте интересующий фрагмент. Ссылки в Интернете называются гипертекстовыми ссылками ("гипер" - потому, что ссылка уводит за пределы текста, на другую страницу). Ссылки - это основной, «корневой» принцип Интернета, а ведь по сути это старая идея, просто автоматизированная текстовая ссылка. Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную - вебмастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.
Предметный указатель, или индексТретий, самый интересный для нас способ поиска нужной страницы - это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вот как может выглядеть фрагмент типичного индекса: ...Тау Кита, 90 Третья космическая скорость, 255; 294 Туманность, 14; 29; 188 Андромеды, 29; 188 Тяжелые кварки, 347 ... В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс. Вот именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной идеей, на которой созданы интернет-поисковики. Естественно, составление и использование поискового индекса в Интернете автоматизированы. Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу, - списку всех ключевых слов Интернета с указанием страниц, на каких они встречаются. Каким же образом составляется и работает этот индекс Интернета?
Как работает поисковая машинаПоисковая машина - это программа, которая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс. Вот из каких этапов состоит процесс составления индекса и поиска по нему.
Сбор адресов страниц в ИнтернетеЧтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, нужно сначала составить список страниц - набор адресов тех страниц, по которым будет составляться индекс. Поскольку сайты и их страницы беспорядочно разбросаны в Интернете, поисковой машине нужно с чего-то начать. Обычно разработчики поисковой машины загружают в нее какой-то начальный список адресов страниц сайтов (взяв его, например, из какого-нибудь каталога). Затем поисковая машина (ее составная часть.....- так называемый поисковый робот) собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов. Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет ссылок на другие сайты и страницы и постепенно становится очень большим. Сейчас поисковики обходят и индексируют миллиарды веб-страниц. Нужно обратить внимание на тот очевидный факт, что малоизвестные страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины! Дело в том, что вручную разработчики поисковика не смогут добавить их в начальный список адресов (из-за того, что они мало известны), а по ссылкам поисковому роботу до них добраться трудно - из-за небольшого количества этих ссылок. Возможно, поисковый робот и доберется до них когда-нибудь, но далеко не в первую очередь. А страница, на которую нет вообще ни одной ссылки, «своим ходом» не попадет в индекс поисковика никогда, если не предпринимать специальных усилий. Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.
Выкачивание страницЧтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст. Для этого поисковик должен выкачать этот текст, т.е. запросить у сайта заданную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым «пауком» (по-английски crawler), или поисковым роботом. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу.
Составление индекса, или индексированиеЧтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице. Для этого индексный робот перебирает все выкачанные страницы, удаляет из текста страниц всякий ненужный, нетекстовый "мусор" (например, разметку языка HTML), затем извлекает из текста слова и помещает их в индекс. HTML (HyperText Markup Language - язык гипертекстовой разметки ) - набор специальных команд для оформления отображаемой на веб-странице информации: текста, изображений, таблиц, форм и т.д. При этом слова снабжаются информацией о страницах, с которых они были взяты. Как именно устроен индекс, подробно рассмотрим чуть позже.
ПоискВсе описанные предыдущие шаги незаметны для пользователя поисковой машины, они выполняются в поисковой машине. А вот сам поиск - это и есть то, что видит пользователь. Пользователь вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина - о, чудо! - выдает список ссылок на страницы в Интернете. Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к заданному слову, и показывает пользователю результаты поиска, т.е. список страниц. В списке результатов обычно отображается заголовок страницы (так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом. Откуда взялась эта цитата, мы расскажем далее. Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, т.е. встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса. Конечно, здесь изложена самая суть механизма поиска по индексу, его основной принцип, а в реальности разработчики поисковиков используют множество разнообразных ухищрений, о нескольких из них вы узнаете ниже. Поисковик тем лучше, чем более «правильные» страницы он показывает пользователю в ответ на запрос. «Правильные» страницы называются релевантными (т.е. относящимися к делу, уместными). Чтобы понимать, как поисковику удается находить наиболее релевантные страницы, нужно разобраться в том, как устроен индекс поисковой машины.
Как устроен индекс поисковой машиныИндекс - слово, которое постоянно упоминается в связи с поисковыми машинами. Увы, большинство пользователей Интернета до сих пор довольно смутно представляют себе, что это такое. Хотя, как уже говорилось выше, ничего сложного в этом понятии нет, более того, ему много веков, и каждый из нас встречался с индексом в виде предметного указателя книги еще до своего первого выхода в Интернет. Давайте рассмотрим процесс индексирования текста подробнее и разберемся с устройством индекса. Вот какие шаги выполняет поисковая машина для создания индекса из выкачанных веб-страниц.
Конверсия в чистый текстДля начала текст индексируемой страницы нужно очистить от всяких нетекстовых элементов - графики, разметки (тегов) языка HTML и прочего "мусора". В результате получается чистый текст, с которым дальше работает индексный робот.
Выборка словВсе слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом - последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т.п., а также, что словом не считается и пропускается (пробелы, знаки препинания и пр.). Ниже мы расскажем об этом чуть подробнее. А сейчас лишь з Заметим, что у каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует). Итак, поисковик выбирает из текста все, что считает словами, и собирает их в отдельный список.
Лингвистическая обработкаВ большинстве поисковых машин слова не заносятся в индекс в том виде, в котором они приведены в тексте. Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам (к именительному падежу, грубо говоря). Этот алгоритм называется машинной морфологией. Делается это для экономии места в индексе и, что более важно, для более точного поиска. По поводу использования машинной морфологии в поисковиках также бытует довольно много мифов и домыслов. Пока же достаточно сказать, что машинная морфология служит для замены слов на их основы в индексе поисковика.
Составление индексаСобранные вместе основы всех слов из всех текстов сводятся в индекс - своеобразный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком месте на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним. Таким образом, индексная запись имеет следующую структуру: ОСНОВА / номер страницы + номер вхождения / номер страницы +номер вхождения / номер страницы + номер вхождения / .... Конечно, в реальности для экономии места и повышения скорости использования индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера (так как номера короче и имеют фиксированную длину), а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускорения доступа и т.д. Но общая идея индексной записи именно такова, как описано выше.
«Координатный» индексПервые интернет-поисковики не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу. Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно слово запроса, скажем, находится в правом верхнем углу страницы, а второе - в левом нижнем. В результате для многословных запросов релевантность была практически нулевой. Так, например, был устроен поисковик Рамблера вплоть до 1999 года. С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным. Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно «взвешивать» релевантность страницы, но и показывать наиболее подходящую цитату из текста страницы. Как видим, индекс представляет собой обращенную, вывернутую «наизнанку» копию всех страниц Интернета. Если в обычном тексте мы идем от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым. А откуда же берется цитата в поисковых результатах? Ведь порядка слов в тексте в инвертированном индексе явно нет. Неужели поисковик восстанавливает текст страницы по этому вывернутому "наизнанку" индексу? Для показа цитат хранят еще и второй индекс, так называемый прямой. Этот прямой индекс есть, по сути, сжатая текстовая копия всего Интернета.
Прямой индексЧтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, конечно, в сжатом, упакованном виде, в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным «пауком». Для хранения текстовой копии страниц инверсный индекс не подходит - слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет собой тексты веб-страниц, очищенные, сжатые и упакованные, и является текстовой копией всего Интернета. Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его "паук"), а Яндекс - копию всего Рунета. Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию «восстановить текст страницы», которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.
Некоторые важные вопросы
Какие слова индексирует поисковая машинаКак мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом.
Что такое словоНапример, слова с дефисом (красно синий, что-нибудь) - это одно слово или два? А числа - это тоже слова, или их следует выбрасывать как «мусор»? А слова на другом языке - выбрасывать или оставлять? Что делать с комбинацией букв и цифр (с названиями моделей электроники, например)? Индексируются ли адреса электронной почты, интернет-адреса или даты, и если да, то как? Все эти вопросы решаются разработчиками каждой поисковой машины по-своему. Более того, нам здесь нет смысла пытаться точно указать правила выделения слов для Яндекса или Google - они могут меняться хоть раз в месяц, с каждым вводом «в бой» очередной версии поискового механизма. Гораздо проще это проверять самостоятельно, когда требуется.
Как проверитьВы можете сами легко проверить, как разработчики Яндекса, Google или Рамблера обрабатывают, например, слова с дефисом или числа. Для этого достаточно ввести в поисковик такой запрос и посмотреть, что именно найдет и как покажет результаты поиска данная поисковая машина. Поскольку найденные слова отображаются и подсвечиваются в цитатах (аннотациях) страниц, будет сразу видно, как эти слова хранятся в индексе данного поисковика.
РазделителиКонечно, поисковики не индексируют всякие служебные символы, так называемые разделители - пробелы, знаки препинания, а также различные теги и другие конструкции языка HTML. Например, если ввести в Яндекс или Google запрос из одной точки (.), они откажутся искать по такому запросу, а Яндекс еще и сообщит о «синтаксической ошибке». Действительно, точка есть в любом тексте, так что искать ее нет смысла.
Стоп-словаА есть ли «ненужные слова», которые поисковики не индексируют вовсе? Поисковый индекс представляет собой пусть хорошо упакованную, но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, т.е. в идеале поисковый индекс должен представлять собой копию всего Интернета, а это огромный объем данных. Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, числа, сокращения и т.п. Отбрасывали они также и цифры. В дальнейшем оказалось, что пользователи все-таки достаточно часто запрашивают такие слова, поэтому их нужно хранить (особенно для поиска точных цитат, включающих эти служебные слова). А стоимость хранения мегабайта данных к настоящему времени существенно снизилась - жесткие диски стали дешевы. Так что сейчас большинство популярных поисковиков индексируют все слова в текстах, в том числе и стоп-слова - предлоги, союзы, междометия. Индексируют они также и цифры, и буквенно-цифровые комбинации(т.е. считают их словами). Так что сейчас вы можете поискать, например, предлог «в». Это, кстати говоря, хороший способ понять, сколько всего страниц в индексе поисковика, поскольку предлог «в» есть в любом русскоязычном тексте.
Индексация ссылокВ текстах веб-страниц во множестве присутствуют ссылки на другие страницы Интернета - гипертекстовые ссылки, на которых можно щелкнуть мышью и перейти на другую страницу. Для поискового робота выделить в тексте страницы гипертекстовые ссылки нетрудно, потому что они всегда имеют формальный вид - начинаются и заканчиваются специальными метками языка HTML. Но ссылки - это не текст, не слова. Нужно ли их индексировать? Да, безусловно. Индексируя ссылки, поисковики преследуют сразу несколько целей. 1. Пополнение списка страниц С помощью ссылок поисковики пополняют свой список веб-страниц для индексации.
2. Поиск ссылок на заданный сайтБольшинство современных поисковиков позволяют искать по ссылкам на заданный сайт или страницу, как по обычным словам.
3. Вычисление ранга авторитетности страницыС помощью ссылок поисковые машины анализируют структуру ссылок сайтов друг на друга, чтобы определить наиболее авторитетные в Интернете страницы и сайты. Правило тут простое: на кого много ссылаются, тот, очевидно, более известен и авторитетен, чем тот, на кого поставили мало ссылок. Авторитетность страницы, вычисленная по количеству ссылок на нее с других страниц, называется ссылочным рангом страницы (по-английски - PageRank).
4. Использование текста ссылкиС помощью текста ссылок можно получить тематическую классификацию страниц. Ведь ссылка обычно содержит не только адрес страницы, но и текст ссылки. Этот текст поисковики индексируют специальным образом, так как он является фактически кратким смысловым описанием той страницы, на которую ведет ссылка. Это описание можно использовать для поиска вебстраниц (обычно такие страницы помечают в результатах поиска как "найдено по ссылке"), а также для тематического ранжирования веб-страниц при выдаче результатов поиска.
Графический текстХотя это покаясется совершенно очевидным опытному человеку, стоит все-таки сказать, что поисковые машины не индексируют текст, написанный графически, т.е. в виде картинки. Оформлять заголовки рубрик сайта, лозунги, название фирмы красивым шрифтом в виде картинки - довольно распространенный прием, но нужно понимать, что поисковая машина фактически «не видит» этого текста. В последнее время поисковики научились индексировать графику в формате Flash (но только потому, что текст все-таки скрыто присутствует в объектах Flash также и в исходном текстовом виде). А вот текст, представленный в растровом виде (нарисованный с помощью цветных точек, или пикселей), поисковикам еще долго будет недоступен.
Что такое машинная морфологияКак уже говорилось выше, при индексировании текстов и поиске запросов поисковая машина волей-неволей должна производить лингвистическую обработку слов. Причина этого - в устройстве языка.
Проблема окончанийВо многих языках слова имеют несколько различных окончаний (в так называемых флективных языках; от лат. флексия - окончание). Поэтому у каждого слова очень много различных форм, которые называются словоформами. Словоформы по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе. А в некоторых особых случаях (так называемый супплетивизм) словоформы одного и того же слова могут вообще не иметь ни единой общей буквы (например, идти - шел, go - went). Как видно из примеров, русский и английский языки - флективные. Однако окончаний и разных словоформ в английском языке сравнительно мало. Лингвистическая обработка окончаний в английском очень проста, а часто и вовсе не делается поисковиками. А вот русский язык, напротив,- высокофлективный язык, так как его слова имеют очень много форм. Например, существительное в общем случае имеет двенадцать словоформ (шесть падежей единственного числа и шесть падежей множественного). Есть и неизменяемые существительные, например кофе, пальто, но их мало. У прилагательного - почти двадцать словоформ, а уж глаголы со всеми своими причастиями могут иметь до сотни форм. Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.
Как это делается?Отбрасывание окончаний и работа с основамиЕстественным решением этой проблемы изменчивости слов является решение хранить только основы слов, а окончания и чередования - отбрасывать и хранить отдельно. Это дает не только значительную экономию, но и позволяет объединять при поиске разные грамматические формы одного и того же слова, что довольно важно для качества поиска. Для этого в ходе индексации веб-страниц слова приводятся к своим начальным формам (условно говоря, к именительному падежу или инфинитиву), а чаще - вообще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой машины. Для этого поисковик обычно применяет словарь, т.е. работает только с известными ему словами. Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.
Зачем нужно знать о машинной морфологииРоссийские поисковики уже много лет применяют машинную морфологию при индексировании и поиске. Русская машинная морфология подключена также и в Google . У каждой поисковой машины машинная морфология своя, особенная. Впрочем, обычные слова, наподобие кондиционер, все они склоняют практически одинаково. Правда, в отличие от российских поисковиков, Google применяет машинную морфологию не на этапе индексирования, а только во время обработки запроса. Это означает, что Google записывает в индекс все словоформы отдельно, «как есть», а при обработке запроса применяет так называемое расширение запроса: слова запроса, превращаются в веер словоформ и все словоформы ишутся в индексе. Интересно, что делается это не каждый раз, а только тогда, когда поисковик сочтет это обоснованным, на основе анализа статистики вхождении заданного слова на веб страницы.
Для владельца сайта понимание того, что поисковик считает разные формы слова одним и тем же словом, довольно важно при составлении текстов сайта, управлении ссылками, а также при планировании продвижения сайта и контекстных рекламных кампаний в системах контекстной рекламы.
Неизвестные слова и «нечеткая» морфологияАккуратно отбросить окончание и найти основу можно только у известного с лова, которое есть в словаре поисковика. А в языке и особенно в Интернете постоянно появляются новые слова, ибо словотворчество веб-мастеров не знает границ. Как же поступает поисковик с неизвестными ему словами? С ними делают то же самое, что и с прочими несловарными элементами - числами, буквенно-цифровыми последовательностями, словами неизвестных языков: поисковик хранит их в индексе «как есть», как иероглиф, в той фиксированной форме, в которой они встретились в тексте при индексации. То же самое происходит и с опечатками - они хранятся «как есть». Это довольно очевидный факт, но он ведет к важному выводу: если нужно, чтобы слова на странице распознавались поисковиками во всех своих грамматических формах, их следует писать без ошибок и по возможности использовать общеупотребительные слова, которые наверняка известны машинной морфологии поисковиков.
Источник: Поиск информации и поисковые машины, Как устроен индекс поисков, Как работает поисковая машина |