Файл: Анализ поисковых систем в сети Интернет (Понятие поисковых систем в сети Интернет).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 30.03.2023

Просмотров: 170

Скачиваний: 2

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

1.2. Механизм поиска в поисковых системах

Поисковые системы можно сравнивать со справочной службой, агенты которой обходят организации, собирая информацию в базы данных. При обращении в службу выдается информация из данной базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые организации сами присылают данные о себе, и к ним агентам приезжать не нужно. Другими словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиентов.

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Интернета и формирует базу данных поискового механизма.

База робота, главным образом, формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (червяка, паука, сетевого агента), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковых машин сводится к тому, что они опрашивают свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдают список ссылок, ранжированный по релевантности.

Следует заметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Интернету, как часто думаю неопытные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все веб-документы: их количество крайне велико. Поэтому всегда существует вероятность, что необходимый ресурс просто неизвестен определенной поисковой системе.

Данную мысль наглядно иллюстрирует рисунок 1. Эллипс 1 ограничивает множество всех веб-документов, существующих на некоторый момент времени, эллипс 2 - все документы, проиндексированные определенной поисковой машиной, а эллипс 3 - искомые документы. Таким образом, найти с помощью определенной поисковой машины можно лишь ту часть искомых документов, которые ей проиндексированы.


Рисунок 1. Схема, поясняющая возможности поиска

Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограничена, а количество новых веб-документов постоянно растёт. Рост внутренних ресурсов поисковой машины не может полностью решить проблему, поскольку скорость обхода ресурсов роботом конечна.

При этом считать, что поисковая машина содержит копию исходных ресурсов Интернета, было бы неправильно. Полная информация (исходные документы) хранится далеко не всегда, чаще хранится лишь её часть - так называемый индексированный список, или индекс, который гораздо компактнее текста документов и позволяет быстрее отвечать на поисковые запросы.

Для построения индекса исходные данные преобразуются так, чтобы объём базы был минимальным, а поиск осуществлялся очень быстро и давал максимум необходимой информации. Объясняя, что такое индексированный список, можно провести параллель с его бумажным аналогом - так называемым конкордансом, т. е. словарем, в котором в алфавитном порядке перечислены слова, употребляемые конкретным писателем, а также указаны ссылки на них и частота их употребления в его произведениях.

Очевидно, что словарь (конкорданс) гораздо компактнее исходных текстов произведений и найти в нём необходимое слово гораздо проще, чем перелистывать книгу в надежде наткнуться на необходимое слово.

Схема построения индекса показана на рисунке 2. Сетевые агенты, или роботы-пауки, "ползают" по Интернету, анализируют содержимое веб-страниц и собирают информацию о том, что и на какой странице было обнаружено.

Рисунок 2. Схема построения индекса

При нахождении очередной HTML-страницы большая часть поисковых систем фиксируют слова, картинки, ссылки и другие элементы (по-разному в различных поисковых системах), содержащиеся на ней. Причём при отслеживании слов на странице фиксируется не только их наличие, но и местоположение, т.е. где данные слова находятся: в заголовке (title), подзаголовках (subtitles), в метатэгах (meta tags) или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия типа "а", "но" и "или" игнорируются. Метатэги дают возможность владельцам страниц определить тематику и ключевые слова, по которым индексируется документ. Это может быть актуально в случае, если ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковую систему при выборе из нескольких значений слова на единственно правильное. Однако метатэги работают надёжно только в том случае, когда заполняются честными владельцами сайтов. Недобросовестные владельцы веб-сайтов помещают в свои метатэги наиболее популярные в Интернете слова, не имеющие ничего общего с темой сайтов. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Именно поэтому многие современные поисковые системы либо игнорируют метатэги, либо считают их дополнительными по отношению к тексту страницы. Каждый робот поддерживает свой список ресурсов, наказанных за недобросовестную рекламу[4].


Очевидно, что если пользователь ищет сайты по ключевому слову "собака", то поисковый механизм должен найти не просто все страницы, где упоминается слово "собака", а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, в какой степени то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову ссылки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.д.). Каждый поисковый механизм имеет свой алгоритм присваивания весовых коэффициентов - это одна из причин, по которой поисковые машины по одному и тому же ключевому слову выдают разные списки документов. Т. к. страницы постоянно обновляются, процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объёма информации и сжатию файлов. Имея несколько роботов, поисковая система может обрабатывать сотни страниц в секунду. Сегодня мощные поисковые машины хранят сотни миллионов страниц и получают десятки миллионов запросов каждый день.

При построении индекса решается также задача уменьшения числа дубликатов - задача нетривиальная, учитывая, что для корректного сравнения необходимо сначала определить кодировку документа. Ещё более сложной задачей является отделение очень похожих документов (их называют "почти дубликаты"), к примеру таких, в которых отличается только заголовок, а текст дублируется. Подобных документов в Интернете очень много – к примеру, кто-то списал реферат и опубликовал его на сайте за своей подписью. Современные поисковые системы позволяют решать данные проблемы[5].

1.3. Оптимизация в поисковых системах

Одним из видом продвижения в сети Интернет является поисковая оптимизация или SEO-оптимизация – это совокупность мер по продвижению Интернет-ресурса в поисковых сетях[6].

Копирайтинг - это процесс написания уникальных статей, которые продвигают услугу, продукт, человека, мнение или идею. Контент сайтов, заголовки, слоганы, ключевые фразы, тексты рассылок — всё это должно быть интересным, уникальным, максимально соответствующим задачам сайтов.


SEO-копирайтинг — это создание уникального тематического контента с оптимизацией для поисковых систем. Такой контент:

- понятен каждому и прост;

- адаптирован для успешного продвижения сайтов;

- стимулирует покупательскую активность, увеличивая конверсию.

Профессиональная SЕО-оптимизация – комплекс действий над сайтом, которые направлен на повышение позиций выдачи сайта в популярных поисковых системах (Google и Яндекс). Данная стадия раскрутки является обязательной для продвижения большинства коммерческих проектов в Сети. Неважно, какие услуги и товары предлагает сайт: главная цель – привлечь целевых клиентов на страницы сайта. Часто это делается при помощи платной рекламы (баннерной, контекстной, тизерной и т. д.), но также можно привлечь посетителей напрямую из поисковых систем. Оптимизацией занимается много компаний и студий интернет-маркетинга, но не все они дают стабильный результат. Качественное продвижение сетевых ресурсов – мероприятие поэтапное и длительное. Важно не просто повысить количество посетителей сайта, а привлечь потенциальных (целевых) клиентов.

SEO-продвижение обязательно включает техническую оптимизацию сайта, аудит и увеличение уровня релевантности — соответствия продвигаемых статей вашему платному предложению на сайте. Современная поисковая оптимизация – реальный технологический инструмент, который повышает продажи гораздо эффективнее, чем традиционная реклама. В идеале начинать оптимизацию следует уже на этапе разработки сайта: следует сразу продумать и определить функциональное семантическое ядро – список ключевых слов (тем), которые наиболее точно определяют общее направление деятельности конкретного ресурса.

SEO-оптимизация под системы поиска строго ориентирована на цели бизнеса в XXI веке. Поисковые системы Google, Яндекс и другие давно стали неотъемлемой частью сетевого пространства. Если сайт не будет посещаемым, в том числе и SEO не оптимизированным, он будет бесполезен, так как о нем никто не узнает из-за отсутствия посетителей. Во всем мире бизнес постепенно перемещается в интернет-пространство. Все большее количество людей заказывает покупки через сайты коммерческих компаний и онлайн-магазины. Раскрутка фирмы в интернете – самый действенный на сегодня метод увеличения ее популярности[7].

Для эффективного SEO-продвижения важна совокупность многих факторов, среди которых выделяют:

- Плотность ключевых слов. Современные поисковые системы обладают отлаженными механизмами семантического анализа сайта, поэтому Интернет-ресурс должен обладать направленность ключевых слов должна соответствовать тематике сайта.


- Индекс цитируемости. Данный показатель характеризует авторитетность ресурса, показывающий, что на данный сайт ссылаются другие сайты. Наилучшим вариантом является, если на сайт ссылаются другие авторитетные ресурсы[8].

Для расчета данного индекса существуют различные алгоритмы ранжирования. Основными индексами цитируемости являются показатели от Google и Яндекс – PageRank и тематический индекс цитирования (ТИЦ).

- Пользовательские факторы. Это факторы, учитывающие поведение пользователя на ресурсе. К ним относятся посещаемость сайта, глубина просмотра сайта, различные переходы и действия, а также время, которое пользователь провел на сайте.

Таким образом, главной задачей SEO-продвижения является совокупность действий с контентом сайта для повышения позиций сайта в поисковых системах по сравнению с конкурентами.

По степени мероприятий по SEO-продвижению выделяют три вида SEO-оптимизации – белая, серая и черная.

Белая оптимизация является основным легальным компонентом всей структуры SEO-оптимизации. Совокупность мероприятий белой оптимизации направлены на создание качественного и уникального контента, на разработку юзабилити (usability), продвижение сайта с помощью социальных сетей и блогов и обмен ссылками.

К методам серой оптимизации относят не рекомендуемые мероприятия, которые однако формально не запрещаются. Примером серой оптимизации может служить перенасыщенность контента ключевыми словами.

К методам черной оптимизации относят запрещенные мероприятия по повышению сайта в поисковых системах, к которым относят спам и нацеленность контента не на пользователя, а на поискового робота.

Глава 2. Анализ современных поисковых систем в Интернет

2.1. Обзор рынка поисковых систем в России

На текущий момент на первом месте находится Google с долей 54,24%. Яндекс является второй по популярности поисковой системой в России с долей 42,27%. Остальные системы занимают незначительную долю, в частности, на третьем месте находится Mail.ru с долей 1,77% (рис. 3). Главные страницы поисковых систем Яндекс и Google представлены в Приложении.