Файл: «Анализ поисковых систем в сети Интернет» (История становления и развития поисковых систем).pdf

ВУЗ: Не указан

Категория: Курсовая работа

Дисциплина: Не указана

Добавлен: 28.03.2023

Просмотров: 102

Скачиваний: 6

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

«Rambler» – поисковая система, появившаяся еще в 1996 году, была разработана, так как создатели понимали, что иностранные поисковые системы часто крайне плохо работали с русским языком и web-страницами с несколькими кодировками, а глубина индексирования страниц Рунета, была очень низкой.

До 2011 года «Rambler» был первым по популярности поисковиком Рунета. И несмотря на то, что сегодня на первом месте «Яндекс» и «Google», поисковик «Rambler» занимает уверенную позицию в Рунете – на его долю приходится 20-25% русскоязычных поисковых запросов.

Название поисковика «Rambler» переводится с английского, как бродяга, странник или даже праздношатающийся человек. Всё это неплохо отражает деятельность компании. «Rambler» позволяет искать информацию на различных языках, среди которых русский, украинский, английский, казахский и многие другие. Поисковик умеет работать со словоформами, а также приводить полученные результаты поиска в структуру по уровню релевантности.

В начале 2009 года был внедрен алгоритм вертикального поиска, в его основе технология XAG (eXtended AGgregator), с помощью которого появилась возможность отсортировать результаты поиска по темам, что на порядок упростило использование поисковика. Интересная особенность и несомненно преимущество алгоритма вертикального поиска заключается в том, что, если в найденном документе недостаточно информации, она может быть дополнена данными из другого документа. Это позволяет еще и очистить данные от повтора и спама. Так, при поиске вакансий по телефонному номеру компании «Rambler» определяет ее название с помощью чего способен увидеть на иных web-страницах дубликаты объявлений и сомнительные вакансии.

Отличительная особенность «Rambler» - обслуживание только сайтов, находящиеся в следующих доменах первого уровня: Российская Федерация: .ru, .su; Украина: .ua; Белоруссия: .by; Казахстан: .kz; Киргизия: .kg; Узбекистан: .uz; Грузия: .ge.

Как и вышеперечисленные компании, «Rambler» - не только поисковая система. В рамках компании было запущено большое количество проектов и сервисов с возможностями: посетить наиболее популярные сайты, послушать музыку и посмотреть видео, узнать новости и другую полезную информацию, завести новые знакомства и пообщаться.

Mail.ru — один из крупных игроков Рунета, который принадлежит инвестиционной группе Mail.ru Group. Его аудитория сегодня превышает 80 миллионов уникальных и активных пользователей в месяц. По данным Alexa, на октябрь 2018 года сайт портала занимает 36-е место в мировом рейтинге, а также пятое место в России.


В 1998 году разработчики американской компании DataArt, которые работали в российском подразделении в Санкт-Петербурге, создали новое программное обеспечение для почтового web-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Есть версия, что собственники были вдохновлены примером роста и развития компании Yahoo!, которая объединила на одном сайте поисковую систему, сервис электронной почты и информационные блоки. Изначально сервис Mail.ru выложили в открытый доступ для тестирования в сегменте российских пользователей, но сервис так стремительно набирал известность и посещаемость, что остался самостоятельной единицей.

Очень популярны и дополнительные сервисы, и разделы компании, среди них такие тематические проекты, как:

«Авто Mail.ru» - сайт автомобильной тематики,

«Кино Mail.ru» - онлайн-кинотеатр с возможностью купить отдельный продукт или подписку,

«Дети Mail.ru» - тематический сайт о правильном и здоровом воспитании детей, о беременности, родах и семье в целом,

«Здоровье Mail.ru» - тематический медицинский портал,

«Леди Mail.ru» - женский тематический сайт, где обсуждаются темы моды, стиля, красоты, звезд шоу-бизнеса, отношений, психологии и многие другие.

«Новости Mail.ru» - агрегатор новостей российских изданий,

«Спорт Mail.ru» - агрегатор новостей спорта,

«Hi-Tech Mail.ru» - новости в сфере технологий и потребительской электроники,

«Недвижимость Mail.ru» - сервис поиска по объявлениям о покупке, продаже и сдаче в аренду жилой недвижимости.

GoGo.ru – автономный проект от разработчиков Mail.ru. Соответствующий домен был зарегистрирован еще в 2000-м году, но сама разработка началась только в 2006 году. А уже в 2007 году поисковая система была запущена. В начале было немало проблем: низкие охваты, странные результаты поиска. Работа над оптимизацией всех аспектов поисковой машины велась постоянно и в 2008 году GoGo.ru была способна осуществлять поис по более чем 2,5 млр. документов, 140 млн. изображений, 2 млн. видео-файлов, и так далее.

Главным отличием GoGo.ru от других поисковиков стала возможность:

- поиска по русскоязычным видеороликам и WAP-сайтам,

- анализа базы данных Ответы@Mail.ru

- а также набор функций для web-мастеров и владельцев собственных Интернет-проектов.

GoGo.ru осуществляет поиск по видео-хостерам: Video.Mail.ru, RuTube.ru, LiveInternet.ru, Teledu.ru, Smotri.com, Myvi.ru, Video.i.ua и некоторые другие.

А при поиске изображений робот GoGo.ru способен отличать фотографии от прочих картинок, благодаря особому встроенному фильтру.


Высокая эффективность графического поиска в GoGo.ru обеспечивается наличием XML-синдикации с ведущими фотохостерами Рунета.

Важно отметить, что поисковик способен работать со словоформами и синонимами. Причем словарь поисковой машины пополняется в полуавтоматическом режиме.

Таким образом, на рынке представлено довольно большое количество поисковых систем. Благодаря конкуренции между ними, мы можем наблюдать постоянное совершенствование «поисковиков»: улучшение алгоритмов поиска, оптимизацию времени выдачи поисковых запросов, расширение морфологии.

В следующей главе будут проанализированы доли рынка известных поисковых систем, наиболее популярные будут выбраны для дальнейшего анализа эффективности.

Глава 2

2.1. Статистика популярности поисковых систем

На сегодняшний день поисковые системы являются сложнейшими и громадными механизмами. В рамках данной курсовой работы были собраны актуальные статистические данные по популярным мировым поисковым системам.

Рейтинг популярных систем мира по данным исследовательской компании NetMarketShare в период с мая 2018 по май 2019 возглавляет Google (78,36%), на втором месте китайская поисковая система – Baidu (13,37%). Тройу лидеров замыкает Bing (4,49%). На четвертом и пятом местах расположились Yahoo! (2,18%) и единственный в рейтинге российский поисковик Yandex (0,79%). На Рисунке 1 наглядно представлено распределение долей.

Рисунок 1. Рейтинг поисковых систем мира по популярности

(май 2018 – май 2019)

В России наблюдается несколько иная картина. По данным российского онлайн-сервиса Liveinternet за период с марта по май 2019 выявлена следующая ситуация: на первом месте всё также Google (54,9%), на втором – Yandex (42,3%), на третьем – Search.Mail.ru (2,5%).

Далее Rambler и Bing с одинаковым значением – 0,1%.

Наглядное распределение на Рисунке 2.

Рисунок 2. Рейтинг поисковых систем России по популярности

(март 2019 – май 2019)

2.2. Анализ поисковых систем по критериям эффективности

В прошлом параграфе мы выявили ТОП-5 поисковых систем в России и в мире. В данной курсовой работе хотелось подробнее остановиться на популярных поисковых системах именно нашей страны.


Один из важнейших критериев качества поисковых систем – релевантность, которая включает в себя несколько показателей. Наиболее интересные из них – полнота и точность поиска. Точность определяется соотношением между найденными релевантными и нерелевантными документами, а полнота поиска - общим количеством найденных документов. Релевантным будем считать документ, который удовлетворяет запросу пользователя. Нерелевантным – тот, который не смог удовлетворить запрос пользователя.

Для анализа нам необходимо назначить весовые коэффициенты - параметры, которые отражают в сравнении с другими критериями относительную важность, значимость, «вес» данных критериев. Сумма всех весов должна быть равной 1, поэтому для точности поиска весовому коэффициенту даем значение, равное 0.8, для полноты поиска - 0.2. Оформим результаты в виде Таблицы 1.

Таблица 1

Весовые коэффициенты

Критерий

Весовой коэффициент

Точность поиска

0,8

Полнота поиска

0,2

Были сформулированы пятнадцать запросов на различные темы. Каждый запрос был выполнен в каждой из пяти исследуемых поисковых системах. Из полученных списков результатов была получена следующая информация:

1. Общее количество найденных документов (Д).

2. Количество релевантных документов различной ценности (РД)

Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. Также определяется ценность найденной информации (степень удовлетворения найденным документом информационных потребностей). Ценность информации оценивается по 3-х бальной шкале: 2 балла – информация имеет ценность, 1 балл – информация имеет частичную ценность, 0 баллов – информация не имеет ценности. Результаты выполнения запросов были сведены в Таблицу 2.

Таблица 2

Результаты выполнения запросов

Bing

Google

Mail.ru

Rambler

Yandex

Д

РД

Д

РД

Д

РД

Д

РД

Д

РД

2

1

0

2

1

0

2

1

0

2

1

0

2

1

0

1

111015

6

4

0

7 240 000

10

0

0

3661995

5

2

3

5266123

9

1

0

6071953

9

0

1

2

216054

8

2

0

9988671

10

0

0

872111

8

1

1

2575905

10

0

0

2026800

10

0

0

3

420554

7

2

1

2022025

10

0

0

7331185

9

1

0

6198330

8

0

2

7966970

8

1

1

4

620689

8

2

0

9640000

9

0

1

9040318

8

1

1

9040318

9

1

0

9586458

9

1

0

5

2002188

8

1

1

15669000

9

0

1

7330374

7

1

2

8318276

9

0

1

9977900

9

1

0

6

487775

7

0

3

2380000

9

0

1

2575905

9

0

1

4242846

10

0

0

6155744

9

0

1

7

746000

9

0

1

4301003

8

0

2

962075

10

0

0

2776226

9

0

1

4749756

8

1

1

8

196987

7

2

1

900347

8

0

2

246098

9

1

0

735288

8

0

2

829904

8

0

2

9

425696

9

1

0

1320500

8

1

1

983974

7

1

2

9045322

9

0

1

8275010

10

0

0

10

999548

10

0

0

16874000

9

1

0

1989016

9

1

0

7981997

10

0

0

9977900

9

1

0

11

102178

10

0

0

4008750

8

1

1

882097

10

0

0

4719405

10

0

0

9323589

9

1

0

12

7326587

7

0

3

1874000

9

0

1

734819

9

0

1

9098659

8

0

2

9147106

8

0

2

13

115644

8

1

1

5440060

8

0

2

789022

9

0

1

5545995

8

0

2

1218709

8

0

2

14

259300

8

1

1

3971000

9

0

1

882097

7

1

2

3201308

8

1

1

425696

8

1

1

15

541100

7

1

2

4982000

9

0

1

930344

9

0

1

5266123

10

0

0

832686

10

0

0


Для нахождения наиболее эффективной поисковой системы для начала вычислим средние арифметические значения показателей для каждой поисковой системы Д, РД(0), РД(1) и РД(2).

Далее необходимо определить место каждой поисковой системы по критерию "Полнота поиска".

Для его определения места будем использовать среднее количество найденных документов Д. Наилучшей считается та система, которая нашла больше документов. Ей присваивается первое место, самой худшей – место N (где N – это количество всех исследуемых систем).

Коэффициент точности поиска P для каждой поисковой системы определим по формуле:

P = a/(a+b)

a – число релевантных документов, которые выдала поисковая система в ответ на запрос.

a = 0.5 * РД(1) + РД(2)

b – число документов, которые полностью не имеют ценность, b = РД(0).

Далее необходимо определить место каждой поисковой системы по заданному критерию "Точность поиска". Лучшей будет считаться система, которая имеет наибольшее значение коэффициента точности поиска P. Ей присваивается первое место, а самой худшей – место N (где N – это количество исследуемых систем).

Следующим шагом будет вычисление коэффициента поискового шума S по формуле:

S=1 – P

В заключении необходимо вычислить по следующей формуле рейтинг каждой исследуемой системы R:

i - номер критерия оценки поисковой системы,

m - это количество критериев оценки,

wi - весовой коэффициент для критерия оценки i,

qi - это место ПС по критерию оценки i,

N - общее количество исследуемых систем.

Для первичной обработки информации данные были сведены в Таблицу 3.

Таблица 3

Результаты сравнительного анализа поисковых систем

Критерий

Bing

Google

Mail.ru

Rambler

Yandex

Полнота поиска (Д)

971421

6040757,1

2614095,3

5600808,1

5771078,7

Место

(полнота поиска)

5

1

4

3

2

Среднее количество пертинентных документов

(РД2)

7,9333333

9,0666667

8,3333333

8,8666667

8,8

Среднее количество частично пертинентных документов

(РД1)

1,1333333

0,0666667

0,6666667

0,2

0,4666667

Среднее количество непертинентных документов

(РД0)

0,9333333

0,8666667

1

0,9333333

0,7333333

Коэффициент точности поиска (Р)

0,9010601

0,9130435

0,8965517

0,9057239

0,9249147

Место

(точность поиска)

4

2

5

3

1

Коэффициент поискового шума (S)

0,0989399

0,0869565

0,1034483

0,0942761

0,0750853

Рейтинг (R)

2,3

6,1

3,8

4,8

5,6