Файл: Руководство для профессиональных аналитиков москва 2009 rv удк 001. 51 Ббк72 с 40.pdf

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 05.12.2023

Просмотров: 513

Скачиваний: 4

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Глава 12
ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ РАБОТА
В ГЛОБАЛЬНЫХ ИНФОРМАЦИОННЫХ СЕТЯХ
12.1. Этапы проведения системных исследований
с использованием информационных систем
При проведении системных исследований в открытых сетях и общедоступных массивах информации обычно выделяют три рабочие фазы.
Первая из них
- подготовительная, включающая в свою очередь два этапа: декомпозицию запроса и определение необходимых для поиска средств. Декомпозиция запроса - это выделение конструкций, для которых возможен результативный поиск, а определение необходимых средств - это выбор программных ресурсов (обычно поисковых машин), которые позволят найти содержательные ссылки для выделенных конструкций. Вопросы декомпозиции и выбора средств мы подробно поясним ниже на конкретных примерах.
Вторая фаза - собственно поиск, третья - обработка результатов поиска. Обработка результатов поиска включает в первую очередь оценку его полноты, адекватность полученной информации сформулированному первичному запросу и анализ ее достоверности. В первой части книги указано, что одним из важнейших методологических правил аналитических исследований социально- экономических и политических явлений и процессов является требование максимальной полноты информации, на основе которой вырабатываются знания, необходимые для менеджериальных решений, прогнозов, совершенствования стратегии и тактики управленческой деятельности.
В рассмотренном в п. 10.3. примере о композиторе В
ИРАЛЬДИНИ запрос был сформулирован корректно, информация получена полная, вот только недостоверная. Что навело нас на такую мысль? В первую очередь, сходство текстов и их цитирование в различных ссыл- ках и найденных источниках. Далее, в источниках приведены недостоверные и несуществующие ссылки, например, упомянут несуществующий биограф
В
ИРАЛЬДИНИ
О
РЛОВ

ОКОЛЬСКИЙ
В свою очередь, поиск работ данного автора ни к чему не приводит.
Следовательно, проверка достоверности полученных данных потребовала дополнительного поиска и перекрестных проверок.
В настоящее время известно немало примеров того, как специально подготовленная дезинформация весьма сильно сказывалась на деловой репутации финансовых учреждений, в первую очередь коммерческих банков.
Технология информационной атаки достаточно проста - формируется значительное количество ложных статей или комментариев в сети, посвященных неработоспособности подразделений банка или принадлеясащих ему банкоматов, публикуются сведения
«из достоверных источников» о предполагаемом лишении лицензии и т.д. Такие данные вполне способны вызвать панику среди вкладчиков, массовое изъятие денежных средств из банка, а непродуманная позиция руководства банка и аналитиков - ускорить процесс потери доверия
96
Фазы поиска с первой по третью могут выполняться несколько раз для получения достоверных и полных результатов. На практике к трем рассмотренным фазам необходимо прибавить еще четвертую фазу - подготовка заключения аналитика и передача его лицам, заказавшим поисковые работы и принимающим решения на основе полученных результатов.
Как мы отмечали выше, профессиональный поиск, как составная часть ССИ, предполагает исполнение некоторого заказа с вытекающими отсюда обязательствами перед заказчиком. Эти обязательства и являются источником трех дополнительных требований
97
:
• контроль полноты охвата ресурсов;
• контроль достоверности информации, полученной в результате поиска;
96. М
ИНАЕВ
С. Media Sapiens. Повесть о третьем сроке. - М.: Изд-во «Астрель». - 311 с.
97. Т
АЛАНТОВ
М. Профессиональный поиск в Интернете: полнота, достоверность, скорость // КомпьютерПресс. - 1999. - № 7. - Режим доступа: Шр//www.cpress.ru
402 403

• высокая скорость проведения поиска.
Заказчик вправе потребовать от аналитика, помимо собственно результатов поиска, еще и некоторых гарантий по указанным выше пунктам. Такие гарантии может дать лишь человек, хорошо осведомленный в тонкостях распределения и движения информационных потоков в Интернете.
Контроль полноты охвата ресурсов является необходимым требованием, так как системный аналитик не может подменять поиск и систематизацию полной информации установкой на поиск «хотя бы чего- нибудь», так как даже в малой частице пропущенной информации могут содержаться сведения, способные радикально повлиять на весь ход и выводы заказанного системного анализа.
Полномасштабный сбор информации в Интернете по какому-либо вопросу во многих случаях выводит аналитика за пределы широко освоенного Web- пространства в область малодоступных баз данных, региональных телеконференций и даже персональных дневников, размещенных в сети. Знание всех основных существующих на сегодняшний день типов ресурсов
Сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа становится необходимым условием успешного планирования и проведения поисковых работ.
Контроль достоверности информации, полученной из Сети в результате поиска, разумеется, может производиться разными средствами. Традиционными способами проверки являются: локализация источников информации, альтернативных данному; сверка фактического материала, установление частоты использования одного источника другими; выяснение статуса документа и рейтинга узла, на котором он находится средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов; анализ отдельных элементов организации узла с целью оценки квалификации поддерживающих его специалистов.
404
Так, в примере с вымышленным композитором Ви- ральдини легко установить, что тексты ссылок являются практически полными цитатами друг относительно друга, что не позволяет выявить альтернативные источники информации и заставляет предположить намеренное «впрыскивание» информации. Далее, изучение статуса и рейтинга большинства узлов, где размещены ссылки, позволяет сделать вывод о том, что большинство из них является личным ресурсом либо размещено на общедоступных серверах типа narod.ru.
Дополнительной информацией к размышлению служит то, что в тематических каталогах и электронных энциклопедиях сведений об этом композиторе нет.
Пишу для размышлений дает и анализ несуществующей библиографии о композиторе. Далее устанавливаем прямую связь между именем владельца бесплатного нотного архива, где размещены ноты
«произведений»
Виральдини, и фантастическим романом того же автора, где фигурирует одноименный композитор.
Скорость проведения поиска в Сети. Если не принимать во внимание технические характеристики подключения пользователя, то скорость проведения поиска зависит, в основном, от двух факторов. Это грамотное планирование поисковой процедуры и навыки работы с ресурсом выбранного типа. Под составлением плана поисковых работ понимается, как мы говорили выше, декомпозиция запроса и определение ключевых для поиска средств. При этом необходим выбор поисковых сервисов и инструментов, отвечающих специфике задачи и, что крайне важно, последовательности их применения в зависимости от ожидаемой результативности.
Для решения проблемы поиска информации в
Интернете существует целый ряд поисковых систем. Их основная задача - давать ответы на вопросы пользователей. Например, если мы «спросим» у поисковой системы, где в виртуальном пространстве находится Российская Национальная библиотека, то она в ответе укажет на ссылку (адрес в сети Интернет), воспользовавшись которой мы окажемся на сервере библиотеки. Без поисковых
405
систем пришлось бы наугад перебирать адреса. Может быть, мы даже нашли бы когда-нибудь нужный адрес
(http://www. rnb. ru).
Поисковые системы можно условно разделить на два класса. Первый - это автоматические роботы- индексаторы, т.е. в нашей терминологии - субъекты
КС, которые без участия человека постоянно сканируют информационное пространство Интернета и индексируют (т.е. устанавливают связи между понятиями и содержанием страниц) почти все, что им попадется. Результаты своей работы они заносят в базу данных, из которой потом извлекается ответ на запрос пользователя. Такие системы должны постоянно
«передвигаться» по Интернету: искать новые документы и обновлять старые. Для этого они подключены к Сети через мощные каналы связи.
Второй класс - тематические каталоги, которые с самого начала были созданы не для того, чтобы собрать под свою крышу абсолютно все. В каталогах вся информация рассортирована по темам, причем в них содержится информация, обработанная человеком. Это означает, что по каждому ресурсу Интернета (страница, документ, сайт, сервер) составляется краткая справка: содержание, ссылки на другие ресурсы, автор, фирма и т.п. Ценность информации в каталогах значительно выше, чем в автоматических индексах, но, к сожалению, ее и значительно меньше. Стоит заметить, что многие каталоги не бесплатны, особенно это касается тех, которые содержат коммерческую информацию. Вот несколько рекомендаций по практическому нахождению информации с помощью поисковых систем:
• необходимо иметь в виду, что ответы на один и тот же вопрос в различных поисковых системах не совпа дают, поэтому для получения полного ответа на свой во прос надо провести поиск с помощью нескольких поис ковых систем;
• при первом ознакомлении с интересующей темой лучше всего начинать с тематических каталогов.
12.2. Обзор поисковых систем
Русскоязычным пользователям, которым нужно найти что-то в Рунете (в доменной зоне имен «.га»), лучше всего начинать поиск с российских поисковых систем, и в первую очередь - с поисковой машины
Япйех. Для следующих этапов поиска вполне подойдут
Rambler и Mail.ru. Во многих случаях уточнить результаты поиска в Япйех можно с помощью глобальной поисковой системы Google.
Русская буква «Я» среди латинских в названии Япйех
не ошибка, а пожелание авторов системы. В английском варианте название становится более читаемым - Yandex.
Но в любом случае перед нами весьма перспективная поисковая машина (слово «машина» - это также изыск авторов), которая находится по адресу: http://www.yandex.ru.
Поисковая система Япйех за последнее время несколько раз меняла свой дизайн и расширяла сервисные функции, а в локализованной версии Internet
Explorer 5 вошла в число признанных Microsoft
поисковых систем. Теперь у поисковой системы два адреса в
Интернете: http://www.yandex.ru и http://www.ya.ru. По первому адресу находится портал, где можно найти информацию, получить доступ к новостям, создать свой почтовый ящик. По второму адресу располагается веб-страница, на которой имеется только форма для ввода запроса.
Сегодня Япйех декларирует, что работает в режиме обработки запроса на естественном языке, а также утверждает, что такой возможности нет у других поисковых систем. В идеале это означает, что машина ищет не просто по всем словам, указанным в запросе, а
«с пониманием смысла». Вы вводите слово или фразу, а ответ дается в соответствии со смысловой нагрузкой запроса. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел»,
«шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос
«отзывали» - документы, содержащие слово «отозвали».
406 407

При составлении запросов надо учесть, что
Япс1ех использует сложный язык запросов, синтаксис которого только в общих чертах совпадает с языками запросов у других поисковых систем, например:
+<стюво> - искать документы, в которых присутствует данное слово. Запрос доска объявлений + велосипед покажет все объявления о продаже велосипедов;
-<слове» - требует отобрать документы, в которых не содержится данное слово;
а
<слово><слово>
п
- поиск документа с образцом фразы;
<слово><слово> - поиск документа, в котором содержится первое слово, но отсутствует второе.
При поиске следует учесть, что Япйех различает строчные и прописные буквы (это зависит от режима обработки запроса).
Поисковая машина Япйех обладает самым быстрым механизмом обновления и поиска новой информации.
Можно примерно считать, что для этого требуется 1-2 недели. Но полностью весь Рунет она не просматривает, хотя количество выдаваемых ссылок максимально среди остальных поисковых систем.
На Япйех кроме поисковой машины вы найдете каталог интернет-ресурсов и другие интересные сервисы. Например, в ряде случаев может быть интересна система «Закладки», которая разрешает пользователям сохранять личные закладки в каталоге, размещенном в Интернете.
Информационно-поисковая система Rambler
(«Праздношатающийся»), несмотря на англоязычное название, изначально была создана для поиска по серверам русского сектора Сети. Ее адрес в Интернете - http://www.rambler.ru. Она работает с 1996 г. и содержит миллионы документов. До недавнего времени она также была единственной из всех российских поисковых систем, которые признавались фирмой
Microsoft.
Мода на создание интернет-порталов не обошла и Rambler - там вы найдете не только поисковую систему, но и новости, бесплатную почтовую службу, словари и многое другое. Rambler индексирует не только
Рунет, но также начала работу с русскоязычными сай-
408 тами в Германии (http://www.rambler.de) и Болгарии
(http://www.rambler.bg). Это первый опыт выхода российской поисковой системы за пределы России и
СНГ.
Сама поисковая система состоит из двух малосвязанных фрагментов: поисковой системы
Rambler и системы добровольной классификации сайтов Rambler-ТОР100. Обе составляющие прекрасно уживаются вместе и дополняют друг друга. При этом важно подчеркнуть, что их не следует путать - поиск в разных частях дает различные результаты.
Для перехода к Rambler-TOPlOO (это наиболее распространенное название) на главной странице существует гиперссылка Рейтинг Rambler-Top 100.
Сам каталог представляет собой набор таблиц со ссылками, рассортированными по темам. Выводится одновременно по двадцать ссылок, причем первая двадцатка - наиболее престижная, так как дает значительное повышение рейтинга посещаемости сайта.
Главная особенность данного каталога состоит в том, что владельцы сайтов сами регистрируются в определенном разделе, помещая на одной из страниц своего сайта счетчик посетителей сайта.
Приведем перечень наиболее популярных адресов, не упоминавшихся ранее. Порядок следования поисковых систем и каталогов примерно соответствует их популярности:
• Mail.ru-http://mail.ru;
• WWW.ru - http://www.ru;
• К
ИРИЛЛ И
М
ЕФОДИЙ
- http://www.km.ru;
• И
ВАН
С
УСАНИН
- http://www.susanin.net.
В последнее время одной из самых популярных глобальных поисковых систем стала Google (http:// www.google.com или http://www.google.com.ru).
Созданная русским программистом, переехавшим жить и работать в Силиконовую Долину, она отлично справляется не только с англоязычными документами, но и с поиском в кириллице. С 2003 г.
Google предлагает пользоваться своим сервисом почти на сотне различных языков. Google обладает уникальными возможностями:
409
даже результаты поиска по Рунету у нее оказываются более полными, чем у Япс1ех. Можно рекомендовать после поиска в Япйех воспользоваться внизу на странице результатов поиска ссылкой Google, что автоматически передаст запрос из Hndex в Google. Ниже мы рассмотрим практическую работу с Google более подробно.
Самая именитая поисковая система - AltaVista - обладает наиболее быстрым механизмом поиска, а также самой большой базой данных о ресурсах современного
Интернета. К сожалению, у AltaVista медленный темп обновления базы данных, но это беда всех систем, претендующих на глобальный охват Интернета. Первая страница
AltaVista
находится по адресу http://www.altavista.com. Заметим, что эта наиболее авторитетная поисковая система начала работать еще в декабре 1995 г. В AltaVista существуют два варианта запроса:*простой (Simple Search) и расширенный
(Advanced). Можно задать страну, серверы которой надо просмотреть для составления ответа.
Yahoo! - один из самых популярных тематических каталогов. Информация в нем организована по темам и подтемам, что в сочетании с отличной поисковой системой дает возможность успешно использовать
Yahoo! в качестве отправной точки для поиска нужного документа в Интернете. Каталог Yahoo! имеет национальные разделы ряда стран, ссылки на которые можно найти внизу главной страницы. Первая страница
Yahoo! расположена по адресу http://www.yahoo.com, где вы сразу можете воспользоваться двумя основными методами работы с каталогом - поиску по ключевым словам и иерархическому дереву разделов (категорий).
При движении по каталогу вы увидите путеводные значки, например:
• значки с надписями New приглашают познако миться с новыми, недавно появившимися в каталоге ги перссылками;
• число в скобках информирует о количестве гиперс сылок в подразделе;
• символ @ означает, что данный подраздел относит ся к другому разделу каталога.
410
В мире существует необычайно много различных поисковых систем и каталогов, но для российского пользователя интересны в первую очередь те системы, которые заглядывают в Рунет. Соответственно, наш список продолжает Lycos (http://www.lycos.com или http://www. lycos.ru), которая имеет объем индекса страниц Рунета почти на уровне Rambler. Кроме того, интересна поисковая система
Northern
Light
(http://www.northern.com). Ссылки на другие поисковые системы и каталоги мы сможем всегда найти в каталоге
Yahoo!. Также можно воспользоваться любезностью разработчиков браузеров, которые предлагают уже готовые ссылки на самые нужные поисковые системы.
Поиск программного обеспечения - всегда «головная боль» для пользователя. К счастью, Интернет предоставляет необыкновенные возможности для
«мгновенного» получения программ, когда они нужны.
Единственная возникающая при этом проблема - найти нужную программу, причем желательно без вирусов.
Для решения такой задачи существуют специальные интернет-каталоги с программами или гиперссылками на сайты авторов программ.
Самый популярный каталог программ - Shareware.com,
расположенный по адресу http://shareware.cnet.com. Это один из старейших каталогов. Через него доступно более четверти миллиона программ. Каталог располагает хорошей поисковой системой с развитым языком запросов. Подробности о поисковой системе можно узнать по гиперссылке Help. Отметим только, что регистр букв в запросе не учитывается, а ключевые слова могут содержать символ *, обозначающий последовательность любых символов. После выбора нужной программы
(загрузочного файла) вы получаете сообщение о том, где находятся копии этого файла. В отличие от менее комфортных аналогов, вам надо выбрать, с какого сервера вы будете загружать файл (то есть оценить максимально короткий путь от сервера к вашему компьютеру).
Запоминающийся своим дизайном, каталог программ
Tucows находится по адресу http://www.tucows.com. Рос-
411
сийские пользователи Интернета, похоже, с помощью этого сервера чаще всего получают программное обеспечение.
Он более «дружественен» для посетителей нашей страны, чем другие подобные системы. Для каждой программы в каталоге есть гиперссылка на сайт автора и его электронный адрес. Заинтересовавшую вас программу лучше всего «скачивать» с сервера автора программы. В
Рунете также имеются свои каталоги программ, которые, хотя и не могут соперничать с зарубежными собратьями, но предоставляют русскоязычный интерфейс, позволяющий быстрее разобраться с тем, где и что находится.
Каталог драйверов (программного обеспечения для различного компьютерного оборудования, например, видео- или сетевых карт, фотокамер) Driver.ru появился в Интернете совсем недавно, но завоевал популярность у пользователей, которые ищут драйверы для видеокарт, цифровых камер и прочих завлекательных устройств.
Конечно, здесь вы не найдете абсолютно все, но для почти всех продающихся в России адаптеров и устройств здесь можно найти нужный драйвер. Кроме того, этим каталогом молено пользоваться как отправной точкой для дальнейшего поиска драйверов.
Российский сервер, размещенный по адресу http:// www.download.ru, поддерживается фирмой Elcomsoft.
В основе создания каталога программ лежит простая истина
- надо поддерживать российских программистов, чтобы потом не пришлось
«импортировать умные головы». Поэтому здесь нет программ для взламывания защиты программных пакетов, ворованных программ и прочих атрибутов хакеров. В каталоге работает поисковая система, но можно найти нужную программу и по тематическим разделам.
Все программное обеспечение, представленное на сервере, - русскоязычное (или многоязычное) и создано российскими программистами или фирмами. Все программы проверены, но если возникают проблемы, то через почтовую рассылку дается информация о происшествии. Другой российский каталог программ -
ListSoft -находится по адресу http://www.listsoft.ru.
412
В заключение можно отметить, что при проведении
ССИ в общедоступных массивах информации после выполнения подготовительной фазы, определяющей объект поиска, в первую очередь желательно просмотреть тематические каталоги, а затем - определить поисковую машину, наиболее пригодную для решения задачи. Обработка результатов поиска включает в первую очередь оценку его полноты, адекватность полученной информации сформулированному первичному запросу и анализ ее достоверности с применением других поисковых систем.
1   ...   17   18   19   20   21   22   23   24   25


12.3. Практическое использование
поисковых машин
Теперь обратимся к практическому аспекту использования поисковой системы и рассмотрим
Google
98
, который становится все более популярным.
Так, по информации инженера по программному обеспечению Google Мэта Катса, уже в 2002 г. «каждый месяц Google индексировал 3 миллиарда веб- документов, в том числе более трех миллионов новых страниц каждый день».
Google использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по запросу. Для этого Google
анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей запроса. Кроме того, Google предпочитает страницы, на которых введенные ключевые слова расположены по тексту документа недалеко друг от друга. Каждый раз в списке найденных страниц Google
показывает отрывок из текста, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте.
Другой способ увидеть ключевые слова - загрузить страницу по ссылке «Сохранено в кэше». Недостаток этого способа (но иногда это рассматривается как преимущество) в том, что вы видите не ту страницу, которая есть сегодня, а ту, которая сохранена в базе
Google. Tpe-
98. Ющук Е.Л. Конкурентная разведка: маркетинг рисков и возможностей. - М.:
Изд-во деловой литературы «Вершина», 2006.

413
тий способ - традиционный для просмотра текста в браузере - заключается в том, чтобы использовать функцию браузера «найти на текущей странице», в которую вводятся искомые слова.
По умолчанию при написании слов запроса через пробел Google ищет документы, содержащие все слова запроса. Это соответствует оператору «логическое И».
Например: [Кошки собаки верблюды зебры носороги]
Логическое «ИЛИ» пишется с помощью оператора OR.
Обратите внимание, что оператор OR должен быть написан заглавными буквами. Относительно недавно появилась возможность написания логического «ИЛИ» в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе.
Например: [Таксы длинношерстные OR гладко
шерстные]
*
Интересно, что Google может показать и те страницы, на которых нет ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу: таксы длинношерстные гладкошерстные».
Надо помнить, что Google не чувствителен к регистру букв. Все буквы воспринимаются как прописные вне зависимости от того, как их вводили в поисковую строку. Запросы [Эйфелева Башня] и
[эйфелева башня] дадут одинаковые результаты. Весьма важным для поиска является понятие «стоп-слов». К стоп-словам относятся большинство артиклей английского языка, союзов и предлогов русского языка. В руководствах указано, что Google, подобно большинству поисковых машин, игнорирует стоп-слова и, как и многие другие, имеет механизм принудительного включения стоп-слов в результаты поиска. В реальности ситуация несколько иная:
Вводим по-русски предлог [в].
Результаты 1-10 из примерно 48600000 для в.
Вводим по-английски артикль [the].
Результаты 1-10 из примерно 8670000000 для the.
414
Бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В руководстве Google приводится пример с запросом «Star Wars Episode h, где римская единица представляет собой латинскую букву «/» (Аи).
Если сделать запрос [Star Wars Episode I], то результат будет:
Результаты 1-10 из примерно 13200000 для Star Wars
Episode I.
В том числе в выдаче появятся слова «Episode II»,
«Episode IV» и т.п.
Если сделать запрос [Star Wars Episode +/), то результат будет:
Результаты 1-10 из примерно 9290000 для Star Wars
Episode +1.
И в него войдут только тексты, содержащие слово «Episode I».
Google не поддерживает морфологию слов. Слова надо вводить в нужных словоформах. Отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы убедиться в правильности утверждения об отсутствии поддержки морфологии, возьмем словосочетание, по которому можно увидеть все без исключения результаты. На эту роль подходит знаменитая «Глокая куздра» - искусственная лексико- фонетическая конструкция, соответствующая естественному звучанию русского языка, которая ассоциируется с некоторым животным.
Запрос: [глокая куздра]
Результат: 3 документа.
Запрос: [глокую куздру]
Результат: 1 документ.
Запрос: [глокой куздре]
Результат:
Не найдено ни одного документа, соответствующего запросу «глокой куздре».
Для сравнения, по всем трем запросам Яндекс давал на момент написания этой главы одинаковый результат.
Поскольку Google выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли вве-
415

сти в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск и проверить достоверность получаемой информации. Если же добавлять эти слова к уже имеющемуся запросу, то молено иногда излишне сузить диапазон результатов.
Как известно, информационный мусор часто встречается при составлении запроса. Чтобы его удалить, стандартно используются операторы исключения - логическое «НЕ». В Google такой оператор представлен знаком «минус». Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
Запрос: [Журавль колодец]
Результаты 1-10 из примерно 778 для Журавль колодец.
Запрос: [Журавль колодец-птица]
Результаты 1-10 из примерно 715 для Журавль колодец-птица.
Запрос: [Журавль-колодец-птица]
Результаты 1-10 из примерно 120000 для Журавль- колодец-птица.
Запрос: [Журавль-колодец-птица-птиц]
Результаты 1-10 из примерно 106000 для Журавль- колодец-птица-птиц.
Запрос: [Журавль-колодец-птица-птиц-журавли]
Результаты 1-10 из примерно 104000 для Журавль- колодец-птица-птиц-журавли.
Последовательное исключение ненужных конструкций постепенно приведет аналитика к обозримому перечню документов, подлежащих изучению.
Достаточно часто аналитику приходится искать некоторую точную фразу, не допуская ее интерпретации в поисковой машине. Искать точную фразу на практике требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляют собой стабильно повторяющееся словосочетание. Чтобы справиться с такой задачей при помощи Google, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи). Напри-
416
мер, введем весьма актуальную для политического прогноза цитату: «Политик должен уметь предсказать, что произойдет завтра, через неделю, через месяц и через год. А потом объяснить, почему этого не произошло». Результаты поиска:
Мания пиара - Статьи - Консалтинговая Группа АРМ
Политик должен уметь предсказать, что произойдѐт
завтра, через неделю, через месяц и через год. А потом
объяснить, почему этого не произошло...
www.arm-group.ru/rus/talks/articles/politics/prmania/
-
30k - Сохранено в кэше - Похожие страницы
Restime: Единая служба спасения от скуки! - Статьи -
Екатеринбург
Политик, как и астролог, должен уметь предсказать, что
произойдет завтра, через неделю, через месяц и через год. А
потом объяснить, почему этого не ...
restime911.ru/articles.html - 37k - Сохранено в кэше -
Похожие страницы
И, наконец, третья ссылка указывает нам на автора этого мудрого высказывания:
Уинстон Черчилль
... заключается в умении предсказать, что может
произойти завтра, на следующей неделе, через месяц, через
год. А потом объяснить, почему этого не произошло...
www.aforism.info/%D3%E8%ED%Fl%F2%EE%ED+%D7%E
5%F0%F7%E8%EB%EB%FC.html - 39k - Сохранено в кэше -
Похожие страницы
Поиск цитат является весьма важным инструментом, поскольку в некоторых случаях позволяет существенно расширить границы поиска, включив в него ресурсы или людей, ассоциированных с содержанием цитаты.
Google воспринимает как знаки, связывающие слова в единую фразу, не только кавычки, но и такие символы как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Результаты 1-10 из примерно 27400 для мать-и-мачеха.
Результаты 1-10 из примерно 27300 для мать/и/мачеха.
Результаты 1-10 из примерно 27300 для мать= и=мачеха.
Результаты 1-10 из примерно 27300 для мать.и.мачеха.
Результаты 1-10 из примерно 27300 для мать'и'мачеха.
Во многих источниках встречается такая информация, будто поисковая строка Google вмещает 10 слов или
417

что Google проводит поиск только по 10 словам. Однако в эксперименте эти данные не подтвердились. Для проверки достаточно ввести запрос из 23 произвольно выбранных слов [крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]. Результаты 1 - 3 из примерно
5 для крупа мука яйца масло соль церец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр.
Pecmopau.Ru | Кулинария \ Кулинарные рецепты \ Вторые
блюда\
(салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез) ... (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр) ...
www.restoran.ru/indsx.phtml?t= l&pid=2516
В кэш подчеркнуты все 23 слова и в тексте они также присутствуют.
Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат, естественно, меняется, но все слова в выдаче по-прежнему выделены
Google, [крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо
OR фарш OR говядина OR майонез OR салат OR огурцы
OR гамбургеры OR булочки OR сыр] Результаты 1 - 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко
OR хлеб OR сметана OR сахар OR помидоры OR рубленое
OR мясо OR фарш OR говядина OR майонез OR салат
OR огурцы OR гамбургеры OR булочки OR сыр.
Приведем аналогичный, но более близкий аналитикам пример: [верховенство конституция закон народовластие политика плюрализм свобода равенство граждан неотчуждаемость прав].
Закон в России!
Законодательство в России. Обзоры и консультации. ruslife.ru - 12k - Сохранено в кэше - Похожие страницы
Глоссарий, ги: Демократия
верховенства конституции и законов; - народовластия и политического плюрализма; - свободы и равенства граждан;
- неотчуждаемости прав человека. glossary.ru/cgi-bin/ gl_sch2.cgi?RElsuqwgyo9 - 30k -Сохранено в кэше - Похожие страницы
В сентябре 2006 г. появились публикации, в которых было сказано, что Google позволяет вводить в строку запроса до 32 слов. Эта информация соответствует действительности. Но и 32 слова для поиска в системе
Google не предел. Существует особый прием, усечение слова до его корня, называемый стеммингом. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.
Иным полезным для аналитика механизмом является техника поиска по маске (wildcard), которая представляет собой написание базового слова (или части слова), после которого идет символ маски - «звездочка»
(*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются.
Эта техника необходима, когда неизвестно точное написание конкретного слова, либо когда целесообразно включить все возможные варианты слова в поиск. Например, по запросу [тарт*] получают как «тарталетку», так и
«тартар». Google эти технологии не поддерживает, однако он поддерживает вариант, когда вместо целого слова вводится звездочка.
Например, по запросу: [красная * площадь] будет выдано:
«Красная и
Манежная площади», с подчеркиванием всех этих слов, в том числе буквы «и». В какой-то степени это похоже на поиск с расстоянием между словами. По запросу: [красная * площадь -
"красная площадь"] будут получены результаты «Красная
(Семеновская) площадь», где слово «Семеновская» не считается релевантным и не подчеркивается Google.
В таб. 22 рассмотрим дополнительные операторы, которыми принято называть специализированные кон-
418 419

струкции, позволяющие получить дополнительную информацию о поиске.
Поисковая машина хранит версию текста, которая проиндексирована поисковым роботом, в специальном хранилище в формате, называемом кэшем. Кэширован- ную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится).
Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины, и сопровождается надписью наверху страницы, что это страница из кэша. Там же содержится информация о времени создания кэши- рованной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Если мы хотим, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe и адреса страницы.
Например: [cache:www.bstm.ru библиотека].
Таблица 22
Оператор cache
Позволяет извлечь версию страницы, если оригинальная страница недоступна
Оператор info
Позволяет увидеть информацию, которая известна об этой странице
Оператор site
Ограничивает поиск конкретным доменом
Оператор link
Позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос
Оператор allinurl
Поиск будет ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы
Оператор related
Описывает страницы, которые «похожи» на какую-то конкретную страницу
Оператор define Выполняет роль толкового словаря, позволяющего быстро получить определение того слова, которое введено после оператора
Оператор info позволяет увидеть информацию, которая известна Google об этой странице. Заметим, что пробела между оператором info: и именем запрашиваемой страницы быть не должно. Оператор
site ограничивает поиск конкретным доменом. Таким образом, если сделать запрос: [маркетинг разведка sitewww.acfor-tc.ru], то результаты будут получены со страниц, содержащих слова «маркетинг» и «разведка» именно в домене «acfor-tc.ru», а не в других частях
Интернета. Оператор link позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Если запрос начать с оператора allintitle,
что переводится как «Все в заголовке», то Google выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега Title в HTML).
Например, запрос [allintitle: википедия яндекс] даст результаты, где слова «википедия» и «яндекс» содержатся внутри тега Title на просмотренных поисковой машиной страницах. Оператор intitle
показывает страницы, в которых только то слово, которое стоит непосредственно после оператора intitle:, содержится в заголовке, а все остальные слова запроса могут быть в любом месте текста. Если поставить оператор intitle: перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle.
Оператор allinurl. Если запрос начинается с
оператора allinurl, то поиск будет ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы. Оператор allinurl работает только со словами, но не со служебными фрагментами адреса страницы. Такие специальные символы, как слэш или точка, не окажут влияния на результат. Оператор
inurl. Слово, которые расположено непосредственно слитно с оператором inurl, будет найдено только в адресе страницы Интернета, а остальные слова - в любом месте такой страницы. Если оператор inurl: поставить перед каждым словом запроса, это будет эквивалентно использованию оператора allinurl: Оператор inurl: работает только со словами, но не со служебными фрагментами адреса страницы. Такие
420 421