Файл: Средства разработки клиентских программ (Обоснование выбора языка программирования и инструментальных средств для создания макетов и рабочей версии программного продукта).pdf

Кроме того, чтобы иметь более подробное представление о структуре универсального веб-краулера, с помощью языка моделирования UML составлена диаграмма классов. Она демонстрирует классы, взаимодействующие в системе, их методы, атрибуты и взаимоотношения между ними. Для лучшего визуального представления разрабатываемой системы на рис. 13 изображена диаграмма классов.

Рисунок 13 – Диаграмма классов системы.

2.4 Руководство пользователя для работы с системой

6.1 Шаг 1 “Заполнение конфигурационного файла”

В конфигурационном файле находятся девять полей, шесть из которых обязательные. Шаг “Заполнение конфигурационного файла” состоит из следующих этапов:

Выбираем желаемый ресурс (Рисунок 14).
Находим веб-страницу с блоком интересующих нас статей.
Копируем url-адрес этой страницы и вносим в конфигурационный файл в тегах <mainurl></mainurl>.
Если переключатель страниц есть у блока со статьями, тогда конфигурационном файле в тегах <page></page> указываем 1, в противном случае 0.
Переходим на любую статью в выбранном блоке и вносим его url-адрес в конфигурационный файл <arturl></arturl>.
На странице статьи находим авторов, заголовок и текст статьи и вносим первую часть каждого элемента в соответствующие теги <authors></authors>, <title></title> и <content></content>.

Эти обязательные теги нужны для определения структуры веб-страниц и генерации xpath-запросов.

Оставшиеся три тега являются дополнительными, предназначенные либо для фильтрации скачиваемого контента: <searchudc></searchudc>, <searchauthor></searchauthor>; либо для определения директории сохранения выходных документов: <dir></dir>, по умолчанию project (Рисунок 15).

Рисунок 14 - Шаг 1 “Заполнение конфигурационного файла”, выбор желаемого ресурса.

Рисунок 15 - Шаг 1 “Заполнение конфигурационного файла”, ввод конфигурационных данных.

6.2 Шаг 2 “Запуск системы с использование конфигурационного файла“.

Конфигурационный файл должен находится в одной директории с исполняемым файлом универсального веб-краулера.

Запуск системы происходит через терминал. Переходим с помощью терминала в директорию, в котором у нас находится конфигурационный и исполняемый файл. Далее запускаем исполняемый файл, вводим имя конфигурационного файла. Система проверяет конфигурацию на ошибки, в случае если все корректно программа запускается и вы в режиме реального времени можете наблюдать за ее действиями: какие запросы выполняются, что скачивается, скорость скачивания и другое (Рисунок 16).

Рисунок 16 – Шаг 2 “ Запуск системы с использование конфигурационного файла”.

6.3 Шаг 3 “Контроль качества выходных файлов“.

После завершения работы системы выходные файлы будут находится в корневой директории проекта в папке с названием либо которое вы ввели, либо по умолчанию project (Рисунок 17).

Рисунок 17 – Выходные данные веб-краулера.

ЗАКЛЮЧЕНИЕ

В рамках данной работы был проведен анализ существующих решений для автоматизации процесса скачивания полных данных научно-технических статей и публикаций.

Был сформирован список требований и задач для решения поставленного задания. Проведен анализ структур веб-сайтов крупных электронных издательств научно-технических журналов и статей. Были выбраны библиотеки и язык программирования для разработанной системы. Созданы персональные веб-краулеры для каждого из них. Выявлены общие особенности полученных программ. Основываясь на них, была разработан программный продукт, обеспечивающий требуемые функциональные возможности по скачиванию научно-технических документов с сайтов издательств.

СПИСОК ЛИТЕРАТУРЫ

Техническое задание на создание технологии автоматизированного скачивания. / Всероссийский институт научной и технической информации РАН.
UpToDown: DownloadDiscoverShare // URL: https://teleport-pro.ru.uptodown.com/windows (дата обращения 05.06.2018).
Top 50 open source web crawlers for data mining . // URL: http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-datamining/ (дата обращения: 06.04.2018).
Scrapy. An open source and collaborative framework for extracting the data you need from websites. // URL: https://scrapy.org/ (дата обращения 06.04.2018).
OpenSearchServer. The open-source enterprise class search engine software. // URL: http://www.opensearchserver.com/ (дата обращения 06.04.2018).
Crawlerj / Github – development open-source platform. // URL: https://github.com/yasserg/crawler4j (дата обращения 06.06.2018).
A.S. da Silva, E.A. Veloso, P.B. Golgher, B. Ribeiro-Neto, A.H.F. Laender and N. Ziviani, “CoBWeb for the Brazilian Web” / A.S. da Silva, E.A. Veloso, P.B. Golgher, B. Ribeiro-Neto, A.H.F. Laender and N. Ziviani // Federal University of Minas Gerais, Brazil, 1999.
Rashmi K.B., Vijaya Kumar T. and H.S. Guruprasad “Deep Web Crawler: Exploring and Re-ranking of Web Forms” / Rashmi K.B., Vijaya Kumar T. and H.S. Guruprasad // Internation Journal of Computer Applications, September 2016.
Scrapy. / Wikipedia – the free encyclopedia // URL: https://en.wikipedia.org/wiki/Scrapy (дата обращения 06.06.2018).
Технологическая база данных. Нормативное обеспечение. ISO-2709 Коммуникативный формат. / Всероссийский институт научной и технической информации РАН, 01.06.2018.
Количество дней (календарных/рабочих/выходных и праздничных) и нормы рабочего времени в 2018 году / КонсультантПлюс – надежная правовая поддержка. // URL: http://www.consultant.ru/document/cons_doc_LAW_218307/085080d76b08c01c7ef9c4476c96d58b1db516ea/ (дата обращения 15.06.2018).

Смотрите также файлы

Процессы управления проектами (Общая характеристика проектов и сущность управления проектами).pdf

Управление миграционными процессами.pdf

«Федеральный фонд обязательного медицинского страхования, особенности его формирования».pdf

Организационная культура и ее роль в предприятиях.pdf

Общие принципы и правила формирования отчетности (Сущность, значение, состав бухгалтерской (финансовой) отчетности).pdf

2.4 Руководство пользователя для работы с системой

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Смотрите также файлы

Информация

Списки файлов

Дополнительно