Файл: Лабораторная работа 1 Информационные системы и сервисы для проверки текстового контента на уникальность.docx
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 12.12.2023
Просмотров: 387
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
ЛАБОРАТОРНАЯ РАБОТА №1
Информационные системы и сервисы для проверки
текстового контента на уникальность
Цель практической работы:
-
приобретение студентом умений и навыков создания информационных ресурсов с уникальным текстовым контентом. -
овладение технологией проверки текстового контента на уникальность с использованием информационных систем и сервисов.
-
Краткие теоретические сведения
Современное развитие информационных технологий и глобальной Сети Интернет предоставило широким кругам пользователей доступ к огромным массивам информации. Появилось большое число онлайн-библиотек, содержащих художественную и научно-техническую литературу, коллекций рефератов, готовых лабораторных работ, курсовых и дипломных проектов и даже диссертаций; стало доступно множество методических указаний, курсов лекций, учебников и т. д.
Использование компьютерной техники во многом облегчило задачу поиска и копирования подобной информации. Если раньше для написания реферата или контрольной работы студенту информацию было нужно, по крайней мере, найти в книгах и переписать, то теперь достаточно ввести название темы в поисковую систему и скопировать найденные материалы.
Однако, получаемые таким образом работы не являются новыми, оригинальными, из-за неконтролируемого заимствования в ряде случаев происходит нарушение авторского права, охраняемого законом.
В современном информационном обществе защите авторских прав создателей информационных ресурсов уделяется большое внимание.
А́вторское пра́во — в объективном смысле — институт гражданского права, регулирующий правоотношения, связанные с созданием и использованием (изданием, исполнением, показом и т. д.) произведений науки, литературы или искусства, то есть объективных результатов творческой деятельности людей в этих областях.
Программы для ЭВМ и базы данных также охраняются авторским правом. Они приравнены к литературным произведениям и сборникам научных трудов, соответственно.
Учебный процесс в современном вузе предполагает создание студентами различных информационных ресурсов: рефератов, эссе, курсовых работ, отчетов, статей, докладов, выпускных квалификационных работ и др., в соответствии с соблюдением требований по защите авторских прав. Как правило, уникальность создаваемого студентом
учебного контента должна составлять не менее 60%.
Контент - это информационное наполнение любого информационного ресурса. Дизайн и верстка являются способом оформления контента и его коммерчески грамотного представления пользователю.
Весь контент в широком смысле можно разделить на текстовый и нетекстовый.
Нетекстовый контент включает в себя любые фото и графические изображения, так или иначе иллюстрирующие текстовую информацию (фотогалерея, видео, картинки, анимация).
Текстовый контент можно также поделить на более узкие группы в соответствии с его функциями. Актуальными примерами контента для студента вуза являются: статья, эссе, реферат, курсовая работа, выпускная квалификационная работа.
В современном обществе важным свойством контента является его уникальность.
Уникальный, -ая, -ое; -лен, -льна - единственный в своём роде, неповторимый. Уникальный экспонат. Уникальный эксперимент. Уникальная профессия. Уникальный уголок природы. || сущу никальность, -и, ас. (Словарь русского языка)
Уникальность контента, будь то статья, реферат, фотография или рисунок определяется по наличию полного или частичного совпадения содержания всего произведения или отдельных его элементов с аналогичными произведениями.
Уникальность измеряется в процентах совпадения содержания документа (произведения) с уже имеющимися аналогичными документами.
При полном совпадении, когда, например, отчет или реферат полностью скопирован с другого, показатель уникальности будет равен нулю, если же произведено копирование части реферата, то показатель уникальности определяет, сколько процентов совпадений имеется в проверяемой на уникальность работе.
Для определения процента уникальности контента информационного ресурса, а полностью оригинальный документ/произведение имеет стопроцентную уникальность, используется соответствующее программное обеспечение – прикладные программы и сервисы для проверки уникальности контента.
Чаще всего используется следующий алгоритм: проверяемый документ разбивается на блоки, отдельные фрагменты определенной длины, и производится поиск этих фрагментов или блоков в базах данных, в том числе в Сети Интернет.
Кроме длины сравниваемого с другими статьями фрагмента проверяемого на уникальность текста, используются и эмпирические правила, выведенные лингвистом Джорджем Кингсли Зипфом.
Эти правила или законы Зипфа гласят, что вероятность употребления автором какого-либо слова, умноженная на частоту его использования является постоянной величиной, константой.
Вторым правилом, или законом является то, что частотная характеристика словоупотребления по отношению к количеству входящих в текст с данной частотой слов тоже является константой.
При проверке текста на уникальность правила Зипфа позволяют увеличивать скорость и эффективность машинного анализа текстового содержания за счет отсеивания слов с высокой частотой употребления, например, предлогов, частиц, союзов, междометий. Из оставшихся слов формируется таблица слов, несущих основную смысловую нагрузку и определяющих содержание текста.
Такие слова называют ключевыми словами, ключами или анкерами, от английского слова "якорь". Слова с низкой частотой употребления считаются случайными, и их влияние на уникальность текстовой информации невелико, их относят к третьей группе слов в проверяемом тексте. Составление частотной таблицы слов для текста называется канонизацией, то есть, получением основания для проверки.
Деление текста на фрагменты или последовательные цепочки слов (шинглы) позволяет проверить текст на уникальность даже в том случае, когда последовательность абзацев исходного текста, слов в предложениях сознательно изменена.
Программа текстового анализа вычисляет контрольные суммы для цепочек слов определенной длины, то есть рассчитывает элементы совпадений.
Чем длиннее проверяемая последовательная цепочка слов - шингл, тем быстрее происходит поиск совпадений, но качество проверки получается низким. При коротких шинглах качество анализа выше, но анализ уникальности может занять очень много времени.
Однако, алгоритм разбиения текста на фрагменты не учитывает факт наличия цитат, устоявшихся словосочетаний, наличия пословиц, поговорок или других часто употребляемых выражений.
Отсутствие именно смыслового анализа текста можно отнести к главным недостаткам всех систем машинного анализа текстовой уникальности. Поэтому важную роль в этом процессе играют люди, которые должны понимать технологию и грамотно использовать результаты машинного анализа текстовой уникальности.
Информационные системы и сервисы онлайн проверки контента на уникальность
-
Антиплагиат – система онлайн проверки текса на заимствования: https://www.antiplagiat.ru
Сегодня Антиплагиат — это один из лидеров рынка России и стран СНГ по поиску заимствований в текстовых документах, который помогает пользователям находить заимствования в курсовых работах, дипломах, диссертациях, научных статьях и отчетах, что способствует соблюдению и сохранению ценности авторского права в нашей стране.
Система онлайн проверки текса на заимствования Антиплагиат - это самая полная русскоязычная коллекция источников в России и странах СНГ (более 300 млн. источников).
По статистике 85% студентов в вузах России и СНГ используют Антиплагиат. Более
Важно отметить, что благодаря системе «Антиплагиат», пользователь получает возможность не только оценить качество своего текста, но и понять, какие именно фрагменты в документе были оформлены корректно, а какие – нет и нуждаются в доработке.
Обширный список подключаемых модулей предоставляет возможность формировать собственную систему по поиску заимствований. При работе в системе Антиплагиат у пользователя есть возможность подключать различные коллекции документов (РГБ, eLIBRARY, Гарант, LEXPRO), искать перефразированные и переводные заимствования и даже распознавать текст на графических изображениях.
Система Антиплагиат проверяет тексты документов по миллионам открытых источников в Интернете, а также по специальным коллекциям научных документов и архивам литературы
Алгоритм проверки текста в системе «Антиплагиат»:
-
Загрузка текстового документа в систему (пользователь загружает документ в систему).
-
Поиск: система ищет текст документа в базах источников с помощью уникальных алгоритмов поиска.
-
Анализ результатов поиска: система анализирует совпадения и определяет фрагменты заимствования или цитирования.
-
Результат: пользователь получает отчёт о результатах проверки документа на заимствования.
Для того, чтобы начать работу по проверке текстового документа в системе Антиплагиат,
как частному клиенту, необходимо:
-
Зарегистрироваться в системе (простая регистрация через указание своего адреса электронной почты). Форма регистрации приведена на рисунке 1. После регистрации в системе пользователь получает возможность бесплатной проверки текстов на заимствования.
Рисунок 1. Форма регистрации в системе Антиплагиат для частных лиц.
-
Система «Антиплагиат онлайн»: www.text.ru
Система «Антиплагиат онлайн» на TEXT.RU позволяет проверить текстовый контент совершенно бесплатно. При этом эффективные алгоритмы «Антиплагиата онлайн» делают проверку глубокой и качественной.
Процедура проверки на плагиат проста: всего несколько кликов — и вы узнаете процент уникальности текста. Если в сети есть дубликаты текстов, они обязательно найдутся.
Вы также можете проверить текст на ошибки с помощью сервиса проверки орфографии.
Зарегистрировавшись на сайте TEXT.RU, вы полностью снимете ограничения на проверку и получите возможность проверить неограниченное количество текстов с помощью информационной системы проверки на плагиат онлайн.
Новый алгоритм проверки на плагиат
На сервисе TEXT.RU работает алгоритм проверки текстов на уникальность, выполняющий анализ текстов по усовершенствованной методике. Чтобы ваша работа с сервисом проверки была прозрачной и комфортной, ниже приведены некоторые рекомендации по взаимодействию с актуальным алгоритмом работы системы.
Данный алгоритм проверки текста на «Антиплагиат онлайн» принципиально отличается от проверки методом шинглов. Какие последствия это имеет для работы с текстами?
-
Осталась в прошлом техника некачественного рерайта с изменением каждого пятого или четвертого слова. В текстах, написанных подобным образом, будет обнаружен высокий процент совпадений с исходником. -
Также новый алгоритм позволяет обнаруживает плагиат и после перестановки слов, фраз и предложений местами. -
При работе с антиплагиатом уникальность не повысится от изменения падежей, времен и других грамматических категорий слова. -
«Доливая» в исходное предложение новые слова, рерайтер так же не избавится от плагиата.
Какие тексты «любит» «Антиплагиат онлайн»?
Чтобы достичь 100% уникальности при рерайтинге, необходимо выполнить