ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 06.12.2020
Просмотров: 2344
Скачиваний: 19
Инф-ия о статист-их законом-ях f-ионирования яз-ой системы лежит в основе некоторых методик анализа данных, разрабатываемых в полит-ой л-е. К ним относится, в частности, методика контент-анализа, используемая д/выявления структуры и состояния общественного сознания.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу класс-их проблем филол-ого исслед-ия. Часто она рассм-ется в рамках «колич-ой стилистики» – стилеметрии. Авторизация включает как литер-ую, так и лингв-ую сост-ую. В.В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типол-ию факторов атрибуции. К субъект-ым факторам он относит:
а) субъективно-коммерческие;
б) субъективно-конъюнктурные;
в) субъективно-эстетические;
г) субъективно-психологические;
д) субъективно-идеологические факторы.
Есть и объективные факторы:
а) документально-рукописные (археологические);
б) исторические (биографии, свидетельства современников);
в) историко-идеологические и сопоставительно-идеологические;
г) историко-стилистические;
д) художественно-стилистические;
е) лингвостилистические.
Однако чисто филол-ое напр-ие авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, больш-во факторов, на которые обращает внимание В.В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации эксп-ого знания была обнаружена в исп-ии колич-ых, статист-их методов анализа текста. Пионером в этой области стал Н.А. Морозов, перу которого принадлежит опубл-ая в 1915 г. работа «Лингв-ие спектры. Ср-во д/отличия плагиатов от истинных произв-ий того или другого известного автора. Стилеметр-ий этюд». Существенно, что в квантитат-ом анализе Морозов предлагал опираться не на тематически связанную лексику – слова, опред-ые спецификой опис-ого материала, его предм-ой и проблемной ориентацией, – а на служе-ые слова и слова тематически нейтр-ые. Дело в том, что именно особ-ти употр-ия служ-ых слов, лексем с общей семантикой, не привяз-ой к тематике худож-ого произв-ия, формируют авторский стиль и практически не поддаются имитации.
Комп-ое моделир-ие яз-а и речи. Другая важная область прикл-ого исп-ия знаний о частоте исп-ия тех или иных яз-ых структур – комп-ая л-а. Многие комп-ые программы, связанные с f-ионированием яз-а, используют алгоритмы, основывающиеся на данных о частоте употр-ия фонем, морфем, лекс-их ед-ц и синтакс-их констр-ий. , программы автом-ой коррекции орфографии содержат словари, как правило, только наиболее частотных лексем.
Дешифровка кодир-ого текста. В процессе дешифровки также могут исп-ся данные о частоте употр-ия графем, морфем и слов, а также их взаимном распол-ии. К наст-ему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции эл-ов кодир-ого текста; ср. дешифровочные алгоритмы Б.В. Сухотина, статистико-комбинаторный метод Н.Д. Андреева. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неопис-ого яз-а, предложенные 3. Харрисом.
Автомат-ий анализ текста. Все созданные челов-ом тексты построены по единым правилам. Какой бы язык ни использовался, кто бы ни писал – внутр-яя стр-ра текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что прир-ая лень челов-ая ведет к тому, что слова с большим кол-ом букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два унив-ых закона.
1ый закон Зипфа "ранг – частота". Выбирается любое слово и подсчит-тся ск-ко раз оно встреч-ся в тексте. Эта величина наз-ся частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь один-ую частоту, т.е. входить в текст равное кол-во раз. Сгруппируем их, взяв только одно знач-ие из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Поряд-ый номер частоты наз-ся ранг частоты. Так, наиболее часто встреч-иеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Вероятность встретить слово путем случ-ого выбора будет равна отнош-ию част-ы вхожд-ия этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова /Число слов.
Зипф обнаружил интересную законом-ть. Если умножить вероятность обнаружения слова в тексте на ранг частоты, то получ-ся велич-а (С) ≈ постоянна!
С = (Частота вхождения слова * Ранг частоты) /Число слов.
Если немного преобраз-ть формулу, то можно увидеть, что это f-ия типа y=k/x и ее график – равност-яя гипербола. Следовательно, по 1ому закону Зипфа, если самое распр-ое слово встречается в тексте, , 100 раз, то след-ее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популяр-ти слова, с высокой долей вероятности, окажется на уровне 50.
Знач-ие конст-ы в разных яз-ах различно, но внутри одной яз-ой группы остается неизменно, какой бы текст ни взяли. Так, , д/англ-их текстов конст-а Зипфа равна ≈ 0,1. Рус. тексты с т.з. законов Зипфа не искл-ие. Д/рус. яз-а коэф-т Зипфа получился равным 0,06-0,07.
2ой закон Зипфа "количество – частота". Рассм-ая 1ый закон, факта, что разные слова входят в текст с один-ой част-ой не рассм-ался. Зипф установил, что част-а и кол-во слов, входящих в текст с этой част-ой, тоже связаны между собой.
Если построить график, отложив по одной оси (о.Х) част-у вхожд-ия слова, а по другой (о.Y) – кол-во слов в данной част-е, то получ-аяся кривая будет сохранять свои парам-ы д/всех без искл-ия созданных чел-ом текстов! Как и в пред-ем случае, это утвержд-ие верно в пределах 1ого яз-а. Однако и межъяз-ые разл-ия невелики. На каком бы яз-е текст ни был написан, форма кривой Зипфа останется неизм-ой. Могут немного отлич-ся лишь коэф-ы, отвеч-ие за наклон кривой (в логарифм-ом масштабе, за искл-ем неск-их нач-ых точек, график – прямая линия).
Законы Зипфа унив-ы. В принципе, они применимы не только к текстам. Характеристики попул-и узлов в сети Интернет – тоже отвечают законам Зипфа. Не исключено, что в законах отражается "чел-ое" происхождение объекта.
Что дают законы Зипфа? Как с их помощью извлечь слова, отраж-ие смысл текста? Если восп-ся 1ым з-ом Зипфа и построить график завис-ти ранга от частоты, то исслед-ия показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказ-ются предл., местоим., в англ. – артикл. и т.п. Редко встреч-иеся слова тоже, в больш-ве случаев, не имеют реш-его смысл-ого знач-ия.
От того, как будет выставлен диапазон знач-ых слов, зависит многое. Поставив широко – нужные термины потонут в море вспом-ых слов; установив узкий диапазон – потеряются смысл-ые термины. Каждая поисковая сис-а решает проблему по-своему, руков-ясь общим объемом текста, спец-ми словарями и т.п.
Если проан-ть выдел-ую область знач-ых слов, то можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая затрудняет прав-ый выбор. "Шум" можно уменьшить путем предвар-ого искл-ия из исслед-ого текста некот-ых слов. Д/этого создается словарь ненужных слов – стоп-слов (словарь наз-ся стоп-лист). , д/англ. текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и т.д.. Д/рус. текста в стоп-лист могли бы быть включены все предл., част., лич. местоим. и т.п.. Наверняка попали бы и слова из нашего "шума": на, не, для, это. Есть и другие спос-ы повысить точность оценки значимости терминов.
До сих пор рассм-лся отдельно взятый документ, не принимая во вним-ие, что он входит в базу данных наряду с множ-ом др. докум-ов. Если представить всю Б.Д. как единый документ, к ней м.б. применить те же законы, что и к единичному док-у. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг знач-ых слов, вводят инверсную частоту термина. Знач-ие этого параметра тем меньше, чем чаще слово встречается в док-ах Б.Д.. Вычисляют его по формуле:
Инверсная част-а терм-а i = log (кол-во док-ов в Б.Д./кол-во док-ов с терм-ом i) .
Теперь каждому термину можно присвоить весовой коэф-т, отраж-ий его знач-ть:
Вес термина i в док-те j = частота термина i в док-те j * инверсная частота термина i.
Совр-ые спос-ы индексир-ия не огранич-ются анализом перечисленных парам-ов текста. Поисковая машина может строить вес-ые коэф-ты с учетом местопол-ия термина внутри док-та, взаимного распол-ия терминов, ч.р., морф-их особ-ей и т.п.
В качестве терминов могут выступать не только отд-ые слова, но и словосоч-ия. Джорж Зипф опубл-л свои законы в 1949 г.. 5 лет спустя знам-ый мат-к Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие измен-ия в формулы Зипфа, добившись более точного соотв-ия теории практике. Без этих законов сегодня не обходится ни одна система автом-ого поиска инф-ии. Матем-ий анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста.
-
Речевое общение в системах «Человек-ПК».
В узком смысле проблематика комп-ой л-и часто связывается с моделир-ем общения, в частности, с обесп-ем общения чел-а с ЭВМ на ест-ом или огранич-ом ест-ом яз-е. Это относится к оптимизации яз-а как ср-ва общения. Впрочем, комп-ые модели общения часто исп-ются д/изучения самого процесса общения. Остановимся подробнее на опыте создания и использования именно таких моделей.
Изучение уже накопившегося опыта эксплуатации комп-ых систем, требовавших обесп-ия взаимод-ия с ЭВМ на ест-ом яз-е, позволило исследователям по-новому взглянуть на f-ии и стр-ру ест-ой коммун-ии. В центр внимания попали вопросы, которые ранее были на периферии теории диалога, дискурс-анализа и теории комм-ии. Что обеспечивает естественность общения? Каковы условия связности беседы? Когда общение оказывается успешным? В каких случаях возникают коммуникативные неудачи и можно ли их избежать? Какие стратегии общения используют участники комм-ого взаимод-ия при достижении своих коммуникативных целей? Это далеко не исчерпывающий список теор-их проблем, обнаружившихся в связи с f-ионированием комп-ых моделей общения.
Одной из наиболее интересных комп-ых моделей диалога, вызвавшей оживленные теор-ие дискуссии, была программа Джозефа Вейценбаума «Элиза», первый вариант которой появился в 1966 г. Изначально «Элиза» создавалась как игрушка, как учебный образец программы-имитатора, целью которой является не моделирование мышления в точном смысле, а моделирование реч-ого поведения. Программа поддерживала разговор с собес-ом в реальном масштабе времени, однако при ее разработке были исп-ны огранич-ые программистские ресурсы, лингв-кий анализ и синтез также были сведены к min. Тем не менее, программа f-ионировала столь успешно, что фактически опровергла известный тест Тьюринга на создание искус-ого интеллекта.
Программа «Элиза» была исп-на группой исслед-ей во главе с М. Макгайром д/изучения стр-ры диалога и особ-ей естественнояз-ой комм-ии. В проводившемся экспер-те с «Элизой» беседовали в течение часа 24 испытуемых. Общение происх-ло с помощью телетайпа. За время беседы каждый участник ввел от 10 до 65 реплик и получил на них ответы. По окончании 15 участников (62 %) были уверены, что им отвечал чел-к, 5 испытуемых (21 %) обнаружили опред-ые колебания и лишь 4 уч-ов (17%) были абсолютно уверены, что общались с ЭВМ. С лингв-ой т.з. алгоритмы программы «Элиза» включают min лингв-ой инф-ии. Во-первых, это комплекс ключевых слов, которые актуализуют некоторые устойчивые коммуникат-ые формулы (шаблоны), во-вторых, способ-ть относительно несложно трансф-ть предш-ее высказ-ие. , программа в сост-ии переделать предш-ее утверждение в общий вопрос. В одном из вар-ов программы «Элиза» перевоплощается в доктора-психиатра.
По внешним хар-ам перед нами предстает совершенно нормальная беседа врача с пациентом. Между тем даже поверхностный анализ показывает, что программа «Доктор» не понимает собес-а в точном смысле: она не имеет своей модели мира, не строит в ней отобр-ие представлений/знаний собес-а, не модифицирует модель мира с каждым новым высказ-ем, не накапливает инф-ию, хотя у нее есть некоторые аналоги кратковрем-ой и долговр-ой памяти. , она способна выделить упоминание терма мать и в послед-ем вставить этот терм в шаблон «Вы говорили об X», который представляет собой косвенно-инициирующую реплику (косв-ый вопрос). По привед-ому фрагменту видно, что программа содержит также шаблоны «Как давно XI», «Расскажите больше об X», «Пожалуйста, не будьте столь кратки», побужд-ие адресата продолжить общение.
Интересно, что существенная темат-ая огранич-ть комм-ии и значит-ое кол-во ошибок и неточностей в ответе (порядка 19% неточных или выпадающих из контекста реплик «Элизы» в упоминавшемся эксперименте М. Макгайра), не помешали испытуемым признать партнера по комм-ии человеком. Дело здесь совсем не в патол-ой глупости испытуемых. Это проявл-ие важнейшей особ-ти комм-ии на ест-ом языке: естественнояз-ой дискурс очень терпим по отнош-ию к сбоям и ошибкам – он избыточен и помехоустойчив. Реплики «Элизы», выпадавшие из норм-ого общения, испытуемые легко объясняли обычными сбоями в поним-ии своей предш-ей реплики, не вполне норм-ми усл-ями общения, шутливым настроением партнера. Устойчивость ест-ого дискурса объясняется также спос-ями чел-а к интерп-ии реч-ых действий: чел-к, приним-ий роль уч-ка диалога, ведет себя соотв-им образом. Имея установку на общение, он стремится включать в комм-ию все то, что по форме напоминает реч-ой акт, реплику. Иными словами, он склонен наделять смыслом то, что часто смысла не имеет. В этом случае испытуемые сами порождают смысл диалога, сами обесп-ют его связность, сами приписывают партнеру коммуникат-ые интенции.
Второй важный вывод экспер-та: испытуемые довольно быстро принимали решение о том, кто перед ними – комп-р или чел-к. 22 участника из 24 уяснили для себя ситуацию не более чем за пять обменов репликами, и далее не меняли своего решения. Опред-ие ролей в комм-ии относится к метауровню общения, поскольку это сост-ет одну из предпосылок успешной комм-ии, предохр-ей общение от многочисл-ых коммуникат-ых неудач.
Опред-ие ролей уч-ов во многом опред-ет выбор стратегии коммуникат-ого повед-ия. Действительно, лучше сразу определить, с кем мы разговариваем по телефону – с давним другом или чиновником налоговой инспекции. Выяснение того, кем является собеседник – машиной или чел-ом, также относится к метауровню общения, и испытуемые старались установить ролевые харак-и партнера как можно раньше.
Это свойство естественнояз-ой комм-ии можно назвать принципом приоритета метакоммуникат-ых параметров ситуации общения.
Третье важное следствие из экспер-та М. Макгайра связано с существованием разл-ых типов коммуникат-ого взаимод-ия м/людьми. Успешное взаимод-ие м/человеком и программой типа «Элиза» возможно только в ситуации, когда происходит т.н. «ассоциативное общение», при котором реплики диалога связаны не столько логич-ми отнош-ми типа «причина-следствие», «посылка-заключение», а ассоц-ми. Ассоциат-ое общение не имеет конкр-ой направл-ти; само поддержание беседы может служить ее оправданием. Собеседники не преследуют цели решить какую-то проблему или выраб-ть единую т.з. на к-то вопрос. В классиф-ии Р. Якобсона д/комм-ии такого типа предложен термин «фатическое общение». Заметим, что беседа врача-психиатра с пациентом по форме также имеет вид фатич-ого общения, хотя и преследует вполне опред-ые цели сбора данных о заболевании пациента и послед-ем верб-ом и неверб-ом возд-ии на его психику д/достиж-ия леч-ого эффекта. «Элиза» не смогла бы успешно имитировать общение в коммуникат-ой ситуации, названной М. Макгайром «решение задач», поскольку она не способна понять проблемную ситуацию, т.е. построить модель мира дискурса, определить альтернативы выхода из проблемы, выбрать одну из альтернатив и т. д. Одна из типичных стратегий «ухода от непонимания», реализованная в программе «Элиза» – смена темы беседы. Очевидно, что такая стратегия ведения беседы вряд ли приведет к успеху при совместном поиске решения проблемы.