Файл: вопросы Гак 2013 (с ответами).doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 06.12.2020

Просмотров: 2251

Скачиваний: 18

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Инф-ия о статист-их законом-ях f-ионирования яз-ой системы лежит в основе некоторых методик анализа данных, разрабатываемых в полит-ой л-е. К ним относится, в част­ности, методика контент-анализа, используемая д/выявления структуры и состояния общественного сознания.

Авторизация/атрибуция текста. Проблема авторизации текста отно­сится к числу класс-их проблем филол-ого исслед-ия. Часто она рассм-ется в рамках «колич-ой стилистики» – стилеметрии. Авторизация включает как литер-ую, так и лингв-ую сост-ую. В.В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типол-ию факторов атрибуции. К субъект-ым факторам он относит:

а) субъективно-коммерческие;

б) субъективно-конъюнктурные;

в) субъективно-эстети­ческие;

г) субъективно-психологические;

д) субъективно-идеологические факторы.

Есть и объективные факторы:

а) документально-рукописные (археологические);

б) исторические (биографии, свидетельства совре­менников);

в) историко-идеологические и сопоставительно-идеологи­ческие;

г) историко-стилистические;

д) художественно-стилистические;

е) лингвостилистические.

Однако чисто филол-ое напр-ие авторизации не позволяет построить объективные операциональные кри­терии анализа и атрибуции текста. К сожалению, больш-во факторов, на которые обращает внимание В.В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.

Перспектива объективизации эксп-ого знания была обнаруже­на в исп-ии колич-ых, статист-их методов анализа текста. Пионером в этой области стал Н.А. Морозов, перу которого при­надлежит опубл-ая в 1915 г. работа «Лингв-ие спектры. Ср-во д/отличия плагиатов от истинных произв-ий того или другого известного автора. Стилеметр-ий этюд». Существенно, что в квантитат-ом анализе Морозов предлагал опираться не на тематичес­ки связанную лексику – слова, опред-ые спецификой опис-ого материала, его предм-ой и проблемной ориентацией, – а на служе-ые слова и слова тематически нейтр-ые. Дело в том, что именно особ-ти употр-ия служ-ых слов, лексем с общей семантикой, не привяз-ой к тематике худож-ого произв-ия, формируют авторский стиль и практически не поддаются имитации.

Комп-ое моделир-ие яз-а и речи. Другая важная область прикл-ого исп-ия знаний о частоте исп-ия тех или иных яз-ых структур – комп-ая л-а. Многие комп-ые программы, связанные с f-ионированием яз-а, используют алгоритмы, основывающиеся на данных о частоте употр-ия фонем, морфем, лекс-их ед-ц и синтакс-их констр-ий. , программы автом-ой коррекции орфографии содержат словари, как правило, только наиболее частотных лексем.

Дешифровка кодир-ого текста. В процессе дешифровки также могут исп-ся данные о частоте употр-ия графем, мор­фем и слов, а также их взаимном распол-ии. К наст-ему вре­мени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции эл-ов кодир-ого текста; ср. дешифровочные алгоритмы Б.В. Сухотина, статистико-комбинаторный метод Н.Д. Андреева. Близки к задачам дешифровки формальные процеду­ры «открытия» морфемного состава неопис-ого яз-а, предложенные 3. Харрисом.


Автомат-ий анализ текста. Все созданные челов-ом тексты построены по единым правилам. Какой бы язык ни использовался, кто бы ни писал – внутр-яя стр-ра текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что прир-ая лень челов-ая ведет к тому, что слова с большим кол-ом букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два унив-ых закона.

1ый закон Зипфа "ранг – частота". Выбирается любое слово и подсчит-тся ск-ко раз оно встреч-ся в тексте. Эта величина наз-ся частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь один-ую частоту, т.е. входить в текст равное кол-во раз. Сгруппируем их, взяв только одно знач-ие из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Поряд-ый номер частоты наз-ся ранг частоты. Так, наиболее часто встреч-иеся слова будут иметь ранг 1, следующие за ними – 2 и т.д. Вероятность встретить слово путем случ-ого выбора будет равна отнош-ию част-ы вхожд-ия этого слова к общему числу слов в тексте.

Вероятность = Частота вхождения слова /Число слов.

Зипф обнаружил интересную законом-ть. Если умножить вероятность обнаружения слова в тексте на ранг частоты, то получ-ся велич-а (С) ≈ постоянна!

С = (Частота вхождения слова * Ранг частоты) /Число слов.

Если немного преобраз-ть формулу, то можно увидеть, что это f-ия типа y=k/x и ее график – равност-яя гипербола. Следовательно, по 1ому закону Зипфа, если самое распр-ое слово встречается в тексте, , 100 раз, то след-ее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популяр-ти слова, с высокой долей вероятности, окажется на уровне 50.

Знач-ие конст-ы в разных яз-ах различно, но внутри одной яз-ой группы остается неизменно, какой бы текст ни взяли. Так, , д/англ-их текстов конст-а Зипфа равна ≈ 0,1. Рус. тексты с т.з. законов Зипфа не искл-ие. Д/рус. яз-а коэф-т Зипфа получился равным 0,06-0,07.

2ой закон Зипфа "количество – частота". Рассм-ая 1ый закон, факта, что разные слова входят в текст с один-ой част-ой не рассм-ался. Зипф установил, что част-а и кол-во слов, входящих в текст с этой част-ой, тоже связаны между собой.

Если построить график, отложив по одной оси (о.Х) част-у вхожд-ия слова, а по другой (о.Y) – кол-во слов в данной част-е, то получ-аяся кривая будет сохранять свои парам-ы д/всех без искл-ия созданных чел-ом текстов! Как и в пред-ем случае, это утвержд-ие верно в пределах 1ого яз-а. Однако и межъяз-ые разл-ия невелики. На каком бы яз-е текст ни был написан, форма кривой Зипфа останется неизм-ой. Могут немного отлич-ся лишь коэф-ы, отвеч-ие за наклон кривой (в логарифм-ом масштабе, за искл-ем неск-их нач-ых точек, график – прямая линия).

Законы Зипфа унив-ы. В принципе, они применимы не только к текстам. Характеристики попул-и узлов в сети Интернет – тоже отвечают законам Зипфа. Не исключено, что в законах отражается "чел-ое" происхождение объекта.


Что дают законы Зипфа? Как с их помощью извлечь слова, отраж-ие смысл текста? Если восп-ся 1ым з-ом Зипфа и построить график завис-ти ранга от частоты, то исслед-ия показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказ-ются предл., местоим., в англ. – артикл. и т.п. Редко встреч-иеся слова тоже, в больш-ве случаев, не имеют реш-его смысл-ого знач-ия.

От того, как будет выставлен диапазон знач-ых слов, зависит многое. Поставив широко – нужные термины потонут в море вспом-ых слов; установив узкий диапазон – потеряются смысл-ые термины. Каждая поисковая сис-а решает проблему по-своему, руков-ясь общим объемом текста, спец-ми словарями и т.п.

Если проан-ть выдел-ую область знач-ых слов, то можно отметить, что не все слова, которые попали в нее, отражают смысл текста. Эти слова являются "шумом", помехой, которая затрудняет прав-ый выбор. "Шум" можно уменьшить путем предвар-ого искл-ия из исслед-ого текста некот-ых слов. Д/этого создается словарь ненужных слов – стоп-слов (словарь наз-ся стоп-лист). , д/англ. текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и т.д.. Д/рус. текста в стоп-лист могли бы быть включены все предл., част., лич. местоим. и т.п.. Наверняка попали бы и слова из нашего "шума": на, не, для, это. Есть и другие спос-ы повысить точность оценки значимости терминов.

До сих пор рассм-лся отдельно взятый документ, не принимая во вним-ие, что он входит в базу данных наряду с множ-ом др. докум-ов. Если представить всю Б.Д. как единый документ, к ней м.б. применить те же законы, что и к единичному док-у. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг знач-ых слов, вводят инверсную частоту термина. Знач-ие этого параметра тем меньше, чем чаще слово встречается в док-ах Б.Д.. Вычисляют его по формуле:

Инверсная част-а терм-а i = log (кол-во док-ов в Б.Д./кол-во док-ов с терм-ом i) .

Теперь каждому термину можно присвоить весовой коэф-т, отраж-ий его знач-ть:

Вес термина i в док-те j = частота термина i в док-те j * инверсная частота термина i.

Совр-ые спос-ы индексир-ия не огранич-ются анализом перечисленных парам-ов текста. Поисковая машина может строить вес-ые коэф-ты с учетом местопол-ия термина внутри док-та, взаимного распол-ия терминов, ч.р., морф-их особ-ей и т.п.

В качестве терминов могут выступать не только отд-ые слова, но и словосоч-ия. Джорж Зипф опубл-л свои законы в 1949 г.. 5 лет спустя знам-ый мат-к Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие измен-ия в формулы Зипфа, добившись более точного соотв-ия теории практике. Без этих законов сегодня не обходится ни одна система автом-ого поиска инф-ии. Матем-ий анализ позволяет машине с хорошей точностью, без участия человека распознать суть текста.


  1. Речевое общение в системах «Человек-ПК».

В узком смысле проблематика ком­п-ой л-и часто связывается с моделир-ем общения, в частности, с обесп-ем общения чел-а с ЭВМ на ест-ом или огранич-ом ест-ом яз-е. Это относится к оптимизации яз-а как ср-ва общения. Впрочем, комп-ые моде­ли общения часто исп-ются д/изучения самого процесса общения. Остановимся подробнее на опыте создания и использования именно таких моделей.


Изучение уже накопившегося опыта эксплуатации комп-ых систем, требовавших обесп-ия взаимод-ия с ЭВМ на ест-ом яз-е, позволило исследователям по-новому взглянуть на f-ии и стр-ру ест-ой коммун-ии. В центр внимания попали во­просы, которые ранее были на периферии теории диалога, дискурс-ана­лиза и теории комм-ии. Что обеспечивает естественность общения? Каковы условия связности беседы? Когда общение оказывается успеш­ным? В каких случаях возникают коммуникативные неудачи и можно ли их избежать? Какие стратегии общения используют участники комм-ого взаимод-ия при достижении своих коммуникативных целей? Это далеко не исчерпывающий список теор-их проблем, обнаружившихся в связи с f-ионированием комп-ых моделей общения.

Одной из наиболее интересных комп-ых моделей диалога, вызвавшей оживленные теор-ие дискуссии, была программа Джо­зефа Вейценбаума «Элиза», первый вариант которой появился в 1966 г. Изначально «Элиза» создавалась как игрушка, как учебный образец программы-имитатора, целью которой является не моделирование мыш­ления в точном смысле, а моделирование реч-ого поведения. Программа поддерживала разговор с собес-ом в реальном масштабе времени, однако при ее разработке были исп-ны огранич-ые програм­мистские ресурсы, лингв-кий анализ и синтез также были сведены к min. Тем не менее, программа f-ионировала столь успешно, что фактически опровергла известный тест Тьюринга на создание искус­-ого интеллекта.

Программа «Элиза» была исп-на группой исслед-ей во главе с М. Макгайром д/изучения стр-ры диалога и особ-ей естественнояз-ой комм-ии. В проводившемся экспер-те с «Элизой» беседовали в течение часа 24 испытуемых. Общение происх-ло с помощью телетайпа. За время беседы каждый участник ввел от 10 до 65 реплик и получил на них ответы. По окон­чании 15 участников (62 %) были уверены, что им отвечал чел-к, 5 испытуемых (21 %) обнаружили опред-ые колебания и лишь 4 уч-ов (17%) были абсолютно уверены, что общались с ЭВМ. С лингв-ой т.з. алгоритмы программы «Элиза» включа­ют min лингв-ой инф-ии. Во-первых, это комплекс ключевых слов, которые актуализуют некоторые устойчивые коммуни­кат-ые формулы (шаблоны), во-вторых, способ-ть относительно несложно трансф-ть предш-ее высказ-ие. , программа в сост-ии переделать предш-ее утверждение в об­щий вопрос. В одном из вар-ов программы «Элиза» перевоплощается в доктора-психиатра.

По внешним хар-ам перед нами предстает совершенно нормальная беседа врача с пациентом. Между тем даже поверхностный анализ показывает, что программа «Доктор» не понимает собес-а в точном смысле: она не имеет своей модели мира, не строит в ней ото­бр-ие представлений/знаний собес-а, не модифицирует модель мира с каждым новым высказ-ем, не накапливает инф-ию, хотя у нее есть некоторые аналоги кратковрем-ой и долговр-ой памяти. , она способна выделить упоминание терма мать и в послед-ем вставить этот терм в шаблон «Вы говорили об X», кото­рый представляет собой косвенно-инициирующую реплику (косв-ый вопрос). По привед-ому фрагменту видно, что программа содержит также шаблоны «Как давно XI», «Расскажите больше об X», «Пожалуйста, не будьте столь кратки», побужд-ие адресата продолжить общение.


Интересно, что существенная темат-ая огранич-ть комм-ии и значит-ое кол-во ошибок и неточностей в ответе (порядка 19% неточных или выпадающих из контекста реплик «Элизы» в упоминавшемся эксперименте М. Макгайра), не помешали испытуе­мым признать партнера по комм-ии человеком. Дело здесь совсем не в патол-ой глупости испытуемых. Это проявл-ие важнейшей особ-ти комм-ии на ест-ом языке: естественнояз-ой дискурс очень терпим по отнош-ию к сбоям и ошибкам – он избыточен и помехоустойчив. Реплики «Элизы», выпадавшие из норм-ого обще­ния, испытуемые легко объясняли обычными сбоями в поним-ии своей предш-ей реплики, не вполне норм-ми усл-ями общения, шутливым настроением партнера. Устойчивость ест-ого дискурса объясняется также спос-ями чел-а к интерп-ии реч-ых действий: чел-к, приним-ий роль уч-ка диалога, ведет себя соотв-им образом. Имея установку на общение, он стремится включать в комм-ию все то, что по форме напоминает реч-ой акт, реплику. Иными словами, он склонен наделять смыслом то, что часто смысла не имеет. В этом случае испытуемые сами порождают смысл диалога, сами обесп-ют его связность, сами приписывают партнеру коммуникат-ые интенции.

Второй важный вывод экспер-та: испытуемые довольно быстро принимали решение о том, кто перед ними – комп-р или чел-к. 22 участника из 24 уяснили для себя ситуацию не более чем за пять обменов репликами, и далее не меняли своего решения. Опред-ие ролей в комм-ии относится к метауровню общения, поскольку это сост-ет одну из предпосылок успешной комм-ии, предохр-ей общение от многочисл-ых коммуникат-ых неудач.

Опред-ие ролей уч-ов во многом опред-ет выбор стратегии коммуникат-ого повед-ия. Действительно, лучше сразу определить, с кем мы разговариваем по телефону – с давним другом или чиновником налоговой инспекции. Выяснение того, кем является собеседник – машиной или чел-ом, также относится к метауровню общения, и испытуемые старались установить ролевые харак-и партнера как можно раньше.

Это свойство естественнояз-ой комм-ии можно назвать принципом приоритета метакоммуникат-ых параметров ситуации об­щения.

Третье важное следствие из экспер-та М. Макгайра связано с су­ществованием разл-ых типов коммуникат-ого взаимод-ия м/людьми. Успешное взаимод-ие м/человеком и програм­мой типа «Элиза» возможно только в ситуации, когда происходит т.н. «ассоциативное общение», при котором реплики диа­лога связаны не столько логич-ми отнош-ми типа «причина-следствие», «посылка-заключение», а ассоц-ми. Ассоциат-ое об­щение не имеет конкр-ой направл-ти; само поддержание беседы может служить ее оправданием. Собеседники не преследуют цели решить какую-то проблему или выраб-ть единую т.з. на к-то вопрос. В классиф-ии Р. Якобсона д/комм-ии такого типа предложен термин «фатическое общение». Заметим, что беседа врача-психиатра с пациентом по форме также имеет вид фатич-ого общения, хотя и преследует вполне опред-ые цели сбора данных о заболевании пациента и послед-ем верб-ом и невер­б-ом возд-ии на его психику д/достиж-ия леч-ого эффекта. «Элиза» не смогла бы успешно имитировать общение в коммуникат-ой ситуации, названной М. Макгайром «решение задач», поскольку она не способна понять проблемную ситуацию, т.е. построить модель мира дискурса, определить альтернативы выхода из проблемы, выбрать одну из альтернатив и т. д. Одна из типичных стратегий «ухода от не­понимания», реализованная в программе «Элиза» – смена темы беседы. Очевидно, что такая стратегия ведения беседы вряд ли приведет к успеху при совместном поиске решения проблемы.