ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 29.11.2023
Просмотров: 117
Скачиваний: 2
ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
Системный анализ и принятие решений Макаров Л.М.
82 4. позиционный вектор заменяется на средний вектор ближайших векторов выборки;
5. пункты 3-4 повторяются до тех пор, пока среднеквадратичная ошибка сети не переста- нет изменятся.
Метод k средних – один из широко используемых методов формирования кластерного про- странства. Алгоритм формирования кластерного пространства разбивает множество элементов векторного пространства на заранее известное число кластеров k. Действие алгоритма таково, что он стремится минимизировать дисперсию на точках каждого кластера: где k - число кластеров, S
i
- полученные кластеры, и μ
i
- центры масс векторов
Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кла- стеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной мет- рике. Алгоритм завершается, когда на какой-то итерации не происходит изменения кластеров.
В любом случае, в результате обучения получается разбивка онтологического простран- ства на «регионы», позиционные вектора которых являются наилучшими в среднеквадратич- ном смысле приближением всей совокупности векторов.
Средняя величина дает обобщенную характеристику изучаемой совокупности по неко- торому варьирующему (изменяющемуся) признаку. Другими словами показывает типичный для данных условий уровень этого признака. Поскольку средняя величина - абстрактная вели- чина, то для характеристики структуры ряда привлекаются описательные показатели – мода и медиана. Однако в двух совокупностях средняя оценка, мода и медиана могут быть одинако- выми. При этом отдельные значения признака могут приближаться к среднему значению и ма- ло от него отличаться. Или, наоборот, отдельные значения признака могут далеко отстоять от средних значений признака и сильно от него отличаться. На этих суждениях нетрудно сделать важный вывод: в первом случае средняя будет хорошо представлять (характеризовать) всю со- вокупность, во втором случае средняя будет плохо представлять всю совокупность.
Следовательно, наряду со средними величинами большое практическое и теоретическое
=
−
=
k
1 2
)
(
V
i
S
x
i
i
i
i
x
Системный анализ и принятие решений Макаров Л.М.
83 значение имеет изучение отклонений от средних значений. Оценки отклонений отдельных зна- чений от средней называют показателями вариации.
Термин “вариация” происходит от латинского слова variation – изменение, различие.
Однако не всякие различия принято называть вариацией. Под вариацией в статистике понима- ют такие количественные изменения величин исследуемого признака в пределах качественно однородной совокупности, которые обусловлены взаимосвязанным воздействием различных факторов. По этому принципу различают случайную и систематическую вариацию признака.
В статистических исследованиях особый интерес представляет анализ систематической вариации. Изучая разброс значений некоторого параметра и характер вариации в исследуемой совокупности можно оценить насколько однородной является данная совокупность в количе- ственном отношении. В дополнении к этому можно указать, что иногда рассматривается и ка- чественное отношение, а, следовательно, отыскивается насколько характерной является исчис- ленная средняя величина. Поэтому средние характеристики необходимо дополнять показателя- ми, измеряющими отклонения от средних значений.
Степень близости индивидуальных значений признака (вариант) к средней измеряется рядом абсолютных, средних и относительных статистических показателей. К ним относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклоне- ние, показатели степени вариации с порядковыми (ранговыми) характеристиками распределе- ния, показатели относительного рассеивания.
Для всех показателей вариации общим является следующие:
• если показатель вариации близок к нулю, то средняя арифметическая будет достаточно надежной характеристикой данной совокупности;
• если же ряд распределения характеризуется значительным рассеиванием величины по- казателя вариации, то средняя арифметическая будет ненадежной и ее практическое примене- ние будет ограничено.
Средние, являются обобщающими статистическими характеристиками изучаемого мас- сового явления по тому или иному варьирующему признаку и одновременно своего рода аб- стракцией. Они отражают то общее, что присуще всем единицам совокупности. При этом мо- жет случиться, что величина средней не имеет точного равенства ни с одним из конкретных встречающихся в совокупности вариантов.
Поэтому наравне со средними оценками в качестве общих статистических характери- стик изучаемого признака могут быть использованы величины конкретных вариантов, занима- ющих в ранжированном ряду индивидуальных значений признака определенное положение.
В статистических исследованиях в качестве вспомогательных описательных статистиче- ских характеристик распределения варьирующего признака широко применяются мода и меди-
Системный анализ и принятие решений Макаров Л.М.
84 ана. Модой в статистике называется величины признака (варианта), которая чаще всего встре- чается в данной совокупности. В оценке моды принято выделять модальный интервал – интер- вал с наибольшей частотой. Медианой в статистике называется варианта, которая находится в середине вариационного ряда.
Развитие идеи метода нейросетевого анализа реализуется построением карты признаков, с использованием известных методов анализа главных компонент. Главные компоненты рас- пределения облака векторов, это такие направления в пространстве, на которые проекция обла- ка векторов является наибольшей.
Метод главных компонент — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Задача анализа главных компонент, имеет, как минимум, четыре базовых версии:
1. аппроксимировать данные линейными многообразиями меньшей размерности;
2. найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) макси- мален;
3. найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;
4. для данной многомерной случайной величины построить такое ортогональное преобра- зование координат, что в результате корреляции между отдельными координатами обра- тятся в ноль.
Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвертая версия опери- рует случайными величинами. Конечные множества в четвертой версии создаются как выборки из данного распределения, а решение трех первых задач — как приближение к «истинному» преобразованию.
Учитывая эти ограничения, положим, что исходное множество данных конечно. Рассмот- рим аппроксимацию исходных данных линейными многообразиями.
Полагаем, что задано конечное множество векторов
. Для каждого k
= 0,1,...,n − 1 среди всех k-мерных линейных многообразий в требуется найти такое
, для которого сумма квадратов отклонений x i от L
k минимальна:
Системный анализ и принятие решений Макаров Л.М.
85 где
— евклидово расстояние от точки до линейного многообразия.
Очевидно, что всякое k-мерное линейное многообразие в может быть задано как множество линейных комбинаций
, где параметры
βi пробегают вещественную прямую , а
— ортонормированный набор векторов: где оператор представляет евклидову норму,
— евклидово скалярное произведе- ние, или в координатной форме:
Решение задачи аппроксимации для k = 0,1,...,n − 1 дается набором вложенных линейных многообразий
,
. Эти линей- ные многообразия определяются ортонормированным набором векторов
, кото- рые традиционно именуют векторами главных компонент, и, вектором a
0
Вектор a
0 отыскивается, как решение задачи минимизации для L
0
:
Или иначе:
Системный анализ и принятие решений Макаров Л.М.
86
Где выборочное среднее:
Метод главных компонент – известен как один из способов понижения размерности, со- стоящий в переходе к новому ортогональному базису, оси которого ориентированы по направ- лениям максимальной дисперсии набора входных данных. Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси, и т.д., последняя ось имеет минимальную дисперсию из всех возможных. Такое преобразование позволяет понижать информацию путем отбрасывания координат, соответ- ствующих направлениям с минимальной дисперсией. Предполагается, что если надо отказаться от одного из базисных векторов, то лучше, если это будет тот вектор, вдоль которого набор входных данных меняется менее значительно.
Можно отметить, что в основе метода главных компонент лежат следующие допущения:
• размерность данных может быть эффективно понижена путем линейного преобразова- ния;
• больше всего информации несут те направления, в которых дисперсия входных данных максимальна.
В целом данные предположения являются верными. Однако, эти предположения далеко не всегда сопутствуют получению верных оценок. Например, если точки входного множества располагаются на поверхности гиперсферы, то никакое линейное преобразование не сможет понизить размерность и получить верные оценки. Данный постулат следует из практики при- менения данного метода. Это недостаток в равной мере свойственен всем линейным алгорит- мам и может быть преодолен за счет использования дополнительных фиктивных переменных, являющихся нелинейными функциями от элементов набора входных данных. Другой недоста- ток метода главных компонент состоит в том, что выбор направления, по которым дисперсия максимальна, не всегда максимизируют информативность.
Системный анализ и принятие решений Макаров Л.М.
87
Заключение
Характер технического прогресса в последнее время, особенно в области информацион- ных технологий, а также практические успехи, сделанные в области искусственного интеллек- та, уже дали положительный ответ на вопрос о возможности создания искусственных мысля- щих систем. Современные идеи информатики значительно развили представления эпохи Фон- неймановских компьютеров и жестко заданных алгоритмов. Несомненно, терминология по- строения жестких программ, принятая в области автоматизации, постепенно трансформируется в «адаптивные вычисления», которые уже сегодня нельзя реализовать без использования пред- ставлений о нейросетевых вычислениях, реализуемым на основе известных моделей работы нейронных структур головного мозга.
Можно признать, что первоначальные устремления разработчиков сервисного про- граммного обеспечения, ориентированного на повышение эффективности труда профессиона- лов, по созданию интерактивных режимов работы, обеспечили формирование общей платфор- мы реализации сложных проектов по организации диалогового режима человека с компьюте- ром. Наличие на современном рынке большого количества программных продуктов по стати- стической обработке сигналов не понижает интерес к этой проблеме, а создает известные пред- посылки развития статистических методов для применения в новых более сложных задачах. В качестве одной из актуальных проблем в области использования статистических методов ана- лиза сегодня рассматривается задача формирования концептуальных суждений об исследуемом массиве данных, представленных сигналом, в широком смысле этого термина. Развитие стати- стических воззрений на область исследования стимулируется постоянно возрастающим инфор- мационным потоком, в котором выделяются не только традиционные модели приемо- передающих устройств, устройств генерации сигналов, каналов связи, но и сообщения, пред- ставленные в формате текстовых документов. Возрастающая потребность обработки больших массивов данных требует использования известных и хорошо проверенных методов, в качестве которых рассматриваются статистические методы.
В учебном пособии представлены основные принципы формирования суждений о си- стемном анализе и методах принятия решений. Выделены статистические методы анализа сиг- налов, а также современные модели и методы обработки экспериментального материала. Ис- пользование нейросетевых моделей в построении статистических конструкций алгоритмов и программ анализа данных создает известные предпосылки сближения формирования логиче- ских суждений человека и компьютера.
Системный анализ и принятие решений Макаров Л.М.
88
Литература
1. Улитина Е. В., Леднева О. В., Жирнова О. Л. Статистка , М., Московская Финансово-
Промышленная Академия, 2010 г.
2. Орехова С. А. Статиска , М., Эксмо, 2010 г.
3. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы, СПб., Горячая линия – Телеком 2010 г.
4. Шамис А. Л. Пути моделирования мышления. М., КомКнига. 2009 г.
5. Лэй Э. Цифровая обработка сигналов для инженеров и технических специалистов, СПб.,
Горячая линия – Телеком 2010 г
6. Рыжак И. С. Избранные вопросы теории цепей и обработки сигналов М., Блок-Информ-
Эксперсс, 2010 г.