Файл: Курсовая Принятие решений на примере задачи распознавания образов с использованием алгоритма Дискриминантная функция.doc

Добавлен: 23.10.2018

Просмотров: 2067

Скачиваний: 46

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

Международный университет природы, общества и человека «Дубна»



Кафедра системного анализа и управления




Курсовая работа


Принятие решений на примере задачи распознавания образов с использованием алгоритма «Дискриминантная функция»


по курсу «Теория принятия решений»




Выполнила: студентка II курса гр. 2014

Хлупина А.А.


Ст. преподаватель: Булякова И.А.






Дубна, 2007

Содержание



Введение

Дискриминантный анализ — это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.

Методы дискриминантного анализа находят применение в различных областях: медицине, социологии, психологии, экономике и т.д. При наблюдении больших статистических совокупностей часто появляется необходимость разделить неоднородную совокупность на однородные группы (классы). Такое расчленение в дальнейшем при проведении статистического анализа дает лучшие результаты моделирования зависимостей между отдельными признаками.

Дискриминантный анализ оказывается очень удобным и при обработке результатов тестирования отдельных лиц. Например, при выборе кандидатов на определенную должность можно всех опрашиваемых претендентов разделить на две группы: «подходит» и «не подходит».

Можно привести еще один пример применения дискриминантного анализа в экономике. Для оценки финансового состояния своих клиентов при выдаче им кредита банк классифицирует их на надежных и ненадежных по ряду признаков. Таким образом, в тех случаях, когда возникает необходимость отнесения того или иного объекта к одному из реально существующих или выделенных определенным способом классов, можно воспользоваться дискриминантным анализом.


Теоретическая часть


Дискриминантный анализ используется для решение задач распознавания в ситуациях, когда в материале обучения (МО) представлены объекты K образов (K=2,3,…), распределенные нормально.

Метод решения задачи.

Дискриминантный анализ основан на предположении, что объекты, составляющие каждый из образов, многомерно нормально распределены. Мы опираемся на эталонные объекты. Теоретически разделяются:

линейный дискриминантный анализ, когда матрицы ковариации для разных образов равны;

квадратичный дискриминантный анализ, когда матрицы ковариации для разных объектов различны.


Линейный дискриминантный анализ.

Рассмотрим случай, когда в МО имеется два образа. Оказывается, что при равных ковариационных матрицах поверхность с одной стороны, от которой больше вероятность принадлежности к одному из образов, а с другой к другому (критерий Байеса), является гиперплоскость, т.е. линейная поверхность размерности n-1 (n размерность пространства). Уравнение гиперплоскости в общем виде можно записать следующим образом:

.

В данном случае эта поверхность вычисляется следующим образом:

(1),

где n-мерный вектор столбец в пространстве свойств ;

математическое ожидание (среднее) объектов 1-го образа;

математическое ожидание (среднее) объектов 2-го образа;

транспонирование;

матрица коэффициентов ковариации.

Формула (1) называется уравнением линейной дискриминантной функции.


Коэффициенты ковариации вычисляются следующим образом:

,

где M – знак математического ожидания.

Коэффициенты ковариации тесно связан с коэффициентом корреляции:

,

где — среднее квадратичное отклонение ( ) i-го свойства;

среднее квадратичное отклонение ( ) j-го свойства;

Дисперсия .

Дискриминантная плоскость разбивает все пространство на две части. При этом точки пространства, относимые к 1-му образу, при подстановки своих координат в дискриминантную функцию дадут , а точки 2-го образа — .

Таким образом, подставляя координаты, интересующих нас объектов выборки, мы по дискриминантной функции определим, к какому из двух образов принадлежит объект (понятно, что с определенной долей вероятности). На рисунке (рис. 1) для двумерного случая это выглядит следующим образом:

Значение матриц ковариации вычисляются по формулам:

;

.

Есть параметр, говорящий о качестве разбиения с помощью дискриминантной функции – это расстояние Махаланобиса:

.

Разбиение тем лучше, чем больше .

Квадратичный дискриминантный анализ.

Был рассмотрен случай, когда матрицы ковариации для разных образов равны, и для распознавания использовалась линейная дискиминантная функция. Теперь рассмотрим ситуацию, когда матрицы ковариаций разных образов не совпадают. Для различных ковариационных матриц байесовский критерий предлагает строить квадратичную дискриминантную функцию. Однако, на практике ее строят чрезвычайно редко, поскольку никогда нельзя с точностью сказать равны или нет ковариационные матрицы. Мы ведь имеем только оценки, так как работаем не со всей генеральной совокупностью объектов, а только с выборкой из нее. Поэтому обычно вычисляют усредненную ковариационную матрицу для двух образов:


,

где – число объектов в 1-ой выборке;

число объектов во 2-ой выборке;

ковариационная матрица для 1-го образа;

ковариационная матрица для 2-го образа.

После этого применяется линейный дискриминантный анализ.


Распознавание с отказами.

Пусть имеется образов, где (т.е. известны эталоны для этих образов). Тогда можно построить линейную дискриминантную функцию для любой пары образов:

, где i, j – образы.

относится к i-му образу, если для всех j, или к области отказа, если такового i – нет.

Посмотрим как это выглядит на графике (рис. 2), где

D – гиперплоскости;

1, 2, 3 – образы;

4 – область отказа.

В область отказа попадают такие точки, для которых невозможно определить принадлежность к одному из образов. Другими словами точка отказа – это такая точка, координаты которой при подстановке в дискриминантную функцию дают следующие значения:

;

;

;

.

Дискриминантный анализ эффективно использовать при достаточно близком расположении образов и даже при небольшом их наложении.

Практика показала, что дискриминантный анализ хорошо работает и для случая, когда нет многомерного нормального распределения. При этом необходимо, чтобы распределение по каждому образу было все таки симметрично и унимодально. Правда, при этом алгоритм уже нельзя рассматривать как статистический, а можно говорить об эвристическом алгоритме распознавания образов.


Практическая часть

Постановка задачи.

Исследуем, какие свойства относят квартиру к одной из трех категорий: (1) 1-комнатной, (2) 2-комнатной или (3) 3-комнатной.

В данной задаче имеются 3 образа: 1 – 1-комнатная квартира, 2 – 2-комнатная квартира и 3 – 3-комнатная квартира и 3 свойства: общая площадь, жилая площадь и цена квартиры.

Известна часть представителей каждого образа и значения их свойств (табл. 1). Требуется отнести квартиры (МЭ) к каждому из образов (табл. 2).


Исходные данные


Таблица 1.

Материал обучения

общ. площадь (кв.м.)

цена (тысяч $)

кол-во комнат

жилая площадь

44

50

1

32

29

50

1

22

31

58

1

20

28

55

1

23

40

54

1

31

48

49

1

40

44

48

1

37

36

51

1

28

26

60

1

18

29

57

1

19

41

56

1

36

27

59

1

18

47

61

1

39

34

53

1

20

47

49

1

36

28

40

1

15

49

54

1

32

54

62

1

42

52

59

1

43

34

47

1

23

46

59

1

35

41

54

1

26

36

56

1

27

32

49

1

23

28

51

1

16

39

58

1

27

30

54

1

20

48

63

1

39

44

51

1

31

29

45

1

21

52

57

1

44

47

56

1

39

46

58

1

38

39

59

1

24

47

60

1

35

43

61

1

30

42

51

1

29

32

50

1

18

36

57

1

22

44

66

1

35

56

72

2

40

57

79

2

41

59

80

2

43

58

85

2

42

69

83

2

53

60

77

2

50

64

88

2

52

73

91

2

60

56

90

2

42

60

100

2

49

60

89

2

50

68

94

2

54

64

97

2

51

66

81

2

53

57

75

2

55

67

89

2

56

65

96

2

50

71

94

2

59

68

91

2

58

65

94

2

49

72

86

2

60

77

89

2

61

60

88

2

48

64

99

2

51

70

91

2

58

79

96

2

62

67

98

2

56

64

93

2

51

58

94

2

43

63

101

2

45

57

94

2

42

74

110

2

62

60

118

2

42

73

112

2

57

69

120

2

47

71

93

2

57

70

99

2

56

60

89

2

51

79

94

2

65

69

123

2

50

100

130

3

80

120

149

3

101

88

150

3

62

93

145

3

73

87

173

3

63

101

165

3

81

87

127

3

61

94

189

3

74

84

156

3

70

118

191

3

99

100

183

3

84

97

179

3

74

118

178

3

100

115

184

3

95

123

187

3

106

93

182

3

74

92

167

3

73

99

154

3

78

109

185

3

95

103

132

3

96



Таблица 2.

Материал экзамена

жилая площадь

общ. площадь (кв.м.)

цена (тысяч $)

кол-во комнат

16

26

57

0

26

34

48

0

40

49

52

0

39

48

48

0

21

33

45

0

15

26

45

0

18

29

50

0

21

30

47

0

35

48

58

0

15

26

50

0

20

32

51

0

21

33

52

0

37

53

44

0

24

36

54

0

28

37

44

0

20

30

45

0

21

36

48

0

34

45

54

0

37

48

47

0

26

39

49

0

19

31

52

0

49

65

96

0

25

39

57

0

24

42

58

0

23

41

49

0

43

52

49

0

23

34

55

0

22

39

58

0

33

48

50

0

26

40

50

0

28

37

44

0

27

38

50

0

37

49

50

0

40

52

55

0

14

26

45

0

35

47

47

0

37

49

58

0

41

53

53

0

32

45

56

0

33

46

59

0

50

62

97

0

52

65

117

0

62

77

103

0

60

74

94

0

37

48

57

0

64

78

73

0

54

70

122

0

65

76

118

0

64

74

116

0

55

67

92

0

40

56

75

0

51

65

78

0

61

76

95

0

56

68

80

0

62

75

93

0

59

71

102

0

58

70

121

0

50

64

92

0

54

71

104

0

49

62

99

0

55

67

81

0

65

74

87

0

48

65

119

0

44

58

107

0

59

72

106

0

66

78

122

0

50

64

73

0

60

75

93

0

51

67

74

0

61

73

114

0

51

65

112

0

89

106

151

0

42

60

80

0

56

67

94

0

45

58

81

0

44

60

111

0

61

76

112

0

41

56

90

0

49

60

100

0

54

69

89

0

95

113

155

0

90

107

178

0

79

93

185

0

89

106

133

0

84

98

169

0

100

117

143

0

88

104

130

0

98

115

187

0

101

118

168

0

102

119

159

0

95

115

162

0

87

103

140

0

85

100

172

0

104

122

171

0

94

112

148

0

49

61

84

0

90

113

144

0

70

84

162

0

72

90

176

0

70

93

137

0