Файл: М.А. Тынкевич Многошаговые процессы принятия решений (динамическое программирование).pdf

Скачать файл (0,26Мб)

Заказать решение

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 01.06.2024

Просмотров: 70

Скачиваний: 0

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

или в более изящной форме:

P1 R1		X =	P2 R2		Y	( 4 )
1−	P		1−	P
	1			2

Отсюда возникает простой путь решения. На первом шаге проверяем исходное состояние (точку) на положение относительно граничной линии

(4) и запоминаем соответствующий выбор. Отыскиваем координаты очередной точки в соответствии со сделанным выбором и проводим аналогичные действия. На последнем шаге (в оставшемся одношаговом процессе) суждение о выборе определяется линией (3).

4.2. Пример решения задачи

Пусть N=5, X=10, Y=20, P1 =1/3, P2 =1/2, R1 =3/4, R2 =2/3.

Уравнение ( 4 ) граничной линии при k>1 имеет вид

Y =		9	X .

	16
Точка (10,20) лежит выше граничной линии, что отвечает выбору B. Этот
выбор порождает точку ( 10 , (1-2/3)×	20), т.е. ( 10 , 20/3), принадлежащую
области B. Этот выбор, в свою очередь, порождает точку (10,20/9), при-
надлежащую области А. Выбор А	порождает точку (10/4,20/9), лежа-
щую в области B.
В итоге проделанных четырех выборов к последнему шагу возникает
точка (10,20/27 ), для которой

F ( 10, 20 ) = max [

20 ] = 5 ,

что соответствует выбору А.

Таким образом,

оптимальная

последовательность

выборов

имеет

вид {B B A B A}. Что касается значения F5(10,20), то

его можно найти

обратным ходом по ранее найденным состояниям:

A : F1(10/4,20/27) = 0.625 ,

B : F2(10/4,20/9) =1/2×

[ 2/3×

20/9 + F1(10/4,20/27)]=1.05,

A : F3(10,20/9)

= 1/3×

[ 3/4×

+ F2 (10/4,20/9)] = 2.85,

B : F4 (10,20/3)

= 1/2×

[ 2/3×

20/3 + F3 (10,20/9) ]

= 3.65,

B : F5(10,20)

= 1/2×

[ 2/3×

+ F4 (10,20/3) ] = 8.49 .

В случае бесконечношагового процесса соответствующее

функциональное уравнение имеет вид:

A : P1 { R1X + F( ( 1 − R1)X ,Y ) }

F(X,Y) = max B : P { R Y +

F( X ,( 1 − R

)Y )

}

( 5 )

Аналогичными рассуждениями можно показать, что области A и B первого выбора разделяются линией (4), и тем самым c легкостью делать очередной выбор по заданному соотношению запасов.

К сожалению, малейшее усложнение задачи многократно увеличивает трудоемкость решения [1]

4.3. Контрольные задания

4.3.1. Требования

1. Ознакомьтесь с постановкой задачи и подходом к ее решению методом рекуррентных соотношений.

2.Выберите вариант контрольного задания и выполните его решение. Оцените полученное оптимальное решение с позиций здравого смысла.

3.Как изменится математическая постановка задачи, если допустить, что машина выходит из строя не навсегда, а допускает ремонт к следующему сезону ?

4.Как вы подойдете к решению рассмотренной задачи в случае процесса бесконечной длительности ?

4.3.2.Варианты заданий

№	X	Y	P1	P2	R1	R2	N	№	X	Y	P1	P2	R1	R2	N
1	40	70	0.6	0.7	0.3	0.1	7	2	50	70	0.6	0.7	0.3	0.3	7
3	10	15	0.7	0.6	0.2	0.4	7	4	15	15	0.7	0.6	0.3	0.4	7
5	55	33	0.2	0.6	0.8	0.4	7	6	45	33	0.2	0.6	0.8	0.5	7
7	80	20	0.3	0.9	0.7	0.5	7	8	60	80	0.3	0.8	0.7	0.5	7
9	20	25	0.5	0.7	0.7	0.5	7	10	20	25	0.5	0.7	0.7	0.5	7
11	65	50	0.1	0.4	0.7	0.3	7	12	65	50	0.1	0.4	0.7	0.3	7
13	100	75	0.7	0.9	0.6	0.5	7	14	100	75	0.7	0.8	0.6	0.5	7
15	55	20	0.3	0.5	0.6	0.3	7	16	50	20	0.2	0.5	0.6	0.3	7
17	15	50	0.1	0.3	0.6	0.5	7	18	15	40	0.2	0.3	0.6	0.5	7
19	45	70	0.8	0.9	0.5	0.4	7	20	60	70	0.8	0.9	0.5	0.4	7
21	120	100	0.4	0.3	0.5	0.7	7	22	120	90	0.4	0.3	0.5	0.7	7
23	33	40	0.9	0.7	0.5	0.7	7	24	50	40	0.9	0.7	0.5	0.7	7
25	20	15	0.5	0.6	0.3	0.2	7	26	30	15	0.5	0.3	0.3	0.8	7
27	90	50	0.5	0.6	0.4	0.4	7	28	90	60	0.5	0.7	0.4	0.4	7
29	150	200	0.6	0.5	0.7	0.9	7	30	150	200	0.6	0.5	0.7	0.8	7
31	100	100	0.4	0.3	0.5	0.7	7	32	50	100	0.3	0.3	0.5	0.7	6
33	60	40	0.9	0.7	0.5	0.7	7	34	75	40	0.8	0.7	0.5	0.7	6
35	20	25	0.5	0.6	0.3	0.2	7	36	25	25	0.5	0.6	0.3	0.2	6
37	80	50	0.5	0.6	0.5	0.4	7	38	60	50	0.5	0.6	0.5	0.4	6
39	50	200	0.6	0.5	0.6	0.9	7	40	75	100	0.6	0.5	0.6	0.8	6
41	60	50	0.4	0.3	0.5	0.7	6	42	50	100	0.4	0.4	0.5	0.7	6
43	35	40	0.8	0.7	0.5	0.7	6	44	75	40	0.9	0.7	0.5	0.7	6
45	20	45	0.5	0.8	0.3	0.2	6	46	25	25	0.5	0.8	0.3	0.2	6
47	80	50	0.6	0.6	0.4	0.4	6	48	60	50	0.4	0.5	0.5	0.4	6
49	150	100	0.6	0.5	0.7	0.5	6	50	75	100	0.5	0.4	0.6	0.8	6

5.Лабораторная работа 5.

Марковские процессы принятия решений

5.1. Постановка задачи и описание метода решения

Пусть некоторая система (сбыт, потребление, здоровье, плодородие, комнатная температура и пр.) в любой фиксированный момент t может находиться в одном из n состояний и перейти из этого состояния в любое

другое. Пусть вероятность Pt(i,j) перехода в момент t из i-го состояния в j-е не зависит от предыстории системы. Такая система называется мар-

ковской.

Если вероятности перехода не зависят от времени, марковская система обладает свойством стационарности, т.е. функция Xt(j) вероятности

нахождения системы в момент t в j-ом состоянии при t→∞ асимптотически сходится к функции X(j), удовлетворяющей уравнениям:

X ( j ) = ∑n	P( i, j ) X ( i ),	j = 1 . . n .
i= 1

Это позволяет предсказать вероятность того или иного состояния на дальнюю перспективу без каких-то трудоемких вычислений.

Предположим, что вероятности перехода зависит от некоторой политики (выбора) q и переход сопровождается получением некоторого

благоприятного эффекта Ri j(q).

Обозначим через Fk(i) ожидаемый эффект функционирования системы, находившейся в начальный момент в i-м состоянии, за k периодов при использовании оптимальной политики. Руководствуясь принципом оптимальности, требующим независимо от начального состояния i и от начального выбора q далее действовать оптимально, т.е. гарантировать мак-

симум ожидаемого эффекта			в последующем процессе, приходим к				ре-
куррентным соотношениям вида:
Fk(i) = max ∑n	P	( q ) [ R	( q ) + F	k − 1	( j ) ] , i = 1 . . n , k ≥	1;	( 1 )
q j = 1 i j		i j		k − 1
		F0( i ) = 0 ,		i = 1 . . n .

Для процессов большой длительности использование (1) требует существенных затрат времени даже при машинной реализации процесса вычислений. Если учесть, что при независимости значений вероятностей и эффектов от времени процесс обладает свойством стационарности, то в предположении регулярности (возможности прямого или опосредствованного перехода из любого состояния в любое) полагаем для больших k

Fk (i) = Fi + k G ,

( 2 )

где G - средний эффект за период и Fi -составляющая суммарного эффек-

та, определяемая начальным состоянием. Подставляя (2) в (1) и учитывая

		∑n	Pi j( q ) = 1,
		j=	1
получаем систему функциональных уравнений
Fi	+ G = max ∑n	Pi j ( q ) [ Ri j ( q )+ F j ] , i = 1 . . n ,		( 3 )
	q j=	1

которую можно решать приближением в поведениях. Приведенную систему можно получить, если записать уравнение для бесконечношагового процесса с учетом дисконтирования, положить величину дисконтирован-

ного эффекта равной Fi + G/(1-α ) и принять α = 1 .

Для иллюстрации марковского процесса принятия решений рассмотрим "задачу о такси" .

Таксист обслуживает окрестности трех городов и может руководствоваться одним из трех выборов: ездить по городу в поисках случайного пассажира, ждать вызова по радио или поехать на стоянку и стать там в очередь.

Для каждого города ( i ) и каждого выбора ( q ) известны вероятности поездки в тот или иной город и соответствующие доходы, сведенные в таблице:

Город	Выбоp	Вероятности перехода			Значения дохода
i	q	j=1	j=2	j=3	j=1	j=2	j=3
1	1	1/2	1/4	1/4	10	4	8
	2	1/16	3/4	3/16	8	2	4
	3	1/4	1/8	5/8	4	6	4
2	1	1/2	0	1/2	14	0	18
	2	1/16	7/8	1/16	8	16	8
3	1	1/4	1/2	1/4	10	2	8
	2	1/8	3/4	1/8	6	4	2
	3	3/4	1/16	3/16	4	0	8

Возьмем за начальное поведение q0 = (1, 1, 1), т.е. во всех городах будем придерживаться первого выбора. Для выбранного поведения строим систему n уравнений с n+1 неизвестными

Fi + G = ∑n Pi j( q	0 ) [ Ri j( q0 ) + F j ] , i = 1 . . n,
j = 1

разрешимую с точностью до константы. Для нашего примера :

F1 + G = 1/2 [ 10 + F1 ] + 1/4 [ 4 + F2 ] + 1/4 [ 8 + F3]

F2 + G = 1/2 [ 14 + F1] + + 1/2 [18 + F3]

F3 + G = 1/4 [ 10 + F1 ] + 1/2 [ 2 + F2 ] + 1/4 [ 8 + F3 ]

Полагая, например, F3 = 0, получаем F1 = 4/3, F2 = 7.47 и G = 9.2, т.е. выбранная политика дает средний доход за одну поездку, равный 9.2.

Вычисляем

∑n

Ti(q) =

j ( q ) [ Ri j ( q )+ F j ]

при всех i и q

и найденных значениях Fi:

T1(1) =

1/2

[10+4/3 ] +

1/4

[ 4+7.47 ] + 1/4

[ 8+0 ]

T1(2)

1/16 [

8+4/3 ] +

3/4

[ 2+7.47 ] + 3/16 [ 8+0 ]

T1(3)

1/4

[

4+4/3 ] +

1/8 [ 6+7.47 ] + 5/8

[ 4+0 ]

T2(1)

1/2

[14+4/3 ] +

+ 1/2

[18+0 ]

T2(2)

1/16 [

8+4/3 ] +

7/8 [16+7.47 ] + 1/16 [ 8+0 ]

T3(1)

1/4

[10+4/3 ] +

1/2

[ 2+7.47 ] +

1/4

[ 8+0 ]

T3(2)

1/8

[

6+4/3 ] +

3/4

[ 4+7.47 ] +

1/8

[ 2+0 ]

T3(3)

= 3/4

[

4+4/3 ] +

1/16 [ 0+7.47 ] + 3/16 [ 8+0 ].

Выбирая максимальное из значений Ti(q)

по q, получаем улучшенное по-

ведение q =(1, 2, 2). Строим и решаем систему уравнений:

F1 + G = 1/2 [ 10 + F1] + 1/4 [ 4 + F2 ] + 1/4 [ 8 + F3 ]

F2 + G = 1/16 [

8 + F1] + 7/8 [16 + F2 ]

+ 1/16 [ 8 + F3]

F3 + G = 1/8 [

6 + F1] + 3/4 [ 4 + F2 ]

+ 1/8 [ 2 + F3]

получая F3 = 0,

F2 = -3.88, F1 = 12.85,

G = 13.15.

q =(2, 2, 2), для

Попытка

дальнейшего улучшения

дает политику

которой F3 = 0,

F2 = -1.18,

F1 = 12.86,

G = 13.34. Очередная попытка

улучшения приводит к той же политике,

откуда напрашивается вывод о

том, что оптимальная политика состоит в использовании второго выбора во всех городах и обеспечивает средний ожидаемый доход за одну поездку, равный 13.34.

2.3. Контрольные задания

2.3.1. Требования

1. Выберите вариант контрольного задания и выполните его решение в предположении процесса большой длительности. Оцените полученное оптимальное решение с позиций здравого смысла.

2.Как вы будете решать задачу, если процесс не будет длительным ?

3.Как получить систему функциональных уравнений (3) на основе интегрального дисконтированного эффекта ?

4.Что характерно для стационарного процесса ?

Смотрите также файлы

М.А. Тынкевич Лабораторный практикум по курсу Численные методы анализа.pdf

Л.С. Таганов Решение численных задач средствами MS Excel.pdf

И.В. Кандинская Информационные системы в экономике.pdf

Е.Е. Дадонова Решение уравнений средствами Excel.pdf

Е.Е. Дадонова Анализ функций проектирование простых таблиц средствами Excel.pdf

Файл: М.А. Тынкевич Многошаговые процессы принятия решений (динамическое программирование).pdf

Смотрите также файлы

Информация

Списки файлов

Дополнительно

№	X	Y	P1	P2	R1	R2	N	№	X	Y	P1	P2	R1	R2	N
1	40	70	0.6	0.7	0.3	0.1	7	2	50	70	0.6	0.7	0.3	0.3	7
3	10	15	0.7	0.6	0.2	0.4	7	4	15	15	0.7	0.6	0.3	0.4	7
5	55	33	0.2	0.6	0.8	0.4	7	6	45	33	0.2	0.6	0.8	0.5	7
7	80	20	0.3	0.9	0.7	0.5	7	8	60	80	0.3	0.8	0.7	0.5	7
9	20	25	0.5	0.7	0.7	0.5	7	10	20	25	0.5	0.7	0.7	0.5	7
11	65	50	0.1	0.4	0.7	0.3	7	12	65	50	0.1	0.4	0.7	0.3	7
13	100	75	0.7	0.9	0.6	0.5	7	14	100	75	0.7	0.8	0.6	0.5	7
15	55	20	0.3	0.5	0.6	0.3	7	16	50	20	0.2	0.5	0.6	0.3	7
17	15	50	0.1	0.3	0.6	0.5	7	18	15	40	0.2	0.3	0.6	0.5	7
19	45	70	0.8	0.9	0.5	0.4	7	20	60	70	0.8	0.9	0.5	0.4	7
21	120	100	0.4	0.3	0.5	0.7	7	22	120	90	0.4	0.3	0.5	0.7	7
23	33	40	0.9	0.7	0.5	0.7	7	24	50	40	0.9	0.7	0.5	0.7	7
25	20	15	0.5	0.6	0.3	0.2	7	26	30	15	0.5	0.3	0.3	0.8	7
27	90	50	0.5	0.6	0.4	0.4	7	28	90	60	0.5	0.7	0.4	0.4	7
29	150	200	0.6	0.5	0.7	0.9	7	30	150	200	0.6	0.5	0.7	0.8	7
31	100	100	0.4	0.3	0.5	0.7	7	32	50	100	0.3	0.3	0.5	0.7	6
33	60	40	0.9	0.7	0.5	0.7	7	34	75	40	0.8	0.7	0.5	0.7	6
35	20	25	0.5	0.6	0.3	0.2	7	36	25	25	0.5	0.6	0.3	0.2	6
37	80	50	0.5	0.6	0.5	0.4	7	38	60	50	0.5	0.6	0.5	0.4	6
39	50	200	0.6	0.5	0.6	0.9	7	40	75	100	0.6	0.5	0.6	0.8	6
41	60	50	0.4	0.3	0.5	0.7	6	42	50	100	0.4	0.4	0.5	0.7	6
43	35	40	0.8	0.7	0.5	0.7	6	44	75	40	0.9	0.7	0.5	0.7	6
45	20	45	0.5	0.8	0.3	0.2	6	46	25	25	0.5	0.8	0.3	0.2	6
47	80	50	0.6	0.6	0.4	0.4	6	48	60	50	0.4	0.5	0.5	0.4	6
49	150	100	0.6	0.5	0.7	0.5	6	50	75	100	0.5	0.4	0.6	0.8	6

№	X	Y	P1	P2	R1	R2	N	№	X	Y	P1	P2	R1	R2	N
1	40	70	0.6	0.7	0.3	0.1	7	2	50	70	0.6	0.7	0.3	0.3	7
3	10	15	0.7	0.6	0.2	0.4	7	4	15	15	0.7	0.6	0.3	0.4	7
5	55	33	0.2	0.6	0.8	0.4	7	6	45	33	0.2	0.6	0.8	0.5	7
7	80	20	0.3	0.9	0.7	0.5	7	8	60	80	0.3	0.8	0.7	0.5	7
9	20	25	0.5	0.7	0.7	0.5	7	10	20	25	0.5	0.7	0.7	0.5	7
11	65	50	0.1	0.4	0.7	0.3	7	12	65	50	0.1	0.4	0.7	0.3	7
13	100	75	0.7	0.9	0.6	0.5	7	14	100	75	0.7	0.8	0.6	0.5	7
15	55	20	0.3	0.5	0.6	0.3	7	16	50	20	0.2	0.5	0.6	0.3	7
17	15	50	0.1	0.3	0.6	0.5	7	18	15	40	0.2	0.3	0.6	0.5	7
19	45	70	0.8	0.9	0.5	0.4	7	20	60	70	0.8	0.9	0.5	0.4	7
21	120	100	0.4	0.3	0.5	0.7	7	22	120	90	0.4	0.3	0.5	0.7	7
23	33	40	0.9	0.7	0.5	0.7	7	24	50	40	0.9	0.7	0.5	0.7	7
25	20	15	0.5	0.6	0.3	0.2	7	26	30	15	0.5	0.3	0.3	0.8	7
27	90	50	0.5	0.6	0.4	0.4	7	28	90	60	0.5	0.7	0.4	0.4	7
29	150	200	0.6	0.5	0.7	0.9	7	30	150	200	0.6	0.5	0.7	0.8	7
31	100	100	0.4	0.3	0.5	0.7	7	32	50	100	0.3	0.3	0.5	0.7	6
33	60	40	0.9	0.7	0.5	0.7	7	34	75	40	0.8	0.7	0.5	0.7	6
35	20	25	0.5	0.6	0.3	0.2	7	36	25	25	0.5	0.6	0.3	0.2	6
37	80	50	0.5	0.6	0.5	0.4	7	38	60	50	0.5	0.6	0.5	0.4	6
39	50	200	0.6	0.5	0.6	0.9	7	40	75	100	0.6	0.5	0.6	0.8	6
41	60	50	0.4	0.3	0.5	0.7	6	42	50	100	0.4	0.4	0.5	0.7	6
43	35	40	0.8	0.7	0.5	0.7	6	44	75	40	0.9	0.7	0.5	0.7	6
45	20	45	0.5	0.8	0.3	0.2	6	46	25	25	0.5	0.8	0.3	0.2	6
47	80	50	0.6	0.6	0.4	0.4	6	48	60	50	0.4	0.5	0.5	0.4	6
49	150	100	0.6	0.5	0.7	0.5	6	50	75	100	0.5	0.4	0.6	0.8	6

№	X	Y	P1	P2	R1	R2	N	№	X	Y	P1	P2	R1	R2	N
1	40	70	0.6	0.7	0.3	0.1	7	2	50	70	0.6	0.7	0.3	0.3	7
3	10	15	0.7	0.6	0.2	0.4	7	4	15	15	0.7	0.6	0.3	0.4	7
5	55	33	0.2	0.6	0.8	0.4	7	6	45	33	0.2	0.6	0.8	0.5	7
7	80	20	0.3	0.9	0.7	0.5	7	8	60	80	0.3	0.8	0.7	0.5	7
9	20	25	0.5	0.7	0.7	0.5	7	10	20	25	0.5	0.7	0.7	0.5	7
11	65	50	0.1	0.4	0.7	0.3	7	12	65	50	0.1	0.4	0.7	0.3	7
13	100	75	0.7	0.9	0.6	0.5	7	14	100	75	0.7	0.8	0.6	0.5	7
15	55	20	0.3	0.5	0.6	0.3	7	16	50	20	0.2	0.5	0.6	0.3	7
17	15	50	0.1	0.3	0.6	0.5	7	18	15	40	0.2	0.3	0.6	0.5	7
19	45	70	0.8	0.9	0.5	0.4	7	20	60	70	0.8	0.9	0.5	0.4	7
21	120	100	0.4	0.3	0.5	0.7	7	22	120	90	0.4	0.3	0.5	0.7	7
23	33	40	0.9	0.7	0.5	0.7	7	24	50	40	0.9	0.7	0.5	0.7	7
25	20	15	0.5	0.6	0.3	0.2	7	26	30	15	0.5	0.3	0.3	0.8	7
27	90	50	0.5	0.6	0.4	0.4	7	28	90	60	0.5	0.7	0.4	0.4	7
29	150	200	0.6	0.5	0.7	0.9	7	30	150	200	0.6	0.5	0.7	0.8	7
31	100	100	0.4	0.3	0.5	0.7	7	32	50	100	0.3	0.3	0.5	0.7	6
33	60	40	0.9	0.7	0.5	0.7	7	34	75	40	0.8	0.7	0.5	0.7	6
35	20	25	0.5	0.6	0.3	0.2	7	36	25	25	0.5	0.6	0.3	0.2	6
37	80	50	0.5	0.6	0.5	0.4	7	38	60	50	0.5	0.6	0.5	0.4	6
39	50	200	0.6	0.5	0.6	0.9	7	40	75	100	0.6	0.5	0.6	0.8	6
41	60	50	0.4	0.3	0.5	0.7	6	42	50	100	0.4	0.4	0.5	0.7	6
43	35	40	0.8	0.7	0.5	0.7	6	44	75	40	0.9	0.7	0.5	0.7	6
45	20	45	0.5	0.8	0.3	0.2	6	46	25	25	0.5	0.8	0.3	0.2	6
47	80	50	0.6	0.6	0.4	0.4	6	48	60	50	0.4	0.5	0.5	0.4	6
49	150	100	0.6	0.5	0.7	0.5	6	50	75	100	0.5	0.4	0.6	0.8	6