Файл: М.А. Тынкевич Многошаговые процессы принятия решений (динамическое программирование).pdf
ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 01.06.2024
Просмотров: 68
Скачиваний: 0
10
3.2. Пример решения задачи
Рассмотрим пример, аналогичный представленному в предшествующей лабораторной работе:
|
|
A + |
B X |
, X > |
0 |
+ |
H |
Y |
, |
|
A=13 , B=2 , H=1 ; |
(6) |
||||||
C( X ,Y )= |
|
|
0 |
, |
X = |
0 |
|
|||||||||||
|
|
|
|
|
R =5, емкость склада T =4, спрос S |
|||||||||||||
максимальный объем производства |
|
|||||||||||||||||
=3, N = 6. Здесь систему управления запасами можно интерпретировать |
||||||||||||||||||
как систему с пятью состояниями (i ≡ Y = 0, 1, 2 , 3 , 4). |
|
|
|
|||||||||||||||
Для удобства |
|
последующей |
|
работы |
рассчитаем |
таблицу |
значе- |
|||||||||||
ний Сi j ( j= i+X-3), |
где |
учитываются |
затраты |
на производство, |
рав- |
|||||||||||||
ные 13+2× X при X > 0 |
|
и 0 |
при X = 0, |
и на хранение, |
равные 1× j (X не |
|||||||||||||
превышает 5). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i \ j |
|
|
0 |
|
|
1 |
|
|
2 |
|
|
3 |
|
4 |
|
|
|
Сi j = |
0 |
|
|
19+0 |
21+1 |
23+2 |
|
|
|
|
|
|
|
|||||
1 |
|
|
17+0 |
19+1 |
21+2 |
|
|
23+3 |
|
|
|
|
||||||
|
2 |
|
|
15+0 |
17+1 |
19+2 |
|
|
21+3 |
|
23+4 |
|
|
|||||
|
3 |
|
|
|
0+0 |
15+1 |
17+2 |
|
|
19+3 |
|
21+4 |
|
|
||||
|
4 |
|
|
|
|
|
|
0+1 |
|
15+2 |
|
|
17+3 |
|
19+4 |
|
|
Берем за начальное поведение политику производства, обеспечивающую минимальный объем выпуска, достаточный для покрытия спроса.
Тогда для i=0 берем X=3, для i=1 - X=2, |
для i=2 - X=1, для i=3 и |
|
i=4 - X=0: начальное поведение определяется системой переходов |
||
( 0 → 0 ) , ( 1 → |
0 ) , ( 2 → 0 ) , ( 3 → |
0 ) , ( 4 → 1 ) . |
Для этого поведения |
возникает система 5 уравнений с 6 неизвест- |
ными, которую решаем с точностью до константы (при выборе, например
F0 , равным какой-то константе, другие Fi определятся с точностью до константы, тогда как значение C не зависит от этого выбора):
F0 + C = 19 + F0 |
F0 = 0, |
C = 19, |
|
F1 + C = 17 + F0 |
F1 = - 2, |
|
|
F2 + C = 15 + F0 |
F2 |
= - 4, |
|
F3 + C = 0 + F0 |
F3 |
= - 19, |
|
F4 + C = 1 + F1 |
F4 |
= - 20. |
|
Обнаружив, что выбранная политика обеспечивает |
|
средние затра- |
||||
ты, равные 19 , попытаемся найти улучшенное поведение: |
при j=0; |
|||||
i = 0 : min[C0 j +Fj ] = min [ 19+0, 22-2, 25-4, - , |
- |
] |
||||
i = 1 |
: min[C1 j +Fj ] = min [ 17+0, 20-2, 23-4, 26-19, |
- |
] |
при j=3; |
||
i = 2 |
: min[C2 j +Fj ] = min [ 15+0, 18-2, 21-4, 24-19, 27-20 ] |
при j=3; |
||||
i = 3 |
: min[C3 j +Fj ] = min [ |
0+0, |
16-2, 19-4, 22-19, 25-20 ] |
при j=0; |
||
i = 4 |
: min[C 4 j +Fj ] = min [ |
- , |
1-2 , 17-4, 20-19, 23-20 ] |
при j=1. |
Найденное улучшенное поведение определяет систему переходов:
|
|
11 |
|
|
|
|
|
( 0 → 0 ) , ( 1 → |
3 ) , ( 2 → |
3 ) , ( 3 → 0 ) , ( 4 → 1 ) . |
|
Строим и решаем соответствующую систему уравнений |
|||
F0 + C = 19 + F0 |
F0 = 0, |
C = 19, |
|
F1 |
+ C = 26 + F3 |
F1 = - 12, |
|
F2 + C = 24 + F3 |
F2 = - 14, |
||
F3 + C = 0 + F0 |
F3 = - 19, |
||
F4 |
+ C = 1 + F1 |
F4 = - 30. |
Видим, что и эта выбранная политика обеспечит средние затраты, равные 19.
Аналогичные попытки улучшения дают поведения: |
|
|
||||
( 0 → |
1 ) , ( 1 → |
3 ) , ( 2 → |
3 ) , ( 3 → |
4 ) , ( 4 → |
1 ) , C=17.3 ; |
|
( 0 → |
2 ) , ( 1 → |
2 ) , ( 2 → |
4 ) , ( 3 → |
0 ) , ( 4 → |
1 ) , C=17 |
; |
( 0 → |
2 ) , ( 1 → |
3 ) , ( 2 → |
3 ) , ( 3 → |
0 ) , ( 4 → |
1 ) , C=16.3 ; |
|
( 0 → |
1 ) , ( 1 → |
3 ) , ( 2 → |
4 ) , ( 3 → |
0 ) , ( 4 → |
1 ) , C=16 |
; |
( 0 → |
2 ) , ( 1 → |
3 ) , ( 2 → |
4 ) , ( 3 → |
0 ) , ( 4 → |
1 ) , C=15.8 ; |
|
( 0 → |
2 ) , ( 1 → |
3 ) , ( 2 → |
4 ) , ( 3 → |
0 ) , ( 4 → |
1 ) . |
|
Поскольку два очередных приближения в поведениях совпали, можно утверждать, что оптимальная политика переходов между состояниями имеет вид:
и оптимальный производственный цикл определяется последовательностью объемов производства [ 5 - 5 - 0 - 5 - 0 ]. Найденная политика может быть принята за отправную при скользящем планировании.
3.3. Контрольные задания
3.3.1. Требования
1. Ознакомьтесь с постановкой задачи и ответьте на следующие вопросы:
-правомерность замены процесса большой длительности бесконечношаговым;
-эффективность такой замены;
-можно ли в бесконечношаговом процессе пользоваться критериями эффективности, обычными в конечношаговых (минимум суммарных затрат, максимальная прибыль, максимальный объем добычи и т.п.);
-в чем смысл интегрального дисконтированного эффекта;
-понятие функционального уравнения;
-методы решения функциональных уравнений;
-приближение в поведениях – что это такое;
-почему начальное поведение выбирается по минимальному приемлемому объему производства.
12
2.Выберите вариант контрольного задания и выполните его. Оцените полученное оптимальное решение с позиций здравого смысла.
3.Постройте функциональные уравнения и оцените соответствующие упрощения (усложнения) для следующих видоизменений задачи:
- к следующему периоду (сезону) сохраняемая продукции на складе уменьшается на P %;
- функция затрат на производство X и сохранение Z единиц продук-
ции линейная: C (X,Z)=C× X+H× Z .
3.3.2. Варианты заданий
№ |
R |
T |
S |
A |
B |
H |
№ |
R |
T |
S |
A |
B |
H |
1 |
5 |
4 |
3 |
13 |
2 |
3 |
2 |
5 |
4 |
3 |
17 |
2 |
3 |
3 |
5 |
4 |
3 |
13 |
3 |
2 |
4 |
5 |
4 |
3 |
17 |
3 |
2 |
5 |
6 |
5 |
4 |
15 |
2 |
3 |
6 |
6 |
5 |
3 |
15 |
2 |
3 |
7 |
6 |
5 |
4 |
15 |
3 |
2 |
8 |
6 |
5 |
3 |
15 |
3 |
2 |
9 |
5 |
5 |
4 |
15 |
2 |
3 |
10 |
5 |
5 |
4 |
19 |
2 |
4 |
11 |
5 |
5 |
4 |
15 |
3 |
2 |
12 |
5 |
5 |
4 |
19 |
4 |
2 |
13 |
4 |
4 |
3 |
13 |
3 |
2 |
14 |
6 |
4 |
5 |
13 |
3 |
2 |
15 |
4 |
4 |
3 |
15 |
2 |
3 |
16 |
4 |
6 |
5 |
15 |
2 |
3 |
17 |
8 |
5 |
4 |
20 |
2 |
4 |
18 |
3 |
7 |
2 |
13 |
3 |
2 |
19 |
8 |
5 |
4 |
20 |
4 |
2 |
20 |
3 |
7 |
2 |
15 |
2 |
3 |
21 |
7 |
5 |
4 |
20 |
2 |
4 |
22 |
5 |
4 |
4 |
15 |
2 |
3 |
23 |
7 |
5 |
4 |
20 |
4 |
4 |
24 |
5 |
4 |
4 |
20 |
4 |
4 |
25 |
7 |
5 |
4 |
20 |
3 |
2 |
26 |
5 |
4 |
4 |
20 |
3 |
2 |
27 |
4 |
6 |
4 |
27 |
4 |
6 |
28 |
4 |
6 |
4 |
28 |
4 |
6 |
29 |
4 |
6 |
4 |
27 |
4 |
3 |
30 |
4 |
6 |
4 |
30 |
4 |
2 |
31 |
6 |
4 |
5 |
20 |
4 |
2 |
32 |
3 |
7 |
2 |
28 |
4 |
6 |
33 |
4 |
6 |
5 |
20 |
2 |
4 |
34 |
3 |
7 |
2 |
30 |
4 |
2 |
35 |
3 |
7 |
2 |
20 |
4 |
4 |
35 |
10 |
5 |
4 |
20 |
4 |
2 |
37 |
3 |
7 |
2 |
20 |
3 |
2 |
38 |
10 |
5 |
4 |
20 |
2 |
4 |
39 |
4 |
6 |
4 |
30 |
4 |
4 |
40 |
4 |
6 |
4 |
20 |
4 |
4 |
41 |
4 |
6 |
4 |
30 |
3 |
6 |
42 |
4 |
6 |
4 |
20 |
3 |
2 |
43 |
7 |
5 |
5 |
28 |
4 |
6 |
44 |
10 |
5 |
4 |
28 |
4 |
6 |
45 |
7 |
5 |
5 |
30 |
4 |
2 |
46 |
10 |
5 |
4 |
30 |
4 |
2 |
47 |
6 |
4 |
4 |
20 |
2 |
1 |
48 |
6 |
5 |
5 |
28 |
4 |
6 |
49 |
6 |
4 |
4 |
20 |
2 |
7 |
50 |
6 |
5 |
5 |
30 |
4 |
2 |
R - максимальный объем производства, T - емкость склада , S - спрос
13
4.Лабораторная работа 4.
Стохастические процессы принятия решений. Задача дихотомического выбора
4.1. Постановка задачи и описание метода решения
Как правило при изучении реальных процессов мы не испытываем 100%-ной уверенности в точности используемых оценок спроса, дохода, затрат и т.п. Обычно значения подобных параметров оптимизационной задачи являются функциями от многих факторов, которые невозможно или затруднительно учесть в математической модели, и с позиций решающего задачу выступают в роли случайных величин, для которых известны лишь параметры соответствующего распределения вероятностей или другие вероятностные оценки.
Естественно, что в таких условиях мы не можем говорить о точных значениях прибыли, затрат и т.п., а лишь об ожидаемых значениях этих величин или о вероятностях того, что указанные величины принимают значения в некотором заданном диапазоне.
Более того, если в случае детерминированного процесса обнаруживается одна или несколько оптимальных стратегий, представляющих вполне определенную последовательность управляющих воздействий (такие стратегии называют чистыми), то для стохастического процесса оптимальная стратегия часто представляет совокупность таких воздействий, смешанных в некоторых пропорциях (соответственно такие стратегии и называют смешанными).
Рассмотрим в качестве примера многошагового стохастического процесса принятия решений известную задачу дихотомического выбора
(задачу о золотодобыче).
Пусть имеются два прииска А и B с запасами золота соответственно X и Y, но лишь единственная добывающая машина, которую приходится перебрасывать с одного прииска на другой. При работе на прииске А ма-
шина в течение сезона с вероятностью P1 добывает долю R1 имеющегося запаса и с вероятностью 1-P1 ломается навсегда. При работе на прииске B значения вероятностей и доли добычи равны соответственно P2 , R2 ,1- P2 .
Требуется найти оптимальную перестановку машины между приисками, которая максимизирует ожидаемый объем добычи за N сезонов .
Обозначим через Fk(X,Y) максимум математического ожидания суммарного объема добычи за k сезонов при начальных запасах X и Y. Т.к. есть
лишь два выбора при установке машины в очередном сезоне, то |
|
||||||
|
A : P1 { R1 X + Fk − 1(( 1 − R1 )X ,Y ) } |
|
|||||
Fk (X,Y) = max |
B : P |
{ R |
Y + F |
( X ,( 1 − R |
2 |
)Y ) } |
( 1 ) |
|
2 |
2 |
k − 1 |
|
|
|
|
|
14 |
|
|
|
|
F1 |
A : P1 R1 X |
( 2 ) |
||||
(X,Y) = max B : P |
R |
|
Y |
|||
|
|
2 |
|
2 |
|
|
Решение полученных рекуррентных соотношений обычным численным методом осложняется двухмерностью искомых функций. На помощь приходит факт, что эти функции обладают свойством однородности F (rX,rY) = r F(X,Y), откуда можно сделать вывод, что оптимальная политика для точки (X,Y) остается оптимальной для всех точек луча из (0,0), проходящего через указанную точку. Следовательно, оптимальная политика определяется соотношением между X и Y.
Если учесть, что при X>>Y оптимальным первым выбором является выбор А, а при Y>>X - выбор B , то легко видеть, что совокупность всех допустимых точек (X,Y) (положительный квадрант плоскости) разбивается на две области оптимального первого выбора (рис.1) .
Возникает вопрос об отыскании граничной линии L , где оба выбора равноценны. При k=1 она определяется элементарно уравнением
P1 R1 X = P2 R2 Y . |
( 3 ) |
При k>1 воспользуемся следующими соображениями. Если в точке |
|
(X,Y) линии L использовать выбор А, то последующее состояние опреде- |
|
ляется точкой ((1-R1)X,Y), которая лежит |
в области первого выбора B. |
При использовании в точке (X,Y ) линии L |
первого выбора B возникает |
состояние, определяемое точкой ( X , (1-R2)Y ), для которой заведомо оптимален первый выбор А.
Следовательно, для точек граничной линии равноценны выборы "AB + оптимальное продолжение" и "BA + оптимальное продолжение" (рис.2).
Для этих последовательностей выборов находим представления:
(AB+) Fk(X,Y) = P1 [ R1X + F k-1((1-R1 )X,Y) ]=
=P1 [ R1X + P2 [ R2 Y + Fk-2((1-R1)X,(1-R2)Y) ] ]
=P1 R1 X + P1 P2 R2 Y + P1 P2 F k-2((1-R1)X,(1-R2)Y) ,
(BA+) Fk(X,Y) = P2 [ R2 Y + Fk-1 (X,(1-R2)Y) ]=
=P2 [ R2 Y + P1 [ R1 X + F k-2((1-R1 )X,(1-R2)Y) ] ]=
=P2 R2 Y + P2 P1R1X + P2P1 F k-2((1-R1)X,(1-R2)Y) .
Сравнивая оба выражения, получаем искомое уравнение граничной
линии при k>1:
P1 R1X + P1 P2 R2Y = P2 R2Y + P2 P1R1 X