ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 24.12.2021

Просмотров: 1754

Скачиваний: 7

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.
background image

4 9 6 Глава 11. Организация памяти вычислительных систем

Рис. 11

.2.

 Классификация моделей архитектур памяти вычислительных систем

На рис. 11.2 приведена классификация таких моделей, применяемых в вычис-

лительных системах класса MIMD (верна и для класса SIMD).

Модели архитектур совместно

используемой памяти

В системах с общей памятью все процессоры имеют равные возможности по дос-

тупу к единому адресному пространству. Единая память может быть построена

как одноблочная или по модульному принципу, но обычно практикуется второй
вариант.

Вычислительные системы с общей памятью, где доступ любого процессора к па-

мяти производится единообразно и занимает одинаковое время, называют

 систе-

мами с однородным доступом к памяти

 и обозначают аббревиатурой UMA (Uniform

Memory Access). Это наиболее распространенная архитектура памяти параллель-
ных ВС с общей памятью [120].

Технически UMА-системы предполагают наличие узла, соединяющего каждый

из

 п

 процессоров с каждым из

 т

 модулей памяти. Простейший путь построения

таких ВС — объединение нескольких процессоров (P

i

) с единой памятью (M

p

) по-

средством общей шины — показан на рис. 11.3,

 а.

 В этом случае, однако, в каждый

момент времени обмен по шине может вести только один из процессоров, то есть

процессоры должны соперничать за доступ к шине. Когда процессор Р

i

, выбирает

из памяти команду, остальные процессоры

 P

j

 (i не равно j)

 должны ожидать, пока

шина освободится. Если в систему входят только два процессора, они в состоянии рабо-

тать с производительностью, близкой к максимальной, поскольку их доступ к шине


background image

Модели архитектуры памяти вычислительных систем  4 9 7

можно чередовать; пока один процессор декодирует и выполняет команду, другой
вправе использовать шину для выборки из памяти следующей команды. Однако
когда добавляется третий процессор, производительность начинает падать. При
наличии на шине десяти процессоров кривая быстродействия шины (рис. 11.3,

 в)

становится горизонтальной, так что добавление 11-го процессора уже не дает по-
вышения производительности. Нижняя кривая на этом рисунке иллюстрирует тот
факт, что память и шина обладают фиксированной пропускной способностью, оп-
ределяемой комбинацией длительности цикла памяти и протоколом шины, и в
многопроцессорной системе с общей шиной эта пропускная способность распре-

делена между несколькими процессорами. Если длительность цикла процессора

больше по сравнению с циклом памяти, к шине можно подключать много процес-
соров. Однако фактически процессор обычно намного быстрее памяти, поэтому

данная схема широкого применения не находит.

б

 г

Рис.  1 1 . 3 . Общая память:

 а —

 объединение процессоров с помощью шины; б — система

с локальными кэшами;

 в —

 производительность системы как функция от числа процессоров

на Шине; г — многопроцессорная ВС с общей памятью, состоящей из отдельных модулей

Альтернативный способ построения многопроцессорной ВС,с общей памятью

на основе UMA показан на рис. 11.3,

 г.

 Здесь шина заменена коммутатором, марш-

рутизирующим запросы процессора к одному из нескольких модулей памяти.

Несмотря на то что имеется несколько модулей памяти, все они входят в единое

виртуальное адресное пространство. Преимущество такого подхода в том, что ком-
мутатор в состоянии параллельно обслуживать несколько запросов. Каждый про-
цессор может быть соединен со своим модулем памяти и иметь доступ к нему на
максимально допустимой скорости. Соперничество между процессорами может
возникнуть при попытке одновременного доступа к одному и тому же модулю па-
мяти, В этом случае доступ получает только один процессор, а прочие — блокиру-
ются.

К сожалению, архитектура UMA не очень хорошо масштабируется. Наиболее

распространенные системы содержат 4-8 процессоров, значительно реже

32-64 процессора. Кроме того, подобные системы нельзя отнести к отказоустой-
чивым, так как отказ одного процессора или модуля памяти влечет отказ всей ВС.


background image

4 9 8 Глава 11. Организация памяти вычислительных систем

Другим подходом к построению ВС с общей памятью является

 неоднородный

доступ к памяти,

 обозначаемый как NUMA (Non-Uniform Memory Access). Здесь

по-прежнему фигурирует единое адресное пространство, но каждый процессор
имеет локальную память. Доступ процессора к собственной Локальной памяти
производится напрямую, что намного быстрее, чем доступ к удаленной памяти через
коммутатор или сеть. Такая система может быть дополнена глобальной памятью,
тогда локальные запоминающие устройства играют роль быстрой кэш-памяти для
глобальной памяти. Подобная схема может улучшить производительность ВС, но
не в состоянии неограниченно отсрочить выравнивание прямой производитель-

ности. При наличии у каждого процессора локальной кэш-памяти (рис. 11.3,6)

существует высокая вероятность (р > 0,9) того, что нужные команда или данные
уже находятся в локальной памяти. Разумная вероятность попадания в локаль-
ную память существенно уменьшает число обращений процессора к глобальной

памяти и, таким образом, ведет к повышению эффективности. Место излома кри-

вой производительности (верхняя кривая на рис. 11.3,

 в),

 соответствующее точке,

в которой добавление процессоров еще остается эффективным, теперь перемеща-

ется в область 20 процессоров, а точка, где кривая становится горизонтальной, -
в область 30 процессоров.

В рамках концепции

 NUMA

 реализуется несколько различных подходов, обо-

значаемых аббревиатурами

 СОМА, CC-NUMA

 и

 NCC-NUMA.

В

 архитектуре только с кэш-памятью

 (СОМА, Cache Only Memory Archi-

tecture) локальная память каждого процессора построена как большая кэш-память

для быстрого доступа со стороны «своего» процессора [44]. Кэши всех процессо-

ров в совокупности рассматриваются как глобальная память системы. Собственно
глобальная память отсутствует. Принципиальная особенность концепции СОМА
выражается в динамике. Здесь данные не привязаны статически к определенному

модулю памяти и не имеют уникального адреса, остающегося неизменным в тече-

ние всего времени существования переменной. В архитектуре СОМА данные пе-

реносятся в кэш-память того процессора, который последним их запросил, при этом

переменная не фиксирована уникальным адресом и в каждый момент времени
может размещаться в любой физической ячейке. Перенос данных из одного ло-

кального кэша в другой не требует участия в этом процессе операционной систе-
мы, но подразумевает сложную и дорогостоящую аппаратуру управления памя-
тью. Для организации такого режима используют так называемые

 каталоги кэшей.

Отметим также, что последняя копия элемента данных никогда из кэш-памяти не

удаляется.

Поскольку в архитектуре СОМА данные перемещаются в локальную кэш-па-

мять процессора-владельца, такие ВС в плане производительности обладают су-

щественным преимуществом над другими архитектурами NUMА. С другой сторо-

ны, если единственная переменная или две различные переменные, хранящиеся
в одной строке одного и того же кэша, требуются двум процессорам, эта строка
кэша должна перемещаться между процессорами туда и обратно при каждом дос-
тупе к данным. Такие эффекты могут зависеть от деталей распределения памяти
и приводить к непредсказуемым ситуациям.

Модель

 кэш-когерентного доступа к неоднородной памяти

 (CC-NUMA, Cache

Coherent Non-Uniform Memory Architecture) принципиально отличается от модели


background image

Модели архитектуры памяти вычислительных систем  4 9 9

СОМА. В системе CC-NUMA используется не кэш-память, а обычная физически
распределенная память. Не происходит никакого копирования страниц или дан-
ных между ячейками памяти. Нет никакой программно реализованной передачи

сообщений. Существует просто одна карта памяти, с частями, физически связан-

ными медным кабелем, и «умные» аппаратные средства. Аппаратно реализован-

ная кэш-когерентность означает, что не требуется какого-либо программного обес-

печения для сохранения множества копий обновленных данных или их передачи.
Со всем этим справляется аппаратный уровень. Доступ к локальным Модулям па-
мяти в разных узлах системы может производиться одновременно и происходит

быстрее, чем к удаленным модулям памяти.

Отличие модели с

 кэш-некогерентным доступом к неоднородной памяти

 (NCC-

NUMA, Non-Cache Coherent Non-Uniform Memory Architecture) от CC-NUMA
очевидно из названия. Архитектура памяти предполагает единое адресное простран-
ство, но не обеспечивает согласованности глобальных данных на аппаратном уровне.

Управление использованием таких данных полностью возлагается на программное

обеспечение (приложения или компиляторы). Несмотря на это обстоятельство, пред-
ставляющееся недостатком архитектуры, она оказывается весьма полезной при по-

вышении производительности вычислительных систем с архитектурой памяти типа
DSM, рассматриваемой в разделе «Модели архитектур распределенной памяти».

В целом, ВС с общей памятью, построенные по схеме NUMA, называют

 архи-

тектурами с виртуалъной общей памятью

 (virtual shared memory architectures).

Данный вид архитектуры, в частности CC-NUMA, в последнее время рассматри-

вается как самостоятельный и довольно перспективный вид вычислительных сис-

тем класса MIMD, поэтому такие ВС ниже будут обсуждены более подробно.

Модели архитектур распределенной памяти

В системе с распределенной памятью каждый процессор обладает собственной
памятью и способен адресоваться только к ней. Некоторые авторы называют этот
тип систем

 многомашинными ВС или мульткомпьютерами,

 подчеркивая тот факт,

что блоки, из которых строится система, сами по себе являются небольшими вы-
числительными системами с процессором и памятью. Модели архитектур с рас-
пределенной памятью принято обозначать как

 архитектуры без прямого доступа

к удаленной памяти

 (NORMA, No Remote Memory Access). Такое название следу-

ет из того факта, что каждый процессор имеет доступ только к своей локальной
памяти. Доступ к удаленной памяти (локальной памяти другого процессора) воз-
можен только путем обмена сообщениями с процессором, которому принадлежит

адресуемая память.

Подобная организация характеризуется рядом достоинств. Во-первых, при до-

ступе к данным не возникает конкуренции за шину или коммутаторы — каждый

процессор может полностью использовать полосу пропускания тракта связи с соб-

ственной локальной памятью. Во-вторых, отсутствие общей шины означает, что

нет и связанных с этим ограничений на число процессоров: размер системы огра-
ничивает только сеть, объединяющая процессоры. В-третьих, снимается проблема

когерентности кэш-памяти. Каждый процессор вправе самостоятельно менять свои

данные, не заботясь о согласовании копий данных в собственной локальной кэш-

памяти с кэшами других процессоров.


background image

5 0 0 Глава 11. Организация памяти вычислительных систем

Основной недостаток ВС с распределенной памятью заключается в сложности

обмена информацией между процессорами. Если какой-то из процессоров нужда-
ется в данных из памяти другого процессора, он должен обменяться с этим процес-
сором сообщениями. Это приводит к двум видам издержек:

- требуется время для того, чтобы сформировать и переслать сообщение от одного

процессора к другому;

- для обеспечения реакции на сообщения от других процессоров принимающий

процессор должен получить запрос прерывания и выполнить процедуру обра-
ботки этого прерывания.

Структура системы с распределенной памятью приведена на рис. 11.4. В левой

части (рис. 11.4, а) показан один процессорный элемент (ПЭ). Он включает в себя
собственно процессор (Р), локальную память (М) и два контроллера ввода/вывода

о

 и Ki), В правой части (рис. 11.4,

 б)

 показана четырехпроцессорная система, ил-

люстрирующая, каким образом сообщения пересылаются от одного процессора

к другому. По отношению к каждому ПЭ все остальные процессорные элементы
можно рассматривать просто как устройства ввода/вывода. Для посылки сообще-
ния в другой ПЭ процессор формирует блок данных в своей локальной памяти
и извещает свой локальный контроллер о необходимости передачи информации
на внешнее устройство. По сети межсоединений это сообщение пересылается на
приемный контроллер ввода/вывода принимающего ПЭ. Последний находит место

для сообщения в собственной локальной памяти и уведомляет процессор-источ-

ник о получении сообщения.

а б

Рис, 11 .4. Вычислительная система с распределенной памятью:

 а

 — процессорный элемент;

б —

 объединение процессорных элементов

Интересный вариант системы с распределенной памятью представляет собой

модель

 распределенной совместно используемой памяти

 (DSM, Distribute Shared

Memory), известной также и под другим названием

 архитектуры с неоднородным

доступом к памяти и программным обеспечением когерентности

 (SC-NUMA, Soft-

ware-Coherent Non-Uniform Memory Architecture). Идея этой модели состоит в том,
что ВС, физически будучи системой с распределенной памятью, благодаря опера-
ционной системе представляется пользователю как система с общей памятью. Это
означает, что операционная система предлагает пользователю единое адресное
пространство, несмотря на то что фактическое обращение к памяти "чужого" ком-
пьютера ВС по-прежнему обеспечивается путем обмена сообщениями.


Смотрите также файлы