Файл: Лекция 10-11. Системы управления данными. Примеры ФС.doc

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 16.06.2021

Просмотров: 609

Скачиваний: 3

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.

С увеличением дисков, этого стало не хватать, стали увеличивать размер блоков 1,2 и 4 Кбайта (2^12) (при этом эффективность использования диска падает).

FAT-12 до сих пор применяется для гибких дисков.


11.2.2 FAT-16

Особенности:

  • 16-разрядные дисковые указатели

  • Размеры кластеров 512, 1, 2, 4, 8, 16 и 32Кбайт (2^15)

Таблица постоянно занимала в памяти 128 Кбайт.

Максимальный размер раздела диска мог достигать 2Гбайта (2^16*32Кбайта).

Причем кластер в 32 Кбайта для файлов со средним размером в 1Кбайт, не эффективен.

11.2.3 FAT-32

Особенности:

  • 28-разрядные адреса

  • Размеры кластеров 512, 1, 2, 4, 8, 16 и 32Кбайт

Максимальный размер раздела диска мог бы достигать 2^28*2^15, но здесь уже вступает другое ограничение - 512 байтные сектора адресуются 32-разрядным числом, а это 2^32*2^9, т.е. 2 Тбайта.

Максимальный размер раздела для различных размеров кластеров


Размер кластера, Кбайт

Fat-12, Мбайт

Fat-16, Мбайт

Fat-32, Тбайт

0.5

2

32

0.13

1

4

64

0.27

2

8

128

0.54

4

16

256

1

8


512

2

16


1024

2

32


2048

2


Из таблицы видно, что FAT-16 использовать не эффективно уже при разделах в 256 Мбайт, учитывая, что средний размер файла 1Кбайт.


11.2.4 Расширение Windows 98 для FAT-32

Для расширения были задействованы 10 свободных бит.



Формат каталоговой записи в системе FAT-32 с расширениями для Windows 98

Пять добавленных полей:

  1. NT - предназначено для совместимости с Windows.

  2. Sec - дополнение к старому полю время, позволяет хранить время с точностью до секунды (было 2 секунды)

  3. Дата и время создания файла (Creation time)

  4. Дата (но не время) последнего доступа (Last access)

  5. Для хранения номера блока выделено еще 2 байта (16 бит), т.к. номера блоков стали 32-разрядные.

Основная надстройка над FAT-32, это длинные имена файлов.

Для каждого файла стали присваивать два имени:

  1. Короткое 8+3 для совместимости с MS-DOS

  2. Длинное имя файла, в формате Unicode

Доступ к файлу может быть получен по любому имени.

Если файлу дано длинное имя (или используются пробелы), то система делает следующие шаги:

  • берет первые шесть символов

  • преобразуются в верхний регистр ASCII, удаляются пробелы, лишние точки, некоторые символы преобразуются в "_"

  • добавляется суффикс ~1

  • если такое имя есть, то используется суффикс ~2 и т.д.

Короткие имена хранятся в в обычном дескрипторе файла.

Длинные имена хранятся в дополнительных каталоговых записях, идущих перед основным описателем файла. Каждая такая запись содержит 13 символов формата Unicode (для символа Unicode нужно два байта).



Формат каталогов записи с фрагментом длинного имени файла в Windows 98


Поле "Атрибуты" позволяет отличить фрагмент длинного имени (значение 0х0F) от дескриптора файла. Старые программы MS-DOS каталоговые записи со значением поля атрибутов 0х0F, просто игнорируют.


Последовательность - порядковый номер в последовательности фрагментов.

Длина имени файла ограничена 260 символами не из-за порядкового номера (1 байт), для номера используются только 6 бит 6х13=819 символов.

Контрольная сумма нужна для выявления ошибок, т.к. файл с длинным именем может удалить MS-DOS и создать новый, и тогда останутся не удаленные записи, которые "прилипнут" к новому файлу. Т.к. это поле один байт, есть вероятность 1/256 что Windows 98 не заметит подмены.


11.3 Файловая система NTFS

Файловая система NTFS была разработана для Windows NT.

Особенности:

  • 64-разрядные адреса, т.е. теоретически может поддерживать 264*216 байт (1 208 925 819 Mбайт~1Tбайт(280)).

  • Размеры блока (кластера) от 512байт до 64 Кбайт, для большинства используется 4Кбайта.

  • Поддержка больших файлов.

  • Имена файлов ограничены 255 символами Unicode.

  • Длина пути ограничивается 32 767 (215) символами Unicode.

  • Имена чувствительны к регистру, my.txt и MY.TXT это разные файлы (но из-за Win32 API использовать нельзя), это заложено на будущее.

  • Журналируемая файловая система, т.е. не попадет в противоречивое состояние после сбоев.

  • Контроль доступа к файлам и каталогам.

  • Поддержка жестких и символических ссылок.

  • Поддержка сжатия и шифрования файлов.

  • Поддержка дисковых квот.

Главная файловая таблица MFT (Master File Table) - главная структура данных в каждом томе, записи фиксированные по 1Кбайту. Каждая запись описывает один каталог или файл. Для больших файлов могут использоваться несколько записей, первая запись называется - базовой записью.

MFT представляет собой обычный файл (размером до 248 записей), который может располагаться в любом месте на диске.


Главная файловая таблица MFT, каждая запись ссылается на файл или каталог.


Первые 16 записей MFT зарезервированы для файлов метаданных. Каждая запись описывает нормальный файл, имена этих файлов начинаются с символа "$".

Каждая запись представляет собой последовательность пар (заголовок атрибута, значение).

Некоторые записи метаданных в MFT:

0) Первая запись описывает сам файл MFT, и содержит все блоки файла MFT. Номер первого блока файла MFT содержится в загрузочном блоке.

1) Дубликат файла MFT, резервная копия.

2) Журнал для восстановления, например, перед созданием, удалением каталога делается запись в журнал. Система не попадет в противоречивое состояние после сбоев.

3) Информация о томе (размер, метка и версия)

4) Определяются атрибуты для MFT записей.

6) Битовый массив использованных блоков - для учета свободного места на диске

7) Указывает на файл начальной загрузки

Атрибуты, используемые в записях MFT:

  • Стандартная информация - флаговые биты (только чтение, архивный), временные штампы и т.д.

  • Имя файла - имя файла в кодировке Unicode, файлы могут повторятся в формате MS-DOS 8+3.

  • Список атрибутов - расположение дополнительных записей MFT

  • Идентификатор объекта - 64-разрядный идентификатор файла, уникальный для данного тома.

  • Точка повторного анализа - используется для символьных ссылок и монтирования устройств.

  • Название тома

  • Версия тома

  • Корневой индекс - используется для каталогов

  • Размещение индекса - используется для очень больших каталогов

  • Битовый массив - используется для очень больших каталогов

  • Поток данных утилиты регистрации - используется для шифрования

  • Данные - поточные данные, может повторяться, используется для хранения самого файла. За заголовком следует список дисковых адресов, определяющий положение файла на диске, если файл очень маленький (несколько сотен байт), то следует сам файл (такой файл называется - непосредственный файл).


Как привило, все данные файла не помещаются в запись MFT.

Дисковые блоки файлам назначаются по возможности в виде серий последовательных блоков (сегментов файлов). В идеале файл должен быть записан в одну серию (не фрагментированный файл), файл, состоящий из n блоков, может быть записан от 1 до n серий.



Запись MFT для 9-блочного файла, состоящего из трех сегментов (серий).
Вся запись помещается в одну запись MFT (файл не сильно фрагментирован).

Заголовок содержит количество блоков (9 блоков).

Каждая серия записывается в виде пары, дисковый адрес - количество блоков (20-4, 64-2, 80-3).

Каждая пара, при отсутствие сжатия, это два 64-разрядные числа (16 байт на пару).

Многие адреса содержат большое количество нулей, сжатие делается за счет убирания нулей в старших байтах. В результате для пары требуется чаще всего 4байта.

Если файл сильно фрагментирован, требуется несколько записей MFT.



Три записи MFT для сильно фрагментированного файла. В первой записи указывается индексы на дополнительные записи.


Может потребоваться очень много индексов MFT, так что индексы не поместятся в запись. В этом случае список хранится не в MFT, а в файле.



Запись MFT для небольшого каталога

Поиск файла в каталоге по имени состоит в последовательном переборе имен файлов.

Для больших каталогов используется другой формат. Используется дерево В+, обеспечивающее поиск в алфавитном порядке.


11.3.1 Поиск файла по имени

При создании файла, программа обращается к библиотечной процедуре

CreateFile("C:\windows\readmy.txt", ...)

Этот вызов попадает в совместно используемую библиотеку уровня пользователя kernel32.dll, где \??\ помещается перед именем файла, и получается строка:

\??\C:\windows\readmy.txt

Это имя пути передается системному вызову NtFileCreate в качестве параметра.



Этапы поиска файла C:\windows\readmy.txt


11.3.2 Сжатие файлов

Если файл помечен как сжатый, то система автоматически сжимает при записи, а при чтении происходит декомпрессия.

Алгоритм работы:

  1. Берутся для изучения первые 16 блоков файла (не зависимо от сегментов файла).

  2. При меняется к ним алгоритм сжатия.

  3. Если полученные данные можно записать хотя бы в 15 блоков, они записываются в сжатом виде.
    Если их можно записать только в 16 блоков, то они записываются в несжатом виде.

  4. Алгоритм повторяется для следующих 16 блоков.



Пример 48-блочного файла, сжатого до 32 блоков



Запись MFT для предыдущего файла.

Недостатки сжатия:

  • Как видно из рисунка, сжатие приводит к сильной фрагментации.

  • Чтобы прочитать сжатый блок системе придется распаковать весь сегмент. Поэтому сжатие применяют к 16 блокам, если увеличить количество блоков, уменьшится производительность (но возрастет эффективность сжатия).


11.3.3 Шифрование файлов

Любую информацию, если она не зашифрована, можно прочитать, получив доступ. Поэтому самая надежная защита информации от несанкционированного доступа - шифрование.


Даже если у вас украдут винчестер, прочесть данные не смогут (большинство не сможет).

Если файл помечен как шифрованный, то система автоматически шифрует при записи, а при чтении происходит дешифрация.

Шифрование и дешифрование выполняет не сама NTFS, а специальный драйвер EFS (Encrypting File System).

Каждый блок шифруется отдельно.

В Windows 2000 используется случайно сгенерированный 128-разрядный ключ для каждого файла. Этот ключ шифруется открытым ключом пользователя и сохраняется на диске.



Шифрование файлов в NTFS



11.4 Файловая система UNIX V7

Хотя это старая файловая система основные элементы используются и современных UNIX системах.

Особенности:

  • Имена файлов ограничены 14 символами ASCII, кроме косой черты "/" и NUL - отсутствие символа. (в последующих версиях расширены до 255)

  • Поддержка ссылок.

  • Контроль доступа к файлам и каталогам.

  • Имена чувствительны к регистру, my.txt и MY.TXT это разные файлы.

  • Используется схема i-узлов.

  • Не делается различий между разными файлами (текстовыми, двоичными и д.р.).

  • Поддерживаются символьные специальные файлы (для символьных устройств ввода-вывода).
    - Если открыть файл /dev/lp и записать в него данные, то данные будут распечатаны на принтере.
    - Если открыть файл /dev/tty и прочитать из него данные, то получим данные, введенные с клавиатуры.

  • Поддерживаются блочные специальные файлы (для блочных устройств ввода-вывода, например /dev/hd1).

  • Позволяет монтировать разделы в любое место дерева системы.


Расположение файловой системы UNIX


Суперблок содержит:

  • Количество i-узлов

  • Количество дисковых блоков

  • Начало списка свободных блоков диска

При уничтожении суперблока, файловая система становится не читаемой.

Каждый i-узел имеет 64 байта в длину и описывает один файл (в том числе каталог).

Каталог содержит по одной записи для каждого файла.



Каталоговая запись UNIX V7 в 16 байт

Структура i-узела


Поле

Байты

Описание

Mode

2

Тип файла, биты защиты, биты setuid и setgid

Nlinks

2

Количество каталоговых записей, указывающий на этот i-узел

Uid

2

Идентификатор владельца

Gid

2

Номер группы

Size

4

Размер файла в байтах

Addr

39

Адрес первых 10 дисковых блоков файла и 3 косвенных блока

Gen

1

Счетчик использования i-узла

Atime

4

Время последнего доступа файла

Mtime

4

Время последнего изменения файла

Ctime

4

Время последнего изменения i-узла


Первые 10 дисковых блоков файла хранятся в самом i-узле, при блоке в 1Кбайт, файл может быть 10Кбайт.

Дополнительные блоки для i-узла, в случае больших файлов:

  • Одинарный косвенный блок - дополнительный блок с адресами блоков файла, если файл не сильно большой, то один из адресов в i-узле указывает на дополнительный блок с адресами. Файл может быть 266Кбайт=10Кбайт+256Кбайт (256Кбайт <= 256 (2^8)-адресов блоков = 1Кбайт-размер блока / 4байта-размер адреса)

  • Двойной косвенный блок - дополнительный блок с адресами одинарных косвенных блоков, если одного дополнительного блока не хватает. Файл может быть 65Мбайт=10Кбайт+28Кбайт+216Кбайт.

  • Тройной косвенный блок - дополнительный блок с адресами двойных косвенных блоков, если одного одинарного косвенного блока не хватает. Файл может быть 16Гбайт=10Кбайт+28Кбайт+216Кбайт+224Кбайт.



i-узел UNIX V7


11.4.1 Поиск файла



Этапы поиска файла по абсолютному пути /usr/sbin/mc

При использовании относительного пути, например sbin/mc, поиск начинается с рабочего каталога /usr.


11.4.2 Блокировка данных файла

Блокирование осуществляется по блочно.

Стандартом POSIX два типа блокировки:

  • Блокировка с монополизацией - больше ни один процесс эти блоки заблокировать не может.

  • Блокировка без монополизации - могут блокировать и другие процессы.



Блокировки данных файла без монополизации


Если процесс К попытается блокировать блок 6 с монополизацией, то сам процесс будет заблокирован до разблокирования блока 6 всеми процессами.



11.4.3 Создание и работа с файлом

fd=creat("abc", mode) - Пример создания файла abc с режимом защиты, указанном в переменной mode (какие пользователи имеют доступ). Используется системный вызов creat.

Успешный вызов возвращает целое число fd - дескриптор файла.

Который хранится в таблице дескрипторов файла, открывшего процесса.

После этого можно работать с файлом, используя системные вызовы write и read.

n=read(fd, buffer, nbytes)

n=write(fd, buffer, nbytes)

У обоих вызовов всего по три параметра:

  • fd - дескриптор файла, указывающий на открытый файл

  • buffer - адрес буфера, куда писать или откуда читать данные

  • nbytes - счетчик байтов, сколько прочитать или записать байт

Теперь нужно по дескриптору получить указатель на i-узел и указатель на позицию в файле для записи или чтения.

Таблица открытых файлов - создана для хранения указателей на i-узел и на позицию в файле. И позволяет родительскому и дочернему процессам совместно использовать один указатель в файле, но для посторонних процессов выделять отдельные указатели.


Связь между таблицей дескрипторов файлов, таблицей открытых файлов и таблицей i-узлов.


11.5 Файловая система BSD

Основу составляет классическая файловая система UNIX.

Особенности (отличие от предыдущей системы):

  • Увеличена длина имени файла до 255 символов

  • Реорганизованы каталоги

  • Было добавлено кэширование имен файлов, для увеличения производительности.

  • Применено разбиение диска на группы цилиндров, чтобы i-узлы и блоки данных были поближе друг к другу, для каждой группы были свои:

- суперблок

- i-узлы

- блоки данных.

Это сделано для уменьшения перемещений головок.

  • Используются блоки двух размеров, для больших файлов использовались большие блоки, для маленьких маленькие.

Каталоговые записи ни как не отсортированы и следуют друг за другом.



Каталог BSD с тремя каталоговыми записями для трех файлов и тот же каталог после удаления файла zip, увеличивается длина первой записи.

11.6 Файловые системы LINUX

Изначально использовалась файловая система MINIX с ограничениями: 14 символов для имени файла и размер файла 64 Мбайта.

После была создана файловая система EXT с расширением: 255 символов для имени файла и размер файла 2Гбайта.