ВУЗ: Не указан
Категория: Не указан
Дисциплина: Не указана
Добавлен: 17.07.2024
Просмотров: 1461
Скачиваний: 0
Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet – рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Пример 2.11. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый. Фасет специальность содержит названия специальностей.
Фасет образование содержит значения: среднее, среднее специальное, высшее.
Схема построения фасетной системы классификации в виде таблицы отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, ..., Фi, ..., Фn. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый.
Рис. 2.5. Фасетная система классификации
Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:
где Фi – i-й фасет;
п – количество фасетов.
При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.
Достоинства фасетной системы классификации:
§возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;
§возможность простой модификации всей системы классификации без изменения структуры
существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Пример 2.12. Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации.
Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные признаки по фасетам:
§фасет название факультета с пятью названиями факультетов;
§фасет возраст с тремя возрастными группами;
38
§фасет пол с двумя градациями;
§фасет дети с двумя градациями.
Структурную формулу любого класса можно представить в виде: Ks = (Факультет, Возраст, Пол, Дети)
Присваивая конкретные значения каждому фасету, получим следующие классы:
§К1 = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);
§К2 = (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);
§К3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.
Название факультета |
Возраст |
Пол |
Дети |
|
|
|
|
Радиотехнический |
До 20 лет |
М |
Есть |
Машиностроительный |
20 – 30 лет |
Ж |
Нет |
Коммерческий |
Свыше 30 лет |
|
|
Информационные системы |
|
|
|
Математический |
|
|
|
Рис. 2.6. Пример фасетной системы классификации для информационного объекта "Факультет"
Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
§отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
§выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
§создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Пример 2.13. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов.
В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
§синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
§родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
§ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример 2.14. Синонимическая связь: студент – учащийся – обучаемый. Родо- видовая связь: университет – факультет – кафедра. Ассоциативная связь: студент –
39
экзамен – профессор – аудитория.
СИСТЕМА КОДИРОВАНИЯ
Общие понятия
Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.
Система кодирования - совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
§длиной – число позиций в коде;
§структурой – порядок расположения в коде символов, используемых для обозначения
классификационного признака.
Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис.2.7), которые образуют:
§классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
§регистрационную систему кодирования, не требующую предварительной классификации объектов.
Рассмотрим представленную на рис. 2.7 систему кодирования.
Рис. 2.7. Система кодирования, использующая разные методы
Классификационное кодирование
Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.
Пример 2.15. Проведем кодирование информации, классифицированной с помощью иерархической схемы (см. рис. 2.4). Количество кодовых группировок будет определяться глубиной классификации и равно 4. Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления – 10 арабских цифр. Анализ схемы на рис. 2.4 показывает, что длина кода определяется 4 десятичными разрядами, а
кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где X – значение
40
десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:
1-й (старший) разряд выделен для классификационного признака "название факультета" и имеет следующие значения: 1 – коммерческий; 2 – информационные системы; 3 – для следующего названия факультета и т.д.; 2-й разряд выделен для классификационного признака "возраст" и имеет следующие
значения: 1 – до 20 лет; 2 – от 20 до 30 лет; 3 – свыше 30 лет; 3-й разряд выделен для классификационного признака "пол" и имеет следующие значения: 1 – мужчины; 2 – женщины; 4-й разряд выделен для классификационного признака "наличие детей у женщин" и имеет
следующие значения: 1 – есть дети; 2 – нет детей, 0 – для мужчин, так как подобной информации не требуется.
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
1310 – студенты коммерческого факультета, свыше 30 лет, мужчины; 2221 – студенты факультета информационных систем, от 20 до 30 лет, женщины, имеющие детей.
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.
Пример 2.16. Проведем кодирование информации, классифицированной с помощью фасетной схемы (см. рис. 2.6). Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном методе не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где X – значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:
1-й (старший) разряд выделен для фасета "пол" и имеет следующие значения: 1 -мужчины; 2 – женщины; 2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значения: 1
– есть дети; 2 – нет детей, 0 – для мужчин, так как подобной информации не требуется; 3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 – до 20 лет; 2 – от 20 до 30 лет; 3 – свыше 30 лет; 4-й разряд выделен для фасета "название факультета" и имеет следующие значения: 1 –
радиотехнический, 2 – машиностроительный, 3 – коммерческий; 4 – информационные системы; 5 – математический и т.д.
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
2135 – женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета; 1021 – мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.
Регистрационное кодирование
Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.
Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.
Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда
41