1 ТЕМА 5. Стадии проектирования и реализации ИС. Лекция 19. Системы классификации и кодирования технико-экономической информации.
2 Основные понятия классификации. Классификация это разделение множества объектов на подмножества по их сходству или различию. Классификация это разделение множества объектов на подмножества по их сходству или различию. Объект в ЭИС – справочные реквизиты-признаки, наименования показателей и документов, наименования компонентов проекта (задач, подсистем, программных модулей). Объект в ЭИС – справочные реквизиты-признаки, наименования показателей и документов, наименования компонентов проекта (задач, подсистем, программных модулей). – обеспечить однозначное и легко определимое место для каждого из классифицируемых объектов. Цель классификации – обеспечить однозначное и легко определимое место для каждого из классифицируемых объектов. Система (метод) классификации – совокупность правил распределения объектов множества на подмножества. Система (метод) классификации – совокупность правил распределения объектов множества на подмножества.
3 Основные понятия классификации. Признак классификации – свойство объекта, позволяющее установить его сходство или различие с другими объектами. Признак классификации – свойство объекта, позволяющее установить его сходство или различие с другими объектами. Классификационные группировки – подмножества, полученные в результате разделения исходного множества объектов по одному или нескольким признакам классификации. Классификационные группировки – подмножества, полученные в результате разделения исходного множества объектов по одному или нескольким признакам классификации. Основание классификации – признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Основание классификации – признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Ступень (уровень) классификации – этап разделения заданного множества на подмножества. Ступень (уровень) классификации – этап разделения заданного множества на подмножества. Глубина классификации – число ступеней классификации. Глубина классификации – число ступеней классификации.
4
Требования к системам классификации Иметь достаточную емкость и полноту, которые охватывают объекты предметной области; Иметь достаточную емкость и полноту, которые охватывают объекты предметной области; Иметь достаточную глубину классификации; Иметь достаточную глубину классификации; Должны обеспечить решение различных задач; Должны обеспечить решение различных задач; Должны обеспечить возможность сопряжения с другими классификациями однородных объектов. Должны обеспечить возможность сопряжения с другими классификациями однородных объектов. 5
6 Кластеризация Кластеризация – разбиение совокупности объектов на однородные группы (кластеры). Кластеризация – разбиение совокупности объектов на однородные группы (кластеры). Кластер (cluster – «скопление», «гроздь») – группа объектов, имеющих общие свойства. Кластер (cluster – «скопление», «гроздь») – группа объектов, имеющих общие свойства. Характеристики кластера – внутренняя однородность и внешняя изолированность. Характеристики кластера – внутренняя однородность и внешняя изолированность. Задача кластеризации сводится к определению "сгущений точек". Задача кластеризации сводится к определению "сгущений точек". Цель кластеризации – поиск существующих структур. Цель кластеризации – поиск существующих структур.
7 Классификация и кластеризация
8 Классификация документов по технологии их обработки
9 ИЭ j (d 1, d 2,..., d k ) D i Эталонные объекты
10 Типы систем классификации Системы классификации Иерархическая Многоаспектная Фасетная Дескрипторная
11 Иерархический метод классификации Иерархический метод классификации заключается в последовательном делении заданного множества на подчиненные множества, каждое из которых в свою очередь делится на подчиненные ему подмножества.
12 Пример иерархической классификации
13 Пример иерархической классификации
14 Свойства иерархической системы классификации Ёмкость зависит от глубины классификации и количества объектов классификации, которое можно расположить на каждой ступени. Ёмкость зависит от глубины классификации и количества объектов классификации, которое можно расположить на каждой ступени. Количество объектов на каждой ступени классификации определяется основанием кода (числом знаков в алфавите кода). Количество объектов на каждой ступени классификации определяется основанием кода (числом знаков в алфавите кода). Выбор необходимой глубины классификации и структуры кода зависит от характера объектов классификации и характера задач, для решения которых предназначен классификатор. Выбор необходимой глубины классификации и структуры кода зависит от характера объектов классификации и характера задач, для решения которых предназначен классификатор.
15 Порядок построения иерархической схемы классификации 1. Выделение некоторого множества объектов, подлежащих классификации. 2. Определение полного множества признаков классификации и их соподчиненности друг другу. 3. Разбиение исходного множества объектов на классификационные группировки на каждой ступени классификации в соответствии с признаком.
16 Иерархическая схема классификации Достоинства Недостатки Логичность Жесткость классификационной схемы Простота построения Неограниченная емкость Слабая заполненность структуры классификатора Удобство логической и арифметической обработки Иерархический метод классификации более предпочтителен для объектов с относительно стабильными признаками и для решения стабильного комплекса задач.
17 Требования к иерархической системе классификации непересекаемость классификационных группировок, расположенных на одной ступени классификации; непересекаемость классификационных группировок, расположенных на одной ступени классификации; использование только одного признака для разделения любой классификационной группировки на подчиненные группировки; использование только одного признака для разделения любой классификационной группировки на подчиненные группировки; логичность и последовательность деления группировок на нижестоящие; логичность и последовательность деления группировок на нижестоящие; полнота деления группировок – сумма подмножеств всегда должна давать исходное множество объектов. полнота деления группировок – сумма подмножеств всегда должна давать исходное множество объектов.
18 Пример неправильной иерархической классификации
19 Многоаспектные системы классификации Многоаспектная система это система классификации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Многоаспектная система это система классификации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Аспект точка зрения на объект классификации, который характеризуется одним или несколькими признаками. Аспект точка зрения на объект классификации, который характеризуется одним или несколькими признаками.
20 Фасетный метод классификации Фасет – аспект классификации, использующийся для образования независимых классификационных группировок. Фасетный метод заключается в параллельном разделении заданного множества объектов на независимые группировки по различным признакам классификации.
21 Порядок построения фасетной схемы классификации 1. Выделение некоторого множества объектов, подлежащего классификации в соответствии с решаемой задачей. 2. Выделение значимых признаков объектов. 3. Разработка системы таблиц признаков объектов классификации (фасетов).
22 Пример фасетной классификации Тип ЖанрСтрана Премия Документальный БоевикРоссия«Оскар» Игровой КомедияСША «Золотая пальмовая ветвь» Анимация МелодрамаФранция «Золотой лев» …Триллер Япония… Фасеты Значения фасетов Описание объекта методом фасетной классификации
23 Фасетная схема классификации Достоинства Недостатки Гибкость классификационной схемы Сложность структуры Простота заполнения структуры Слабая заполненность структуры классификатора Фасетная схема классификации предпочтительна для объектов с часто меняющимся набором признаков для решения нетривиальных задач.
24 Требования к фасетной системе классификации Непересекаемость фасетов (состав значений одного фасета не должен повторяться в других фасетах этого же классификатора); Непересекаемость фасетов (состав значений одного фасета не должен повторяться в других фасетах этого же классификатора); включение в состав классификатора только таких фасетов и значений в них, которые необходимы для решения конкретных задач. включение в состав классификатора только таких фасетов и значений в них, которые необходимы для решения конкретных задач.
25 Дескрипторная система классификации. Дескриптор это термин естественного языка (слово или словосочетание), используемый при описании документов или показателей, который имеет самостоятельный смысл и неделим без изменения своего значения. Дескриптор это термин естественного языка (слово или словосочетание), используемый при описании документов или показателей, который имеет самостоятельный смысл и неделим без изменения своего значения. Дескрипторная система классификации представляет собой совокупность терминов (дескрипторов) и набор отношений между ними. Дескрипторная система классификации представляет собой совокупность терминов (дескрипторов) и набор отношений между ними. Из дескрипторов для каждого документа, хранящегося в системе, составляется его поисковый образ. Из дескрипторов для каждого документа, хранящегося в системе, составляется его поисковый образ.
Виды отношений между терминами Родовидовые отношения Родовидовые отношения родовое понятие – существенные признаки класса предметов, в состав которого входят предметы, являющиеся видами этого рода; родовое понятие – существенные признаки класса предметов, в состав которого входят предметы, являющиеся видами этого рода; видовое понятие выражает существенные признаки подкласса предметов, являющегося видом какого-либо другого класса предметов и входящего в состав этого класса. видовое понятие выражает существенные признаки подкласса предметов, являющегося видом какого-либо другого класса предметов и входящего в состав этого класса. Отношения синонимии Отношения синонимии Отношения омонимии Отношения омонимии Ассоциативные отношения Ассоциативные отношения Все выделенные отношения описываются в систематическом словаре понятий тезаурусе. Все выделенные отношения описываются в систематическом словаре понятий тезаурусе. 26
27 Кодирование Кодирование – это процесс образования и присвоения условных обозначений объектам классификации и классификационным группировкам. Кодирование – это процесс образования и присвоения условных обозначений объектам классификации и классификационным группировкам. Система кодирования это совокупность правил обозначения объектов и группировок с использованием кодов. Система кодирования это совокупность правил обозначения объектов и группировок с использованием кодов. Код – это условное обозначение объекта в соответствии с принятой системой. Код – это условное обозначение объекта в соответствии с принятой системой.
28 Цели кодирования Основная цель кодирования – однозначное обозначение объектов, обеспечение необходимой достоверности кодируемой информации. минимизация объема обрабатываемой информации при ее вводе и передаче по каналам связи; минимизация объема обрабатываемой информации при ее вводе и передаче по каналам связи; сортировка и поиск информации по ключевым признакам; сортировка и поиск информации по ключевым признакам; разработка сводных экономических отчетов по различным признакам; разработка сводных экономических отчетов по различным признакам; декодирование при переходе от кодов-признаков к их наименованиям при печати сводных экономических отчетов. декодирование при переходе от кодов-признаков к их наименованиям при печати сводных экономических отчетов.
29 Задачи кодирования 1. Приведение к единообразию в обозначениях признаков, характеристик и объектов. 2.Упорядочение, классификация и группировка всех номенклатур по определенным сходным признакам. 3. Выбор системы кодирования и присвоения кодов. 4. Приведение информации к форме, удобной для обработки с помощью технических средств.
30 Параметры кода Параметр Определение Длина кода Количество знаков (разрядов) в кодовом обозначении. Основание кода Количество знаков в алфавите кода Структура кода Распределение знаков по признакам и объектам классификации Степень информативности Отношение общего количества признаков к длине кода Коэффициент избыточности Отношение фактического количества объектов к максимально возможному количеству объектов.
31 Требования к кодам Коды должны: охватывать все объекты, подлежащие кодированию и давать им однозначное обозначение; охватывать все объекты, подлежащие кодированию и давать им однозначное обозначение; учитывать перспективы развития системы и расширение списка кодируемых объектов; учитывать перспективы развития системы и расширение списка кодируемых объектов; обладать максимальной информативностью при минимизации длины кода; обладать максимальной информативностью при минимизации длины кода; отличаться логичностью формирования, удобством восприятия и запоминания; отличаться логичностью формирования, удобством восприятия и запоминания; быть едиными для разных задач внутри одного экономического объекта; быть едиными для разных задач внутри одного экономического объекта; учитывать существующие системы кодирования и общепринятые обозначения во взаимодействующих ЭИС. учитывать существующие системы кодирования и общепринятые обозначения во взаимодействующих ЭИС.
32 Выбор метода кодирования зависит от количества выделяемых признаков в номенклатуре, числа позиций в каждом признаке и степени устойчивости номенклатуры. Методы кодирования Регистрационные Порядковый Серийно- порядковый Классифика- ционные Последовательный Параллельный (позиционный)
33 Порядковый метод кодирования Порядковый метод – простейший метод кодирования, при котором кодовыми обозначениями служат числа натурального ряда. Всем позициям в номенклатуре присваиваются порядковые номера без пропуска номеров. 1. Аглямов Мурат 2. Андреева Екатерина 3. Бикташев Арслан 4. Бикташев Ролан 5. Брен Данил 6. Булгакова Алина 7. Васильев Сергей 8. Гайсин Тагир Пример кодирования порядковым методом
34 Достоинства и недостатки порядкового метода кодирования Достоинства Недостатки Простота присвоения кодов новым объектам Отсутствие конкретной информации о свойствах объекта в его коде Простота структуры Неудобства при внесении изменений Минимальная длина кода Расположение резервных кодов в конце ряда Однозначность объектов кодирования Сложность обработки при получении итогов по группе объектов с одинаковыми признаками
35 Серийно-порядковый метод кодирования Кодовыми обозначениями служат числа натурального ряда с закреплением отдельных диапазонов (серий) этих чисел за объектами классификации с одинаковыми признаками. Кодовыми обозначениями служат числа натурального ряда с закреплением отдельных диапазонов (серий) этих чисел за объектами классификации с одинаковыми признаками. Серийно-порядковый метод кодирования применяется для объектов, имеющих два соподчиненных признака. Серийно-порядковый метод кодирования применяется для объектов, имеющих два соподчиненных признака. Пример кодирования серийно-порядковым методом: нумерация помещений в административном здании по этажам. Пример кодирования серийно-порядковым методом: нумерация помещений в административном здании по этажам.
36 Последовательность кодирования серийно-порядковым методом 1. Определить число группировочных признаков. 2. Установить число позиций в каждом группировочном признаке. 3. Присвоить серию номеров старшим признакам с учетом резерва. 4. Произвести порядковое кодирование младших признаков в пределах серий номеров старших признаков. 5. Составить классификатор.
37 Преимущества серийно- порядкового метода Новые кодовые обозначения можно вводить в те серии, которые соответствуют признакам вновь кодируемых объектов. Новые кодовые обозначения можно вводить в те серии, которые соответствуют признакам вновь кодируемых объектов. В каждой серии, предусматривается определенное количество кодов для резерва. В каждой серии, предусматривается определенное количество кодов для резерва. Резерв кодов располагается в середине или в конце кода. Резерв кодов располагается в середине или в конце кода.
38 Последовательный метод кодирования Код классификационной группировки и (или) объекта классификации образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации. Код классификационной группировки и (или) объекта классификации образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации. Код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки. Код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки.
39 Пример кодирования последовательным методом
40 Последовательность применения метода 1. Определить число группировочных признаков и их зависимость. 2. Установить число позиций в каждом группировочном признаке. 3. Произвести кодирование порядковыми номерами сначала старшего признака, затем следующих признаков внутри старших в соответствии с их разрядностью. 4. Составить классификатор.
41 Достоинства и недостатки последовательного метода Достоинства Недостатки Логичность построения кода Сложность внесения новых признаков Большая ёмкость Сложность группировки объектов по различным сочетаниям признаков Использование данного метода целесообразно, если набор признаков классификации и их последовательность стабильны в течение длительного времени.
42 Параллельный (позиционный) метод кодирования Код классификационной группировки и (или) объекта классификации образуется с использованием независимых группировок, полученных при фасетном методе классификации. Код классификационной группировки и (или) объекта классификации образуется с использованием независимых группировок, полученных при фасетном методе классификации. Признаки объекта кодируются независимо друг от друга. Признаки объекта кодируются независимо друг от друга.
43 Варианты записи позиционного кода
44 Достоинства и недостатки параллельного метода Достоинства Недостатки Гибкость структуры кода Использование целесообразно для однородных объектов Небольшая длина кода Группировка объектов по любому сочетанию признаков Возможность образования большого числа кодовых комбинаций из небольшого набора признаков Возможность определения свойств объекта по его коду
45 Пример применения параллельного метода кодирования на предприятии имеются 6 видов материалов и 99 их наименований, которые могут располагаться на 3 складах. Исходные данные: на предприятии имеются 6 видов материалов и 99 их наименований, которые могут располагаться на 3 складах. Виды материалов КодСклады КодМатериалы Код Сырье 1 Сырья и материалов 1 Краска масляная 01 Полуфабрикаты 2ГСМ2 Гвозди обойные 02 Топливо 3 Стройматериа лов 3 Белила цинковые 03 Запчасти 4Мазут 04 Тара 5 Ящики упаковочные 05 Стройматериалы 6… Код масляной краски – 6301
46 Классификаторы Результатом классификации и кодирования объектов является классификатор. Результатом классификации и кодирования объектов является классификатор. Классификатор это документ, с помощью которого осуществляется формализованное описание информации в ИС. Классификатор это документ, с помощью которого осуществляется формализованное описание информации в ИС. Классификатор содержит: Классификатор содержит: наименования объектов классификации; наименования объектов классификации; кодовые обозначения объектов; кодовые обозначения объектов; наименования классификационных группировок; наименования классификационных группировок; кодовые обозначения классификационных группировок. кодовые обозначения классификационных группировок.
47 Виды классификаторов По сфере действия выделяют следующие виды классификаторов: международные, общегосударственные, отраслевые и локальные. Международные классификаторы входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества. Международные классификаторы входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества. Общегосударственные классификаторы, обязательны для организации процессов передачи и обработки информации между экономическими системами государственного уровня внутри страны. Общегосударственные классификаторы, обязательны для организации процессов передачи и обработки информации между экономическими системами государственного уровня внутри страны. Отраслевые классификаторы используют для выполнения процедур обработки информации и передачи ее между организациями внутри отрасли. Отраслевые классификаторы используют для выполнения процедур обработки информации и передачи ее между организациями внутри отрасли. Локальные классификаторы используют в пределах отдельных предприятий. Локальные классификаторы используют в пределах отдельных предприятий.
48 Виды информации в общегосударственных классификаторах ОКОК – Общероссийский классификатор информации об общероссийских классификаторах 1. Социальная информация 2. Информация по описанию организации экономики 3. Информация о продукции, видах экономической деятельности и оказываемых работах и услугах 4. Информация о природных и трудовых ресурсах 5. Информация о финансово-кредитной сфере 6. Информация об управленческой документации, показателях, единицах измерения 7. Информация о стандартах и технологических процессах
49
50 Пример структуры кода Класс форм – принадлежность унифицированной формы документа к УСД Класс форм – принадлежность унифицированной формы документа к УСД Подкласс форм – общность содержания множества форм документов и направленность их использования Подкласс форм – общность содержания множества форм документов и направленность их использования Регистрационный номер – порядковый номер формы внутри подкласса Регистрационный номер – порядковый номер формы внутри подкласса УС ОРД Документация о приеме на работу Заявление о приеме на работу Контракт о назначении на должность Приказ о приеме на работу Протокол общего собрания трудового коллектива о приеме на работу
51 Порядок разработки локального классификатора 1. Установление перечня и количества объектов, подлежащих кодированию. 2. Систематизация объектов по определенным классификационным признакам (выбор системы классификации). 3. Определение правил обозначения объектов кодирования (выбор системы кодирования) на основании системы классификации. 4. Разработка кодовых обозначений и положений по их ведению и внесению в них изменений. 5. Составление классификатора.