5.2. Онтологии товаров и услуг
Онтология Онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Основные компоненты: –Классы или понятия –Отношения –Функции –Аксиомы –Примеры
Таксономия публикаций Publication Article –Article in book –Conference paper –… Book Journal –IEEE expert
Отношения в (КА) Employee Head-of-projectProject Works-on-ProjectProject AffiliationOrganization Head-of-groupResearch group
Пример аксиомы Работник, являющийся руководителем проекта, работает в проекте Переменные Е, Р Forall (E,P) Employee (E) and Head-Of- Project (E,P) => Works-At-Project (E,P)
Лингвистические онтологии - The main characteristic of this kind of ontologies is that they are bound to the semantics of grammatical units (words, nominal groups, etc) Основной источник понятий в онтологии – значения языковых единиц Лингвистические онтологии: WordNet, Mikrokosmos, Sensus, РуТез
Задачи Сбор информации о товарах Представление информации о товаре Классификация товаров – разделение по назначению Поиск по товарам Показ баннеров Показ текстов (обзоров, новостей, форумов) по товарам
Системы по товарам общего назначения Froogle ( Яндекс. Маркет –Ручное занесение товара –Ручная классификация Тындекс ( –Автоматизированный поиск новых прайс-листов –Автоматический разбор прайсов –Автоматическая рубрикация
Рубрикаторы продукции Общероссийский классификатор продукции (ОКП) Таможенная номенклатура внешнеэкономической деятельности (ТНВЭД) United Nations Standard Products and Services Code (UNSPSC)
Фрагмент классификатора продукции ООН Medical imaging processing equipment and supplies Medical x ray film daylight stampers or identification printers Medical imaging wet darkroom or daylight processors Medical x ray passthrough boxes Medical toners or developers Medical imaging dry laser printers or imagers
Рубрикаторы. Особенности Иерархическая структура (древоподобная) Могут достигать значительной величины (20000 тысяч рубрик) При делении по разным основаниям могут быть близкие по смыслу рубрики-листья Невозможно автоматическая классификация на основе только формулировок рубрик – необходимо каждую рубрику снабдить списком выражений
Рубрикаторы интернет-систем по товарам Простые формулировки рубрик на каждом уровне Величина небольшая И сложные классификаторы, и экранные рубрикаторы – виды онтологий
Автоматическая рубрикация по товарам (Tyndex) Рубрикатор: набор категорий без иерархии К каждой категории приписан список слов и последовательностей слов Рубрика проставляется товару, если в начале строчки встречается элементы списка Накопленные списки «типов товаров» можно дополнительно использовать для контекстной рекламы
Назначение рубрик Запрос слишком общий – уточнение запроса (Щипцы) Запрос неоднозначный – выбор значения (масло, стремянка) Возможность избавиться от побочных рубрик (велосипед – рубрика «Игрушки»)
Фрагмент описания рубрики «Автозапчасти » Стремянка ГАЗ стремянка зад Стремянка задней рессоры Стремянка задняя Стремянка КАМАЗ Стремянка МАЗ Стремянка передняя Стремянка пер.рес Стремянка рессоры стремянка УАЗ
Фрагмент описания рубрики «Бытовые товары» Стремянка БЕТТИ Стремянка бытовая Стремянка высотой Стремянка оцинк Стремянка стальная Стремянки "Elkop Стремянка 3-х ступ Стремянка 5 ступ Стремянка 6-ти ступ Стремянка 8 ступ Стремянка 8 ступеней Стремянка 9 ступеней Стремянка 10 ступеней Стремянка 11 ступ Стремянка 12 ступ
Рубрикация на специализированном интернет-сайте - цены на компьютеры, hi- tech, офисное оборудование Сложный рубрикатор Сложное описание товара Поступление списков товаров. Много повторов. Товары с небольшими изменениями Автоматизированная рубрикация
OntoSeek - Content-Based Access to the Web Guarino N. Проект – 1996г. Статья – 1999г.
Поиск товаров «по смыслу» - использование таксономии Обработка синонимов: –Запрос: Automobile –Описание услуги: Car repair Обработка видов и конкретных марок –Запрос: Automobile –Описание услуги : Jeep repair
Поиск товаров «по смыслу» - семантический разбор запроса Запрос: automobile retail Описание услуги: –automobile radio and stereo retail store –Car repair and retail shop –Представление товара (услуги) как набор атрибут – значение_атрибута
Проблемы Ontoseek Нужна большая лингвистическая онтология товаров с подробными списками текстовых вариантов. Вместе это предполагается использовать лингвистическую онтологию общего назначения WordNet. Такая онтология должна включать не только типы товаров, но и конкретные марки товаров Каждому понятию онтологии должна быть приписана совокупность языковых выражений – в реальных прайсах много сокращений Каждое понятие должно иметь внутреннюю структуру – набор (атрибут – значение атрибута)
Проблемы Ontoseek-2 Каждый товар в прайсах – нужно представить в формализованном виде Многозначность слов в описаниях товаров и в запросах
Вопросы к лекции 1.Что такое рубрикатор? 2.Использование рубрикаторов в интернет-системах по товарам и услугам 3.Система Ontoseek: какие проблемы пословного поиска и какими средствами предполагалось решать?