Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology.

Презентация:



Advertisements
Похожие презентации
Технологии анализа и поиска текстовой информации. Лингвистическое ПО компании Гарант-Парк-Интернет Гарант-Парк-Интернет Партнерская конференция.
Advertisements

Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Использование систем RETRANS-MetaFraz в правительственных и государственных организациях, а также в центрах анализа информации Юрий Викторович Никитин.
Интеграция «1С:Предприятие 8» с другими системами ЗАО "МиСофт НВП" , г.Минск, ул.Шафарнянская, 11, офис 31. тел. (017)
ЗАО «Институт ситуационного анализа» (ЗАО «ИСА») Универсальный программный комплекс для информационно-аналитического сопровождения для информационно-аналитического.
ROSES – новое слово в поиске Поисковый комплекс для корпоративного использования с широкими возможностями или Как пользоваться накопленными знаниями без.
Александр Андреев Директор по маркетингу Компания ПРОМТ 15 сентября 2004 г. Пресс-конференция « Новая технология компьютерного перевода PROMT 7.0» Позиционирование.
Интеллектуальные системы для эффективного поиска электронных ресурсов.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Поисковые движки. Sphinx Search Engine. Докладчик: Роман Кудлай
Развитие подсистемы «Судебное делопроизводство», результаты внедрения и эксплуатации в арбитражных судах. Кудрявцева Анна Менеджер проектов Департамент.
ASE 12.0 Эволюция продуктов ASE for Linux поддержка jConnect ASE 12.0 Распределенные транзакции Java/XML в БД Enterprise Event Broker Обработка событий.
Е-МАСТЕР ® Документооборот Программно-методический комплекс (Система управления организационной информацией) +7 (812)
НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОБРАЗОВАНИИ Одиннадцатая международная научно-практическая конференция – Прикладное решение для вузов «1С:Университет».
Информационно-аналитическая система информационной безопасности в системах массовых услуг (электронное правительство) И.А.Трифаленков Директор по технологиям.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
1 Новые решения по автоматическому переводу: линейка PROMT Translation Server 10.
Пирумова Лидия Николаевна Зам. директора ЦНСХБ, канд.пед.наук Роль лингвистических средств в автоматизированной информационно- поисковой системе Роль лингвистических.
LOGO ФГОУ ВПО «Астраханский государственный технический университет» Информационная система учета художественных ценностей в Астраханской государственной.
Построение отказоустойчивой распределенной системы резервного копирования Бакшеев Дмитрий, Старший специалист Департамента систем управления.
Транксрипт:

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day1 Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux , Москва, Ленинские Горы, влад. 1, стр. 75 Г тел: +7 (095) /58

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day2 Содержание Введение Oracle Text – краткий обзор Russian Context Optimizer –Обзор –Возможности –Технологии –Архитектура –Перспективы

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day3 Текст 90% информации – текст Web, , Файлы,... MS Office, PDF, HTML, XML,… Почему бы не использовать при принятии решений?

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day4 Требования к поиску Надежность / масштабируемость / производительность Обработка и хранение разнородной информации Мощный поисковый механизм Средства анализа текста Какой хотелось бы видеть подсистему поиска?

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day5 Что предлагает Oracle Oracle Text –Индексирование, Поиск –Тематический анализ, Классификация –Много форматов, кодировок, XML Ultra Search –Гетерогенные хранилища (Tables, Files, Web, IMAP,…) –Сквозной поиск iFS –Хранение, управление, совместная работа

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day6 Oracle Text Полностью интегрирован с базой данных Полноценные поисковые возможности Поддержка более 100 форматов документов – Inso Filters Продвинутая лингвистика – Stemming, Fuzzy, Soundex, Theme Lexing, Gists, Thesaurus, Classification, Clustering

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day7 Сложности с русским языком Поиск – только без учета словоформ НО... Oracle Text – расширяем Oracle Database – много возможностей

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day8 Russian Context Optimizer Назначение продукта –Лингвистическое обеспечение и оригинальные алгоритмы для полноценной работы с русскоязычными документами в Oracle Text Версии - Ноябрь 1997 – RCO Ноябрь 2002 – RCO 4.0.1

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day9 RCO – Позиционирование RCO EnFrдругие языкиRu Кластерный анализ Классификация Тематический анализ Тезаурус Поиск близких по написанию и звучанию Поиск с учетом словоформ Поиск слов, словосочетаний

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day10 RCO – Обзор – I Аналоги всех возможностей Oracle Text для русского языка Морфология, тезаурус Средства актуализации лингвистического обеспечения Нечеткий поиск, тематический анализ, рефераты, рубрицирование

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day11 RCO – Обзор – II Кодировки – все для русского языка + UTF8 С точки зрения разработчика – PL/SQL Package Платформы – LINUX, а также… WinNT/2000, HP-UX, SUN Solaris, IBM AIX, Compaq Tru64

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day12 RCO – Возможности Учет словоформ Учет опечаток Учет синонимов Учет связей между темами Подсветка Тематический портрет документа Семантическая сеть по массиву документов Ключевые темы Рефераты Соответствие рубрикам Тематическая структура Изменения тематики потока во времени ПОИСКАНАЛИЗСИНТЕЗ

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day13 RCO – Поиск Словоформы –президент=президента=президенту=... Опечатки –Черномырдин=Чернормырдин= Черномырдным=Чермомырдиным Синонимы –вор=тать=жулик=жулье=ворюга=воришка= воровка Тематически близкие –золото=слиток=ювелирное изделие=...

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day14 RCO – Анализ Ассоциативная семантическая сеть

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day15 RCO – Синтез – Текст Москва, 28 ноября /МК-Новости/. В январе – октябре 1997 года в России было добыто 92,2 тонны золота. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. Произошли существенные изменения в географии добычи золота : в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. Возросла золотодобыча в Красноярском крае – на 71,8%, на Чукотке - в 2 раза, в Пермской области – на 62,8%. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем - октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. Произошли существенные изменения в географии добычи золота : в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. ДОБЫЧА ЗОЛОТА, ЗОЛОТО Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. ВЫПЛАВКА, ЗОЛОТОЙ СЛИТОК Выплавлена 71 тонна золотых слитков. Не обязательно читать весь документ

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day16 RCO – Синтез – Рубрицирование Легко понять структуру и сузить область поиска

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day17 RCO – Синтез – Динамика Легко понять изменения и сузить область поиска

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day18 RCO – Технологии МорфологияТезаурус Нечеткий поиск Тематический анализ Автоматическое реферирование Классификация Кластерный анализ Лингвистическое обеспечение Базовые алгоритмы Прикладные алгоритмы

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day19 RCO – Лингвистическое обеспечение Морфологический словарь –Словарная морфология слов –Бессловарная морфология Тезаурус –Общий объем – единиц –Cинонимы рядов –Гипонимы (общее – частное) – рядов –Общеупотребимая лексика – слов

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day20 RCO – Базовые алгоритмы Нечеткий поиск –Fuzzy и Soundex для русского языка –Расширение только словами из индекса –Можно регулировать степень подобия Тематический анализ –В основе ассоциативная семантическая сеть –Можно настраивать

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day21 RCO – Прикладные алгоритмы Рефераты –Общий (gist) –По теме (point-of-view gist) Классификация –Обучение –Настройка перечня тем и весов вручную Построение рубрикаторов –Построение «на лету» –3 стратегии

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day22 RCO – Архитектура RCO Executive Oracle Database Oracle Text Indexes & Settings RCO Indexes & Settings RCO FilterInso Filters RCO package User PL/SQL Application OCI Queue RCO Listener Shared Memory

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day23 RCO – Направления развития Более тесная интеграция с Oracle –9iR2, USER_LEXER,… Внедрение новых технологий –Синтактико-семантический анализ и синтез Движение по направлению к ИАС –Категории объектов и связей –Открытая семантическая сеть

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day24 RCO – Лицензирование Standard vs Enterprise Edition –RCO Ling: пакет актуализации лингвистического обеспечения Единица лицензирования –Named User –Processor Количество лицензий –Oracle

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux Москва, 11 февраля 2003 г.Конференция Oracle Technology Day25 Гарант-Парк-Интернет