Информационно-поисковые системы. Сычев А.В г. 1 Введение. Проблема информационного поиска Воронежский государственный университет Факультет компьютерных наук Кафедра информационных систем
Информационно-поисковые системы. Сычев А.В г. 2 Проект How Much Information s/how-much-info-2003/) s/how-much-info-2003/) Цель проекта: оценка объемов производимой в мире информации в год.
Информационно-поисковые системы. Сычев А.В г. 3 Проект How Much Information Объемы производимой информации Носители информации 2002 г., верхняя оценка, в ТБ 2002 г., нижняя оценка, в ТБ гг., верхняя оценка, в ТБ гг., нижняя оценка, в ТБ Изменение верхней оценки, в % Бумажные Пленочные Магнитные Оптические ВСЕГО:
Информационно-поисковые системы. Сычев А.В г. 4 Проект How Much Information. Суммарное годовое потребление информации жителями США Раздел 1992 г., часов 2000 г., часов 2000 г., МБайт Изменение, % Телевидение Радио Музыкальные записи Газеты Книги Журналы Домашнее видео Видео игры Интернет ВСЕГО:
Информационно-поисковые системы. Сычев А.В г. 5 Выводы Ежегодный мировой объем производимой информации увеличивается экспоненциально. Доля информации на цифровых носителях с каждым годом увеличивается по сравнению с аналоговыми носителями. Суммарное годовое потребление информации пользователями остается постоянной величиной.
Информационно-поисковые системы. Сычев А.В г. 6 Проблема Ежегодно увеличивается экспоненциальный разрыв между объемом производимой информации и её потреблением конечными пользователями
Информационно-поисковые системы. Сычев А.В г. 7 Подходы Автоматизация средств поиска нужной конечному пользователю информации. Разработка средств адресной доставки потенциально востребованной информации конечным пользователям.
Информационно-поисковые системы. Сычев А.В г. 8 Становление ресурса Каталогизация Автоматическое индексирование Канонизация поисковых сервисов Угасание ресурса Жизненный цикл информационного ресурса
Информационно-поисковые системы. Сычев А.В г. 9 Средства навигации для текстовой информации: этапы становления Ранняя история Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е)
Информационно-поисковые системы. Сычев А.В г. 10 Библиотечные поисковые системы Применение информационного поиска в библиотеках Первый этап Автоматизация традиционных технологий (карточных каталогов) Поиск по автору и названию Второй этап: Тематический поиск, ключевые слова В настоящее время: Развитый графический интерфейс Электронные формы Гипертекст Открытая архитектура
Информационно-поисковые системы. Сычев А.В г. 11 Информационный поиск: этапы становления Термин Information Retrieval (информационный поиск) был введен в употребление Кельвином Муерсом (Calvin Mooers) в 1952 г.
Информационно-поисковые системы. Сычев А.В г. 12 Информационный поиск: этапы становления 1958Исследование статистических свойств языка (Luhn) 1960Вероятностное индексирование (Maron & Kuhns)Maron & Kuhns 1961Ассоциирование терминов и кластеризация (Doyle) 1965Модель векторного пространства (Salton) 1968Расширение запросов (Roccio, Salton) 1972Статистическое взвешивание (Sparck-Jones)Sparck-Jones 1976Взвешивание по релевантности (Robertson, Sparck Jones)Robertson, Sparck Jones 1980Нечеткие множества (Bookstein) 1981Вероятности без обучения (Croft)
Информационно-поисковые системы. Сычев А.В г. 13 Информационный поиск: этапы становления 1983 Линейная регрессия (Fox) 1983 Вероятностные завсисмости (Salton, Yu) 1985 Модель обобщенного векторного пространства (Wong, Rhagavan) 1987 Нечеткая логика и РУБРИКА/ТЕМА (Tong, и др.)Tong, и др 1990 Латентное семантическое индексирование (Dumais, Deerwester)Dumais, Deerwester 1991 Полиномиальная и логистическая регрессия (Cooper, Gey, Fuhr)Cooper, Gey, Fuhr 1992 TREC (Harman)Harman 1992 Сети вывода (Turtle, Croft)Turtle, Croft 1994 Нейронные сети (Kwok)Kwok 1998Языковые модели (Ponte, Croft)Ponte, Croft
Информационно-поисковые системы. Сычев А.В г. 14 Исторические исследовательские документально-поисковые системы Вероятностное индексирование (Maron, Kuhns 1960) SMART – Г.Сэлтон (Gerard Salton) – Модель векторного пространства, 1970-е годы. salton.pdfhttp:// salton.pdf ftp://ftp.cs.cornell.edu/pub/smart/ I3R – Крофт. I3R Cheshire I (1990) TREC – Inquery Cheshire II (1994) - MG - Managing Gigabytes (1995) Lemur (2000) -
Информационно-поисковые системы. Сычев А.В г. 15 Литература Проект How Much Information ( Larson R. Principles of Information Retrieval. Слайды ( ) Талантов М. Профессиональный поиск в Интернете: полнота, достоверность, скорость. - Компьютер-Пресс. 1999, 7. ( )