Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
М.И. Скорик Презентация на тему: «Виды документальных информационных систем»
Advertisements

Информационные системы Тема 6: «Документальные информационные системы» Колмыкова Оксана Владимировна ВГУЭС, г.Владивосток, ул.Гоголя 41 каф. ИИКГ, ауд.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
11 класс. №002. Информационные системы.
Информационная система управления – это «совокупность информации, экономико- математических методов и моделей, технических, программных, других технологических.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Информационная система как средство реализации информационного поиска Лекция 2.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
БАЗЫ ДАННЫХ И ИНФОРМАЦИОННЫЕ СИСТЕМЫ ИНФОРМАЦИОННАЯ СИСТЕМА – это совокупность базы данных и всего комплекса аппаратно-программных средств для ее хранения,
БАЗЫ ДАННЫХ. СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ. 1. БАЗЫ ДАННЫХ n БАЗЫ ДАННЫХ - совокупность взаимосвязанных и организованных особым образом данных, относящихся.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Классификация ИС. ПЛАН Классификация по степени автоматизации Классификация по типу хранимых данных.
Урок 1 Введение. Понятие информационной технологии.
2012 год Кафедра прикладной математики Руководитель работы: д.т.н., проф. Фальк В.Н. Национальный исследовательский университет «МЭИ» Выпускная работа.
Структура, организация и функции информационных систем Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования.
Понятие информационной системы (ИС), классификация ИС. Понятие информационной системы (ИС), классификация ИС. yagod-sch.ucoz.ru (все уроки) Составил учитель.
Сортировка базы данных Цель: Продолжить обучение с готовой БД: осуществлять поиск информации, сортировку, удаление и добавление записей.
© ElVisti Лекция 4 Информационно-поисковые языки, интерфейсы пользователей ИПС Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
(основные понятия). БД книжного фонда библиотеки; БД кадрового обеспечения учреждения; БД законодательных актов в области уголовного права; БД современных.
База данных – это: а) специальным образом организованная и хранящаяся на внешнем носителе совокупность взаимосвязанных данных о некоторых объектах; б)
Транксрипт:

Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет

Лекция 3Корпусная лингвистика2 Основные понятия информационного поиска Информационно-поисковая система (ИПС) это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации текстов (документов) или данных (фактов). Два вида информационного поиска: документальный и фактографический и, соответственно, два типа ИПС документальные и фактографические. Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических, лингвистических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.). По сути, КОРПУСЫ – фактографический поиск. По форме, КОРПУСЫ – документальный поиск (поиск по тексту).

Лекция 3Корпусная лингвистика3 Основные понятия информационного поиска (прод.) Релевантность фундаментальное понятие теории информационного поиска. Два вида релевантности: смысловая и формальная. Соответствие документа содержанию информационного запроса называют смысловой релевантностью. Соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность релевантностью информации (имеется в виду «информации, содержащейся в документе»). КОРПУСЫ: формальная релевантность?!

Лекция 3Корпусная лингвистика4 Подсистемы Функциональные подсистемы – по функциональному принципу. Ввод документов, ввод запросов, поиск, выдача, обратная связь… Обеспечивающие подсистемы – по типу средств. Лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др. КОРПУСЫ: полная аналогия.

Лекция 3Корпусная лингвистика5 Языки запросов и запросно- ответные интерфейсы Глобальные ИПС вербального типа (search engines). КОРПУСЫ: корпусные менеджеры Интерфейсные веб-страницы глобальных ИПС: страницы запросов и страницы результатов поиска. КОРПУСЫ: корпусные менеджеры – то же с дополнительными возможностями Языки запросов ИПС Интернет. Ср.: КОРПУСЫ: Языки запросов корпусных менеджеров.

Лекция 3Корпусная лингвистика6 Национальный Корпус русского языка (НКРЯ): поиск Используются возможности Яндекса, в частности, поиск по лемме (выдается документ с любой словоформой заданной лексемы) и поиск по точной форме – см. – Расширенный поиск и – Поиск в корпусе + Дополнительные возможности: поиск по граммемам, по семантическим признакам, по метаданным.

Лекция 3Корпусная лингвистика7 Поисковый интерфейс НКРЯ

Лекция 3Корпусная лингвистика8 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации) Cobuild Corpus

Лекция 3Корпусная лингвистика9 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)

Лекция 3Корпусная лингвистика10 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)

Лекция 3Корпусная лингвистика11 Коллокации (2)

Лекция 3Корпусная лингвистика12 Коллокации (3)