Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет
Лекция 3Корпусная лингвистика2 Основные понятия информационного поиска Информационно-поисковая система (ИПС) это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации текстов (документов) или данных (фактов). Два вида информационного поиска: документальный и фактографический и, соответственно, два типа ИПС документальные и фактографические. Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических, лингвистических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.). По сути, КОРПУСЫ – фактографический поиск. По форме, КОРПУСЫ – документальный поиск (поиск по тексту).
Лекция 3Корпусная лингвистика3 Основные понятия информационного поиска (прод.) Релевантность фундаментальное понятие теории информационного поиска. Два вида релевантности: смысловая и формальная. Соответствие документа содержанию информационного запроса называют смысловой релевантностью. Соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность релевантностью информации (имеется в виду «информации, содержащейся в документе»). КОРПУСЫ: формальная релевантность?!
Лекция 3Корпусная лингвистика4 Подсистемы Функциональные подсистемы – по функциональному принципу. Ввод документов, ввод запросов, поиск, выдача, обратная связь… Обеспечивающие подсистемы – по типу средств. Лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др. КОРПУСЫ: полная аналогия.
Лекция 3Корпусная лингвистика5 Языки запросов и запросно- ответные интерфейсы Глобальные ИПС вербального типа (search engines). КОРПУСЫ: корпусные менеджеры Интерфейсные веб-страницы глобальных ИПС: страницы запросов и страницы результатов поиска. КОРПУСЫ: корпусные менеджеры – то же с дополнительными возможностями Языки запросов ИПС Интернет. Ср.: КОРПУСЫ: Языки запросов корпусных менеджеров.
Лекция 3Корпусная лингвистика6 Национальный Корпус русского языка (НКРЯ): поиск Используются возможности Яндекса, в частности, поиск по лемме (выдается документ с любой словоформой заданной лексемы) и поиск по точной форме – см. – Расширенный поиск и – Поиск в корпусе + Дополнительные возможности: поиск по граммемам, по семантическим признакам, по метаданным.
Лекция 3Корпусная лингвистика7 Поисковый интерфейс НКРЯ
Лекция 3Корпусная лингвистика8 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации) Cobuild Corpus
Лекция 3Корпусная лингвистика9 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)
Лекция 3Корпусная лингвистика10 Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)
Лекция 3Корпусная лингвистика11 Коллокации (2)
Лекция 3Корпусная лингвистика12 Коллокации (3)