Лекция 11. Поисковые системы Интернет как корпусные менеджеры. Специализированные корпусные интерфейсы к индексам глобальных поисковых систем. В. П. Захаров
Лекция 2 2Корпусная лингвистика Проблемы создания корпусов Отбор и подготовка текстов Отбор и подготовка текстов Репрезентативность Репрезентативность Хронологические рамки Хронологические рамки Разметка Разметка Разные задачи разные типы корпусов Разные задачи разные типы корпусов Трудоёмкость Трудоёмкость Специализированное программное обеспечение (corpus managers) Специализированное программное обеспечение (corpus managers)
Лекция 2 3Корпусная лингвистика Web как корпус Интернет – огромный справочник, всемирная библиотека, всемирный архив текстовой информации Объем: более 15 млрд. страниц ? Удваивается каждые 10 – 12 мес. Любые типы текстов Разные языки Интернет – огромный справочник, всемирная библиотека, всемирный архив текстовой информации Объем: более 15 млрд. страниц ? Удваивается каждые 10 – 12 мес. Любые типы текстов Разные языки Динамика Динамика Но: Проблема метаинформации Проблема поисковых средств Но: Проблема метаинформации Проблема поисковых средств
Лекция 2 4Корпусная лингвистика Поисковые системы как корпус-менеджеры
Лекция 2 5Корпусная лингвистика Поисковые системы как инструмент лингвистического анализа Наиболее важными с точки зрения лингвистического анализа текстового материала представляются следующие особенности ИПС: работа со словоформами (лемматизация, «узнавание» точной формы); работа со словоформами (лемматизация, «узнавание» точной формы); поиск слов с заданным или произвольным усечением, как правым, так и левым; поиск слов с заданным или произвольным усечением, как правым, так и левым; индексирование полных текстов в полном объеме без исключения; индексирование полных текстов в полном объеме без исключения; работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования; работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования; различение больших и малых букв. различение больших и малых букв.
Лекция 2 6Корпусная лингвистика Возможности поисковых систем для получения лингвостатистических данных о частоте
Лекция 2 7Корпусная лингвистика Примеры лингвистических "изысканий" "броузер" или "браузер" "Яндекс": статистика слов: броузер: , браузер: ; статистика слов: броузер: , браузер: ; запросов за месяц: броузер: 2150, браузер: запросов за месяц: броузер: 2150, браузер: "офсайд" или "оффсайд" "Яндекс": "офсайд": словоупотреблений "офсайд": словоупотреблений "оффсайд": 9867 словоупотреблений "оффсайд": 9867 словоупотреблений
Лекция 2 8Корпусная лингвистика Еще примеры: Частота употребления отдельных лексем в Интернете
Лекция 2 9Корпусная лингвистика Яндекс
Лекция 2 10Корпусная лингвистика Языки запросов Яндекс: "изучение языка« Результат поиска: страниц 61986, сайтов не менее 1601 Запросов за месяц: изучение 44683, языка Всё для изучения языка программирования Турбо Паскаль "изучение языка« Результат поиска: страниц 61986, сайтов не менее 1601 Запросов за месяц: изучение 44683, языка Всё для изучения языка программирования Турбо Паскаль "изучение языков Результат поиска: страниц , сайтов не менее 1620 Запросов за месяц: изучение 44683, языков Изучение языков в Интернете: лучшие методики и пособия "изучение языков Результат поиска: страниц , сайтов не менее 1620 Запросов за месяц: изучение 44683, языков Изучение языков в Интернете: лучшие методики и пособия изучение /1 языка Результат поиска: страниц , сайтов не менее 1479 Запросов за месяц: изучение 44683, языка Изучение языков в Интернете: лучшие методики и пособия Всё для изучения языков программирования изучение /1 языка Результат поиска: страниц , сайтов не менее 1479 Запросов за месяц: изучение 44683, языка Изучение языков в Интернете: лучшие методики и пособия Всё для изучения языков программирования изучение /2 языка изучение /2 языка Изучение английского языка … Изучение английского языка … Изучение иностранных языков в Интернете: лучшие методики и пособия Изучение иностранных языков в Интернете: лучшие методики и пособия
Лекция 2 11Корпусная лингвистика Языки запросов Google Результаты из примерно для изучение языка. Результаты из примерно для изучение языков. Результаты из примерно для "изучение языка". Результаты из примерно для "изучение языков". Результаты из примерно для "изучение * языка". Результаты из примерно для "изучение * языков".
Лекция 2 12Корпусная лингвистика Дальнейшие возможности Грамматический поиск по образцам Ограничение области поиска определенными формальными признаками: вид информации вид информации страна страна язык язык время время домен домен и др. и др.
Лекция 2 13Корпусная лингвистика Выводы: В случае отсутствия подходящего корпуса определенные лингвистические данные можно получить из Интернета. В случае отсутствия подходящего корпуса определенные лингвистические данные можно получить из Интернета. И в ряде случаев результаты будут даже более представительны, чем на базе специализированных корпусов. И в ряде случаев результаты будут даже более представительны, чем на базе специализированных корпусов.
Лекция 2 14Корпусная лингвистика WebCorp
Лекция 2 15Корпусная лингвистика WebCorp – входной интерфейс(1)
Лекция 2 16Корпусная лингвистика WebCorp – входной интерфейс(2)
Лекция 2 17Корпусная лингвистика WebCorp – входной интерфейс(3)
Лекция 2 18Корпусная лингвистика Google: изучение … языка
Лекция 2 19Корпусная лингвистика WebCorp: изучение … языка WebCorp output for search term изучение * языка Producing output Document Dated: 2004/04/23 15:50:34 (server header) Plain Text Word List 2241 tokens, 1186 types Plain TextWord List Plain TextWord List информационного обеспечения в отрасли, углубленное изучение иностранного языка, расширение перечня изучаемых прикладных управленческих изучение иностранного языкаизучение иностранного языка Document Dated: 2002/08/06 15:16:51 (server header) Plain Text Word List 219 tokens, 169 types Plain TextWord List Plain TextWord List владеть же ивритом и продолжить изучение английского языка вам помогут специальные молодежные программы изучение английского языкаизучение английского языка Document Dated: 1997/12/30 03:03:00 (server header) Plain Text Word List 5214 tokens, 2299 types Plain TextWord List Plain TextWord List путей создания тестов является глубокое изучение стандарта языка С++, в ходе которого выявляются изучение стандарта языкаизучение стандарта языка Statistics: Using the Google search engine WebCorp accessed 20 web pages, 3 of which returned errors. Google 5 concordances were generated.
Лекция 2 20Корпусная лингвистика WebCorp: изучение … … языка WebCorp output for search term изучение * * языка Producing output... Document Dated: 1999/12/28 11:40:15 (server header) Plain Text Word List 2170 tokens, 1132 types WebCorp output for search term изучение * * языка Producing output... Document Dated: 1999/12/28 11:40:15 (server header) Plain Text Word List 2170 tokens, 1132 types Plain TextWord List Plain TextWord List изучаемого языка, б) долгосрочная изучение и использование языка в общении. Язык является отражением изучаемого языка, б) долгосрочная изучение и использование языка в общении. Язык является отражениемизучение и использование языкаизучение и использование языка Document Dated: 2005/05/31 13:23:58 (server header) Plain Text Word List 527 tokens, 373 types Document Dated: 2005/05/31 13:23:58 (server header) Plain Text Word List 527 tokens, 373 types Plain TextWord List Plain TextWord List Кроме того, институт предлагает студентам изучение второго иностранного языка. СТАЖИРОВКИ. Летние школы в зарубежных Кроме того, институт предлагает студентам изучение второго иностранного языка. СТАЖИРОВКИ. Летние школы в зарубежныхизучение второго иностранного языкаизучение второго иностранного языка Sort Options Sort Options Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date: Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date: Statistics Statistics Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned errors. Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned errors.Google 2 concordances were generated. 2 concordances were generated.
Лекция 2 21Корпусная лингвистика WebCorp: [run] WebCorp output for search term r[u|a]n[ning|s|] Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 980 tokens, 607 types Plain TextWord List Plain TextWord List kann. (more) Plot Outline: Lola runs. To save her boyfriend's life kann. (more) Plot Outline: Lola runs. To save her boyfriend's liferuns his immediate death. Lola starts running immediately thinking of a million his immediate death. Lola starts running immediately thinking of a millionrunning in her life and she runs and runs..... The quality of in her life and she runs and runs..... The quality ofruns life and she runs and runs..... The quality of cuts and life and she runs and runs..... The quality of cuts andruns Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 582 tokens, 331 types Plain TextWord List Plain TextWord List matters 'crucial to improving my running' I knew I had stumbled matters 'crucial to improving my running' I knew I had stumbledrunning revolutionary book to hit the running community this decade. It will revolutionary book to hit the running community this decade. It willrunning is revolutionizing the sport of running. Success Stories Hi I is revolutionizing the sport of running. Success Stories Hi Irunning Now a 12 mile trail run is fun! Keep up the Now a 12 mile trail run is fun! Keep up therun
Лекция 2 22Корпусная лингвистика The Linguist's Search Engine Use the Linguist's Search Engine Use the Linguist's Search Engine Log in to the Linguist's Search Engine You can use login: guest password: guest if you do not wish to register. Log in to the Linguist's Search Engine You can use login: guest password: guest if you do not wish to register. Log in to the Linguist's Search Engine Log in to the Linguist's Search Engine Register to use the Linguist's Search Engine You should register for an account if you want to build your own collections Register to use the Linguist's Search Engine You should register for an account if you want to build your own collections Register to use the Linguist's Search Engine Register to use the Linguist's Search Engine User's Guide Also available in PDF format. User's Guide Also available in PDF format. User's GuidePDF format User's GuidePDF format Project Information Information on the Linguist's Search Engine. Includes a Getting Started Guide. Project Information Information on the Linguist's Search Engine. Includes a Getting Started Guide. Project InformationGetting Started Guide Project InformationGetting Started Guide
Лекция 2 23Корпусная лингвистика Developing Linguistic Corpora: a Guide to Good Practice / Edited by Martin Wynne Preface Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) Preface Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) Preface Chapter 1 Corpus and Text: Basic Principles John Sinclair (Tuscan Word Centre) Chapter 1 Corpus and Text: Basic Principles John Sinclair (Tuscan Word Centre) Chapter 1 Chapter 1 Chapter 2 Adding Linguistic Annotation Geoffrey Leech (Lancaster University) Chapter 2 Adding Linguistic Annotation Geoffrey Leech (Lancaster University) Chapter 2 Chapter 2 Chapter 3 Metadata for Corpus Work Lou Burnard (University of Oxford) Chapter 3 Metadata for Corpus Work Lou Burnard (University of Oxford) Chapter 3 Chapter 3 Chapter 4 Character Encoding in Corpus Construction Anthony McEnery and Richard Xiao (Lancaster University) Chapter 4 Character Encoding in Corpus Construction Anthony McEnery and Richard Xiao (Lancaster University) Chapter 4 Chapter 4 Chapter 5 Spoken Language Corpora Paul Thompson (University of Reading) Chapter 5 Spoken Language Corpora Paul Thompson (University of Reading) Chapter 5 Chapter 5 Chapter 6 Archiving, Distribution and Preservation Martin Wynne (University of Oxford) Chapter 6 Archiving, Distribution and Preservation Martin Wynne (University of Oxford) Chapter 6 Chapter 6 Appendix to chapter one: How to make a corpus John Sinclair (Tuscan Word Centre) Appendix to chapter one: How to make a corpus John Sinclair (Tuscan Word Centre) Appendix to chapter one: How to make a corpus Appendix to chapter one: How to make a corpus Bibliography Bibliography Bibliography