Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемdialog-21.ru
1 ВЕБ-ПРОСТРАНСТВО КАК ЯЗЫКОВОЙ КОРПУС В. П. Захаров Филологический факультет Санкт-Петербургского университета Институт лингвистических исследований РАН
2 2 июня 2005 гСПбГУ, ИЛИ РАН2 Корпусная лингвистика Назначение корпусов История создания Проблемы создания национальных корпусов Национальный корпус русского языка – см. НТИ, сер.2, 2005, 3
3 2 июня 2005 гСПбГУ, ИЛИ РАН3 Проблемы создания Репрезентативность Хронологические рамки Разметка Разные задачи разные типы корпусов Трудоёмкость Специализированное программное обеспечение (corpus managers)
4 2 июня 2005 гСПбГУ, ИЛИ РАН4 Web как корпус Интернет – огромный справочник, всемирная библиотека, всемирный архив текстовой информации Число веб-страниц (документов): более 10 миллиардов ? Удваивается каждые 8 – 16 мес. Любые типы текстов Разные языки НО: Проблема сбалансированности Проблема метаинформации Проблема поисковых средств
5 2 июня 2005 гСПбГУ, ИЛИ РАН5 Поисковые системы как корпус-менеджеры
6 2 июня 2005 гСПбГУ, ИЛИ РАН6 Поисковая система Робот – подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии Поисковая база данных(индекс) – специальным образом организованная база – инвертированный файл Поисковая система – подсистема поиска, обеспечивающая обработку запроса пользователя, поиск в базе данных и выдачу результатов поиска Пользовательские интерфейсы – экранные формы программ-браузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска
7 2 июня 2005 гСПбГУ, ИЛИ РАН7 Поисковые системы как инструмент лингвистического анализа Наиболее важными с точки зрения лингвистического анализа текстового материала представляются следующие особенности ИПС: "грамотная" работа со словоформами; поиск слов с заданным или произвольным усечением, как правым, так и левым; индексирование полных текстов в полном объеме без исключения; работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования; различение больших и малых букв.
8 2 июня 2005 гСПбГУ, ИЛИ РАН8 Возможности поисковых систем для получения лингвостатистических данных о частоте
9 2 июня 2005 гСПбГУ, ИЛИ РАН9 Примеры лингвистических "изысканий" "броузер" или "браузер" "Яндекс": статистика слов: броузер: , браузер: ; запросов за месяц: броузер: 2150, браузер: "пергамент" или "пергамен" "Яндекс": Статистика слов: пергамен: 635, пергамент: 59585; запросов за месяц: пергамен: 4, пергамент: 240. "офсайд" или "оффсайд" "Яндекс": "офсайд": словоупотреблений "оффсайд": 9867 словоупотреблений
10 2 июня 2005 гСПбГУ, ИЛИ РАН10 Еще примеры: Частота употребления отдельных лексем в Интернете
11 2 июня 2005 гСПбГУ, ИЛИ РАН11 Поиск в Яндексе (язык запросов) «изучение языка» Результат поиска: страниц 61986, сайтов не менее 1601 Запросов за месяц: изучение 44683, языка Всё для изучения языка программирования Турбо Паскаль «изучение языков» Результат поиска: страниц , сайтов не менее 1620 Запросов за месяц: изучение 44683, языков Изучение языков в Интернете: лучшие методики и пособия изучение /1 языка Результат поиска: страниц , сайтов не менее 1479 Запросов за месяц: изучение 44683, языка Изучение языков в Интернете: лучшие методики и пособия Всё для изучения языков программирования изучение /2 языка Изучение английского языка … Изучение иностранных языков в Интернете: лучшие методики и пособия
12 2 июня 2005 гСПбГУ, ИЛИ РАН12 Яндекс
13 2 июня 2005 гСПбГУ, ИЛИ РАН13 Поиск в Google (язык запросов) примерно для изучение языка примерно для изучение языков примерно для "изучение языка" примерно для "изучение языков" примерно для "изучение * языка" из примерно для "изучение * языков"
14 2 июня 2005 гСПбГУ, ИЛИ РАН14 WebCorp
15 2 июня 2005 гСПбГУ, ИЛИ РАН15 WebCorp – входной интерфейс(1)
16 2 июня 2005 гСПбГУ, ИЛИ РАН16 WebCorp – входной интерфейс(2)
17 2 июня 2005 гСПбГУ, ИЛИ РАН17 WebCorp – входной интерфейс(3)
18 2 июня 2005 гСПбГУ, ИЛИ РАН18 Google: изучение … языка
19 2 июня 2005 гСПбГУ, ИЛИ РАН19 WebCorp: изучение … языка WebCorp output for search termизучение * языка Producing output Document Dated: 2004/04/23 15:50:34 (server header) Plain Text Word List 2241 tokens, 1186 types Plain TextWord List информационного обеспечения в отрасли, углубленное изучение иностранного языка, расширение перечня изучаемых прикладных управленческихизучение иностранного языка Document Dated: 2002/08/06 15:16:51 (server header) Plain Text Word List 219 tokens, 169 types Plain TextWord List владеть же ивритом и продолжить изучение английского языка вам помогут специальные молодежные программыизучение английского языка Document Dated: 1997/12/30 03:03:00 (server header) Plain Text Word List 5214 tokens, 2299 types Plain TextWord List путей создания тестов является глубокое изучение стандарта языка С++, в ходе которого выявляютсяизучение стандарта языка Statistics: Using the Google search engine WebCorp accessed 20 web pages, 3 of which returned errors.Google 5 concordances were generated.
20 2 июня 2005 гСПбГУ, ИЛИ РАН20 WebCorp: изучение … … языка WebCorp output for search term изучение * * языка Producing output... Document Dated: 1999/12/28 11:40:15 (server header) Plain Text Word List 2170 tokens, 1132 types Plain TextWord List изучаемого языка, б) долгосрочная изучение и использование языка в общении. Язык является отражением изучение и использование языка Document Dated: 2005/05/31 13:23:58 (server header) Plain Text Word List 527 tokens, 373 types Plain TextWord List Кроме того, институт предлагает студентам изучение второго иностранного языка. СТАЖИРОВКИ. Летние школы в зарубежныхизучение второго иностранного языка Sort Options Alphabetise concordance lines on :Position:Case Sensitive? : Sort by Date: Statistics Using the Google search engine WebCorp accessed 7 web pages, 2 of which returned errors.Google 2 concordances were generated.
21 2 июня 2005 гСПбГУ, ИЛИ РАН21 WebCorp: [run] WebCorp output for search term r[u|a]n[ning|s|] Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 980 tokens, 607 types Plain TextWord List kann. (more) Plot Outline: Lola runs. To save her boyfriend's life runs his immediate death. Lola starts running immediately thinking of a million running in her life and she runs and runs..... The quality of runs Document Dated: 2005/01/01 00:00:00 (copyright) Plain Text Word List 582 tokens, 331 types Plain TextWord List matters 'crucial to improving my running' I knew I had stumbled running revolutionary book to hit the running community this decade. It will running is revolutionizing the sport of running. Success Stories Hi I running Now a 12 mile trail run is fun! Keep up the run
22 2 июня 2005 гСПбГУ, ИЛИ РАН22 Дальнейшие возможности Ограничением область поиска определенными формальными признаками: страна (доменное имя) время Домен Тематика и др. Подобные поиски и изыскания может провести каждый лингвист, не тратя времени на сбор текстового материала. И в ряде случаев результаты будут более представительны, чем на базе специализированных корпусов.
23 2 июня 2005 гСПбГУ, ИЛИ РАН23 Спасибо за внимание! В. П. Захаров
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.