Электронные корпуса Корпусная лингвистика
Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения и использования языковых корпусов с применением компьютерных технологий.
История е годы - Brown Corpus е годы - частотный словарь русского языка Засориной е годы - русский корпус е годы - Bank of English, British National Corpus, Машинный фонд русского языка
Национальный корпус Национальный корпус имеет две важные особенности : i. он характеризуется представительностью, или сбалансированным составом текстов ; ii. корпус содержит особую дополнительную информацию о свойствах входящих в него текстов ( так называемую разметку, или аннотацию ). Разметка главная характеристика корпуса ; она отличает корпус от простых коллекций текстов. Национальный корпус имеет две важные особенности : i. он характеризуется представительностью, или сбалансированным составом текстов ; ii. корпус содержит особую дополнительную информацию о свойствах входящих в него текстов ( так называемую разметку, или аннотацию ). Разметка главная характеристика корпуса ; она отличает корпус от простых коллекций текстов.
Национальный корпус русского языка Объём корпуса ( Википедия ) Объём основного корпуса на 17 января 2013 года составлял 230 млн словоупотреблений, а общий объем корпусов 384 млн словоупотреблений. 1,5 % текстов снабжены морфологической и семантической разметкой.
COSMAS corpora или DeReKo Объём корпуса ( Википедия ) Объём корпуса составляет более 1846 млн словоупотреблений. DeReKo нацелен на охват максимально возможного объема текстов, а не на сбалансированность их состава : распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.
Corpus of Contemporary American English, COCA