Электронные корпуса

Корпусная лингвистика - это наука о создании и использовании корпусов.

Наряду с опросами носителей языка и экспериментами корпусная лингвистика является методом исследования аутентичных языковых данных.

 

Основные понятия корпусной лингвистики приведены в ПРЕЗЕНТАЦИИ.

Для большинства крупных языков мира уже созданы уже так называемые национальные корпуса. Общепризнанным образцом является, в частности, Британский национальный корпус (100 млн. слов), на который ориентированы и многие другие корпуса.

 

Национальный корпус русского языка - это

  • корпус современного русского языка объемом более 300 млн. слов,
  • информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

 

Образовательный портал Национального корпуса русского языка 

 

Задание 1.

1. Зайдите на главную страницу НКРЯ.

2. Выберите в меню «Поиск в корпусе»

3. В разделе «Лексико-грамматический поиск» введите в первую строку «слово» слово «Интернет», во вторую строку «слово» - слово «джунгли».

4. Установите расстояние от 1 до 100.

5. Нажмите кнопку «искать» внизу.

6. Сколько примеров Вы получили? Что иллюстрируют данные примеры?

7. Если одного предложения Вам недостаточно и хочется посмотреть более широкий контекст, нажмите на стрелки в конце примера.

8. Посмотрите информацию об источниках (нажатием левой кнопкой мыши на названии).

9. Посмотрите примеры в формате KWIC (верхний правый угол). KWIC – key word in context: ключевое слово отображается в середине строки, справа и слева контекст (сколько поместится в строку)

10. Сохраните примеры в формате Excel (внизу страницы).

 

Задание 2.

Посмотрите сочетаемость имени прилагательного «интернетовский» с именами существительными в русском языке.

Для удобства выберите в меню «Настройки» (верхний правый угол) сортировку примеров по левому контексту.

С какого времени употребляется данное слово (выберите сортировку примеров по дате создания)?

Сохраните примеры в формате Excel.

Посмотрите употребление данного слова в других корпусах (помимо основного).

 

Источники:

  1. Захаров В.П. Обзор корпусов. Презентация. – Режим доступа: download.yandex.ru/class/zakharov/CL_L9.ppt
  2. Образовательный портал Национального корпуса русского языка. – Режим доступа: http://studiorum.ruscorpora.ru/index.php?option=com_content&view=article&id=241&Itemid=48
  3. Портал «Национальный корпус русского языка». – Режим доступа: http://www.ruscorpora.ru/
  4. Портал «Фонд знаний ЛОМОНОСОВ». Энциклопедия. Статья «Конкорданс». – Режим доступа: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127200
  5. Scherer C. Korpuslinguistik. – Universitätsverlag WINTER Heidelberg. – 2006. – 98 S.

Перспективы: Корпусная лингвистика и корпус русского языка

Лингвист Владимир Плунгян о становлении теоретической лингвистики, языке как объекте и значении корпуса

ЭЛЕКТРОННЫЕ КОРПУСА НЕМЕЦКОГО ЯЗЫКА

Корпус для создания словаря немецкого языка  20 в. был собран Берлинско-Бранденбургской Академией наук.

Он включает несколько подкорпусов:

  • художественная литература (26%);
  • газеты (27%);
  • научная литература (22%);
  • нехудожественные тексты (20%)
  • устные тексты (5%).

В итоге корпус включает 106 миллионов слов и более 200.000 статей.

В корпусе можно отдельно выбирать временные периоды и типы текстов.

Корпус соединен также с другими корпусами, например, в корпусом немецкого языка 21 века.

Доступ бесплатный, однако требуется регистрация для работы с основным корпусом.

 

Помощь по работе с корпусом

Важна правильная формулировка запроса!

Например,

Коллекция корпусов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия), представляет собой самое большое в мире электронное собрание современных немецкоязычных текстов.


Корпуса известны под именем IDS corpora, а также DeReCo.

В собрании представлены различные типы текстов: периодика, художественная проза, научная и научно-популярная литература и др.

Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.).


Ресурс включает в себя также созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.


Объем корпуса с 28 миллионов словоупотреблений в 1992 году возрос до более 5,4 миллиардов в 2012 году.


Корпус довольно сложен в использовании, требует установки специальной программы (оболочки COSMAS II) и регистрации, в открытом бесплатном доступе выложены далеко не все подкорпуса. Возможен тестовый ограниченный онлайн-поиск.

 

Синтаксически аннотированный корпус немецких газетных текстов (Frankfurter Rundschau), в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей, банки синтаксических структур, Treebank / Baumbank).

 

Корпус содержит около 20 000 предложений (350 миллионов слов).

 

Корпус бесплатно доступен для исследовательских целей после подписания специальной лицензии.

 

Преимуществом такого корпуса является возможность поиска по заданным синтаксическим критериям (например, все предложения с междометиями / составным именным сказуемым / глагольным сказуемым / и т.п.)

 

Пример синтаксической аннотации номинальной конструкции / именной фразы (Nominalphrase):