КОРПУСНОЕ ИССЛЕДОВАНИЕ РЕФЕРЕНЦИАЛЬНОГО ВЫБОРА : РОЛЬ РИТОРИЧЕСКОЙ СТРУКТУРЫ А.А.Кибрик (Институт языкознания РАН) О.Н. Красавина (МГУ и ун-т им. Гумбольдта, Берлин)
Референциальный выбор 1. Ralph Brown was 31,000 feet over Minnesota 2. when both jets on his Falcon 20 flamed out. 3. At 18,000 feet, 4. he says, 3. he and his co-pilot "were looking for an interstate or a cornfield" 5. to land. 6. At 13,000 feet, the engines restarted. 7. But Ø knowing 8. that mechanics would probably ground him for repairs, 9. Mr. Brown skipped his stop in nearby Chicago 10. and Ø set course 11. to get his load -- a few hundred parcels -- to the Memphis package-sorting hub on time.
Предшествующие работы Kibrik 1999: многофакторная количественная модель, интегрирующая около десятка дискурсивных факторов для объяснения референциального выбора в английском письменном тексте Krasavina 2004: разработка аннотационной схемы для моделирования реф. выбора в корпусе английских газетных текстов
Влияние структуры дискурса на референцию Kibrik 1996, 1999: Среди факторов референциального выбора есть несколько факторов, оценивающих расстояние до антецедента в клаузах, в том числе: линейное расстояние риторическое расстояние, определяемое на основе иерархической структуры дискурса (Mann and Thompson 1988) Риторическое расстояние – самый сильный фактор референциального выбора Это было подтверждено также в модели на основе нейронных сетей – Gruening and Kibrik 2005 ср. Givon 1983, Grosz and Sidner 1986, Fox 1987, Cristea et al и т.д.
Теория риторической структуры Дискурс – это иерархическая структура Минимальные сегменты (дискурсивные единицы) в целом совпадают с клаузами Каждый узел связан с контекстом посредством одного из риторических отношений (РО) РО бывают: асимметричные / mononuclear (ядро – сателлит): условие симметричные / multinuclear (ядро – ядро): конъюнкция Одни и те же отношения функционируют на всех иерархических уровнях дискурса
Линейное vs. риторическое расстояние С ВС А LinD12 RhD21
Линейный vs. риторический антецедент Ближайший риторический антецедент Ближайший линейный антецедент
Корпус Корпус текстов из Wall Street Journal Полностью размечен с точки зрения риторической структуры – см. Не менее 6000 референциальных выражений, что достаточно для статистически осмысленного моделирования
Этап 1: аннотация Идентификация референциальных выражений Отношения между референциальными выражениями: кореферентность и др. Характеристики референтов и референциальных выражений
Этап 2: база данных После завершения аннотации на основе корпуса можно будет создать базу данных по всем потенциальным факторам референциального выбора Разумеется, среди этих факторов должно быть риторическое расстояние Есть несколько проблем, связанных с подсчетом риторического расстояния
Проблемы I. Как считать RhD до антецедентов внутри симметричных структур? II. Следует ли учитывать различия между разными типами риторических отношений (РО)? III. Как выбирать между различными кандидатами в риторические антецеденты?
I. Антецедент внутри симметричной структуры (A)John was playing (B) and Mary was watching a movie. (C) Then she/Mary suddenly ran out. RhD(C A) = RhD(C B) ?
Решение в Kibrik 1999 RhD(C A) = 2 RhD(C B) = 1 То есть данная структура отождествляется со следующей: ОДНАКО: (A) John was playing (B) and Mary was watching a movie (C) because she was through with her homework.
Отличие от асимметричных структур Антецедент внутри симметричной структуры ведет себя иначе, чем антецедент в ядре или сателлите асимметричной структуры Антецедент внутри симметричной структуры менее доступен, чем антецедент в ядре асимметричной структуры (RhD=1) (A) John got out of the house late, (B) although the day was nice. (C) He walked towards the station более доступен, чем антецедент в сателлите асимметричной структуры (RhD=2) (A) Mary dropped the vase, (B) although Dad had warned her against that. (C) Dad/ ?? he managed to catch it. Ср. (A) John was playing (B) and Mary was watching a movie. (C) Then she/Mary suddenly ran out. Таким образом, при антецеденте внутри симметричной структуры 1 < RhD < 2
Предлагаемое решение При проникновении в симметричную структуру RhD увеличивается на 0.5 В асимметричной структуре В симметричной структуре C A11.5 C B21.5
II. Тип риторического отношения Kehler 2002: отношения «сходства» обеспечивают большую близость клауз Конструкции с сентенциальными актантами создают меньший «риторический» шаг, чем пары клауз, связанные собственно дискурсивными РО Малые клаузы создают меньший «риторический» шаг, чем полноценные клаузы
Клаузы, вводящие косвенную речь
Инфинитивная клауза
Решение Ввести информацию о РО, соединяющих клаузу референта с клаузой антецедента, в базу данных Рассмотреть тип РО как возможный фактор референциального выбора Возможно, считать риторическое расстояние от сентенциального актанта или малой клаузы до ядра равным 0.5
III. Множественность антецедентов Ø RhD=2.5 RhD=3.5
Решения Считать риторическим антецедентом более близкий Если есть два кандидата на равном расстоянии, то считать риторическим антецедентом тот, который: линейно ближе имеет более престижную синтаксическую роль присоединяется более тесным РО
Выводы Риторическое расстояние – один из наиболее трудно формализуемых факторов референциального выбора Учитывая центральность этого фактора, с этими проблемами необходимо справляться В докладе были предложены конкретные технические решения основных проблем, которые обнаружились в ходе работы с корпусом.