Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемdocs.gsu.by
1 Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных смысловых единиц реферата выступают ключевые предложения или ключевые словосочетания и слова исходного текста.
2 Первые в их последовательной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смысловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефератов.
3 При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам:...», «Статья раскрывает следующие понятия:...» и т.д.
4 По способам выделения из исходных текстов ключевых словосочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три группы методов статистические логико-семантические позиционные
5 Суть статистической группы методов заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз ключевым предложением считается предложение текста, которое имеет несколько ключевых слов содержит ключевые слова на небольшом расстоянии друг от друга
6 Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.
7 В позиционных методах автоматического реферирования и аннотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.
8 Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.
9 Формулируя задачу построения системы автоматического аннотирования и реферирования текста, необходимо четко указать метод, который используется для выделения ключевых слов предложения способ определения ключевых словосочетаний предложения критерий выделения ключевых предложений текста тип подготавливаемой аннотации: текстовая, в виде релятора с последующими ключевыми словами и словосочетаниями, или табличная тип формируемого реферата: текстовый или табличный
10 Учитывая все сказанное, сформулируем задачу автоматического реферирования и аннотирования текста следующим образом
11 На устройстве внешней памяти (например, дискете или винчестере) находится английский научно-технический текст. Начало каждого абзаца в нем обозначено знаком*. Используя для выделения ключевых (опорных) слов текста один из вариантов статистического метода, а именно коэффициент важности слова В формуле для К важ буквы означают следующее: F частота словоупотреблений в тексте; т число абзацев текста, в которых встретилось слово; N общее число словоупотреблений в тексте; п общее число абзацев в тексте.
12 Это позволяет получить
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.