Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная математика и фундаментальная информатика» ДОМАШНЕЕ ЗАДАНИЕ Презентация на тему: «Автоматическое реферирование электронных данных в интернете» Выполнил: студент гр. ЗКТО-172_________Авакиян Д.А. Проверил: ст. преподаватель_________ Вавилова И.И. Омск-2018
HD 5500×5500D 5500×5500
История применения вычислительной техники для реферирования насчитывает уже более сорока лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Севбо, Э.Ф. Скороходько, В.П. Леонов, Р.Г. Пиотровский и многие другие. За эти годы были выработаны многочисленные подходы к решению данной проблемы. Автоматическое реферирование (Automatic Text Summarization) – извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования – квазиреферирование и краткое изложение содержания. Краткое изложение исходного материала основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. Квазиреферирование основано на экстракции из первичных документов с помощью определённых формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт (квазиреферат). Собственно автоматическое реферирование же основано на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), в большей или меньшей степени изоморфных первичным документам (или их частям). Квазиреферирование обладает той особенностью по сравнению с собственно реферированием, что основывается на анализе поверхностно-синтаксических отношений в тексте, которые выражены в нём и не требуют обращения к глубинно-семантическим процессам, изученность которых ещё явно недостаточна для описания свойств любого текста. Второе направление в настоящее время представлено экспериментальными исследованиями и до широкой реализации ещё не дошло
Экстрактивные методы Экстрактивный метод предполагает акцент на выделение характерных фрагментов (как правило, предложений). Для этого методом сопоставления фразовых шаблонов, выделяются блоки наибольшей лексической и статистической релевантности. Создание итогового документа в данном случае – это соединение выбранных фрагментов. В большинстве методов применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости. Сумма индивидуальных весов, как правило, определённая после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, даёт общий вес всего блока текста. Одна группа метрик, например, метрика tf.idf, характеризует баланс между частотой появления термина в документе и частотой его появления в наборе документов (как правило, используется с другими метриками частоты и средствами нормализации длины)