Полная версия

Главная arrow Информатика arrow Введение в математическое моделирование

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

МОДЕЛИРОВАНИЕ В ГУМАНИТАРНЫХ НАУКАХ

Гуманитарные науки... только тогда будут удовлетворять человеческую мысль, когда в движении своем они встретятся с точными науками и пойдут с ними рядом...

А. П. Чехов

Анализ текстов

Анализ текста направлен на получение различной информации из текста на каком-нибудь естественном языке. Он применяется в различных областях, таких как безопасность, коммерция, автоматизация процессов анализа и извлечения данных, литература.

Частотные характеристики текстов

Рассмотрим текст, состоящий из букв, количество которых в каждом языке ограничено. Часто анализируются следующие характеристики текста: повторяемость букв, пар букв (биграмм) и вообще m-грамм, сочетаемость букв друг с другом, чередование гласных и согласных. Эти характеристики являются достаточно устойчивыми.

Определение частотных характеристик состоит в подсчете чисел вхождений каждой из возможных m-грамм в достаточно длинных текстах Т = t1t2...tN, составленных из букв алфавита {аь а2, ..., aN}. При этом просматриваются подряд идущие m-граммы текста:

Если М — число появлений m-граммы aklak2...akm в тексте Т, a L — общее число подсчитанных m-грамм, то при достаточно больших L частоты М/L для данной m-граммы мало отличаются друг от друга. Поэтому, относительную частоту М/L можно считать приближением вероятности P(aklak2...akm) появления данной m-граммы в случайно выбранном фрагменте текста.

Наглядное представление о частотах появления букв дает диаграмма встречаемости. Такие диаграммы для русского и английского языков показаны на рис. 9.1 и 9.2.

Диаграмма частот использования букв алфавита русского языка

Рис. 9.1. Диаграмма частот использования букв алфавита русского языка

Диаграмма частот использования букв алфавита английского языка

Рис. 9.2. Диаграмма частот использования букв алфавита английского языка

Частоты существенно зависят от характера текста. Например, в научных и технических текстах редкая буква «ф» может встречаться довольно часто в связи с частым использованием таких слов, как функция, дифференциал, диффузия, коэффициент и т. п. Еще большие отклонения от нормы в частоте употребления отдельных букв наблюдаются в художественных произведениях, особенно в стихах.

Важными характеристиками текстов являются также частотные характеристики биграмм, триграмм и четырехграмм. Неравномерность fc-грамм связана с наличием в тексте большого числа повторений отдельных фрагментов текста: корней, окончаний, суффиксов, слов и фраз. Для русского языка наиболее частыми являются следующие биграммы и триграммы:

Также полезна информация о сочетаемости букв, т. е. о предпочтительных связях букв друг с другом. Эту информацию можно получить из таблиц частот биграмм.

Во многих случаях возникает потребность выявить частотные характеристики того или иного текста:

  • 1) в различных методах дешифрования применяются частотные характеристики открытых текстов, например они необходимы для методики раскрытия шифра простой замены;
  • 2) частотные характеристики текстов могут быть также использованы для подтверждения либо опровержения авторства, определения тематики и других характеристик источника.
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>