Элементы математической лингвистики и семиотики

Математическая лингвистика и семиотика — самые "молодые" методы формализованного отображения систем. Включение их в разряд математических нельзя считать общепризнанным.

Некоторые исследователи (например, Ю. А. Шрейдер) считают, что лингвистика в силу специфических особенностей, позволяющих моделировать развивающиеся системы и процессы (что обеспечивается отсутствием закона исключенного третьего), не является математикой в сложившемся понимании этого термина. В то же время французская школа математиков считает математическую лингвистику разделом современной математики.

Математическая лингвистика возникла во второй половине XX в. как средство формализованного изучения естественных языков и вначале развивалась как алгебраическая лингвистика. Первые полезные результаты алгебраической лингвистики связаны со структуралистским (дескриптивным) подходом. Однако в силу отсутствия в тот период концепции развития языка эти работы привели к еще большему тупику в попытках построения универсальной грамматики, и был период, когда структурализм считался неперспективным направлением развития науки о языке и даже был гоним.

Активное возрождение математической лингвистики началось в 1950—1960-е гг. и связано в значительной степени с потребностями прикладных технических дисциплин, усложнившимся задачам которых перестали удовлетворять методы классической математики, а в ряде случаев — и формальной математической логики.

В период уменьшения интереса к математической лингвистике появилось статистическое направление, которое называют статистической лингвистикой, или лингвистической статистикой.

Основные понятия, на которых базируются лингвистические представления, — тезаурус, грамматика, семантика, прагматика.

Термин "тезаурус" (от греч. 9п5сшро£, гЛ&шг/га? сокровищница, богатство, клад, запас и т.п.) в общем случае характеризует совокупность научных знаний о явлениях и законах внешнего мири п духовной деятельности людей, накопленную всем человеческим обществом. Этот термин был введен в современную литературу по языкознанию и информатике в 1956 г. Кембриджской группой по изучению языков. В то же время термин существовал раньше: в эпоху Возрождения тезаурусами называли энциклопедии.

В математической лингвистике и семиотике термин "тезаурус" используется в более узком смысле, для характеристики конкретного языка, его многоуровневой структуры. Для этих целей удобно пользоваться одним из принятых в лингвистике определений тезауруса как "множества смысловыражающих элементов языка с заданными смысловыми отношениями".

Это определение позволяет представить структуру языка в виде уровней (страт) множеств (например, слов, словосочетаний, предложений, абзацев и т.п.), смысловыражающие элементы каждого из которых формируются из смысловыражающих элементов предшествующих структурных уровней (рис. 4.6).

Правила (С, 62) формирования смысловыражающих элементов второго и третьего уровней в тезаурус не входят, в тезаурусе определяется только вид и наименование уровня, характер и вид смысловыражающих элементов.

Иногда вместо термина "смысловыражающие элементы" используется термин "синтаксические единицы" тезауруса. На взгляд авторов, это менее удачный термин, так как при формировании элементов нового множества смысловыражающих элементов каждого последующего уровня (при образовании слов из букв, фраз и предложений из слов) у элементов вновь образованного множества появляется новый смысл, т.е. как бы проявляется закономерность целостности, и это хороню отражает термин "смысловыражающий элемент".

В таком толковании понятие тезауруса можно конструктивно использовать при создании искусственных языков — языков моделирования, автоматизации проектирования, информационно-поисковых языков. Оно позволяет охарактеризовать язык с точки зрения уровней обобщения, ввести правила их использования при индексировании информации.

Можно говорить о глубине тезауруса того или иного языка, характеризуемой числом уровней, о видах уровней обобщения и, пользуясь этими понятиями, сравнивать языки, выбирать более подходящий для рассматриваемой задачи или, охарактеризовав структуру языка, организовать процесс его разработки.

Под грамматикой (которую иногда называют синтактикой, синтаксисом, что сужает понятие грамматики, исключая из него морфологию) понимаются правила, с помощью которых формируются смысловыражающие элементы языка (на рис. 4.6 два вида правил — (71 и 02, которые иногда называют грамматиками 1-го и 2-го рода). Пользуясь этими правилами, можно "порождать" (формировать) грамматически (синтаксически) правильные конструкции или распознавать их грамматическую правильность.

Термин "грамматика" употребляется в лингвистике и как укороченная замена термина "формальная грамматика", который имеет иной смысл и будет охарактеризован далее.

Под семантикой понимается содержание, значение, смысл формируемых или распознаваемых конструкций языка; под прагматикой — полезность для данной цели, задачи.

В естественном языке различить понятия, с помощью которых характеризуются термины "семантика" и "прагматика", трудно; обычно пояснить различие можно лишь при парном сопоставлении терминов:

Поэтому примято рассматривать эти понятия на примерах. Поясним различие между семантически и прагматически правильными конструкциями языка на следующих легко запоминающихся примерах.

Традиционно для пояснения синтаксической правильности и семантической бессмыслицы используется предложенный Л. В. Щербой пример "Глокая куздра тщето борзданула бокра и курдычет бокрёнка" (в котором просто нет ни одного слова естественного языка, имеющего смысл). Но примеры можно найти и в естественной речи.

Предложение "Муха лукаво всплеснула зубами" синтаксически правильное, но не имеет смысла в естественном русском языке в обиходном, широком употреблении, т.е. является с точки зрения пользователей русским языком семантически неправильным (исключим пока гипотетическую ситуацию сказки, в которой муха может быть наделена указанными свойствами).

Другое предложение "Маленькая девочка собирает цветы на лугу" — синтаксически и семантически правильное. Однако для директора завода (если ото луг, а не заводской газон, и — учтем личный фактор — если эта девочка не его дочь) это предложение не несет никакой информации, т.е. прагматически (с точки зрения целей руководителя) является неправильным. Другое дело, если "Иванов (который в данный момент должен находиться па рабочем месте) собирает цветы на лугу". Тогда это предложение было бы и прагматически правильным.

Возвратимся теперь к примеру с мухой. Приведенное предложение, семантически неправильное, может в гипотетической ситуации сказки оказаться прагматически, что важно иметь в виду при применении лингвистических представлений.

При создании и использовании искусственных языков применяют такие понятия структурной лингвистики, как порождающая и распознающая грамматика.

Под порождающей грамматикой понимается совокупность правил, с помощью которых обеспечивается возможность формирования (порождения) из первичных элементов (словаря) синтаксически правильных конструкций. Под распознающей грамматикой — правила, с помощью которых обеспечивается возможность распознавания синтаксической правильности предложений, фраз или других фрагментов языка.

Все рассмотренные понятия и равной мере используются как в математической лингвистике, так и в лингвистической семиотике. Некоторую условную границу между ними можно провести, лишь введя понятие "классы формальных грамматик" (как теорий математической лингвистики).

На базе лингвистических представлений развивается теория формальных грамматик Н. Хомского. Классы формальных грамматик Н. Хомского считаются основой теории формальных языков.

Формальный язык определяют как множество (конечное или бесконечное) предложений (или "цепочек"), каждое из которых имеет конечную длину и построено с помощью некоторых операций (правил) из конечного множества элементов (символов), составляющих алфавит языка.

Формальную грамматику определяют в виде четверки множеств:

где УТ — множество основных, или терминальных, символов; Удг — множество вспомогательных, или нетерминальных, символов; Я — множество правил вывода, или продукций, которые могут иметь вид

где Р е (У^ У^), т.е. |3 — цепочка конечной длины из терминальных и нетерминальных символов множеств УТн Удг, а

т.е. а является цепочкой из терминальных и нетерминальных символов, содержащей по крайней мере один нетерминальный символ из Ум; А — множество аксиом (в грамматиках комбинаторного типа), к которым относятся грамматики Н. Хомского; А состоит из одного начального символа 5, причем 5<г Удг.

Учитывая, что в литературе но формальным грамматикам, как правило, не стремятся к содержательной интерпретации получаемых выводов, а рассматривают лишь формальную сторону процессов порождения и распознавания принадлежности цепочек к соответствующему классу грамматик, приведем содержательный пример порождающей грамматики.

Предположим, дано:

Применяя правила А левой части в приведенной последовательности, получим:

Это — формальная сторона процесса порождения. Для того чтобы получить интерпретируемое выражение, нужно расшифровать терминальные символы, включенные в У^гаевх — ВСЕ,в — ВОЗРАСТЫ, п - ПОКОРНЫ, л - ЛЮБВИ.

Тогда полученное предложение

Если изменить последовательность применения правил, то будут получаться другие предложения. Например, если применить правила в последовательности (1) => (3) => (2) => (4) => (5), то получится "ВОЗРАСТЫ ВСЕ ПОКОРНЫ ЛЮБВИ". Если применить не псе правила: например, (1) => (2) => (4) => (5), то получим "ВСЕ ПОКОРНЫ ЛЮБВИ".

Если же попытаться получить предложение, как у А. С. Пушкина — *Лю6ви все возрасты покорны", то, как бы мы ни меняли последовательность правил, получить эту фразу не удается. Нужно изменить первое правило: вместо ^ 5Р включить в Я правило 5-" Р.

Из примера видно, что вид порождаемых цепочек (предложений) зависит от вида правил (исчисления) и от последовательности их применения (алгоритма).

С помощью приведенного примера легко также продемонстрировать тесную связь понятия "грамматически правильно" с языком (грамматикой).

Распознающая грамматика для рассматриваемого примера будет содержать как бы "перевернутые" правила — правая часть (4.11), которые должны применяться в обратной последовательности. Пример представления анализа правильности предложения с помощью правил распознающей грамматики приведен на рис. 4.7.

При распознавании правильности предложения если не оговаривать, что предложение (цепочка) грамматически правильно с точки зрения правил данного формального языка, то можно, пользуясь формальной грамматикой в первоначальном виде, получить вывод, что приведенная фраза Пушкина грамматически неправильна с точки зрения правил грамматики (4.11).

Действительно, с точки зрения правил грамматики для построения делового текста, которым соответствуют правила (4.11), другие поэтические строки часто получали бы формальную оценку "грамматически неправильно". И, напротив, если построить грамматику на основе анализа пушкинского стиля, то в деловом тексте получились бы предложения типа "Я решение свое принял правильное" (подобно фразе "Я памятник себе воздвиг нерукотворный").

Сказанное позволяет легко представить полезность определения формальной грамматики при создании языка моделирования соответствующего литературного или музыкального произведения — пародий, подражательств или, как иногда принято говорить, произведений соответствующего стиля или класса.

Например, известны работы Р. X. Заринова по моделированию музыкальных произведений в стиле, или классе, массовых советских песен, процесса сочинения стихотворных произведений и т.п.

Подобным же образом можно моделировать порождение деловых писем или других документов, имеющих, как правило, не только формализованный стиль, по и формальную структуру. Аналогично можно создавать языки моделирования структур, языки автоматизации проектирования сложных устройств и систем определенного вида (класса).

Основу подобных работ составляют идеи, которые можно пояснить с помощью классов грамматик, впервые предложенных Н. Хомским.

Разделение грамматик на классы определяется видом правил вывода й. В зависимости от них можно выделить четыре основных, наиболее часто рассматриваемых класса грамматик (табл. 4.5).

Таблица 4.5. Классы грамматик Н. Хомского

Классы грамматик Н. Хомского

В полной теории формальных грамматик с правилами типа подстановки есть и промежуточные классы.

В теории формальных грамматик показано, что имеет место следующее соотношение:

Иногда доказывают, что имеет место строгое вхождение:

При исследовании разных классов формальных грамматик получены результаты, которые позволяют сделать вывод, что по мере уменьшения числа ограничений, накладываемых на правила вывода, т.е. по мере продвижения в (4.12) слева направо, в языке увеличивается возможность отображения смысла (повышается смысловыражающая способность языка, т.е. возможность выражения с помощью формальных правил семантических особенностей проблемной ситуации): говорят, что формальная система становится более богатой. Однако при этом в языке растет число алгоритмически неразрешимых проблем, т.е. увеличивается число положений, истинность или ложность которых не может быть доказана в рамках формальной системы языка.

Здесь мы сталкиваемся фактически с проблемой Гёделя, которая в теории формальных языков обсуждается обычно в терминах этой теории. А именно: вводится понятие "операция определена (или не определена) на множестве языков данного класса"; и считают, что операция определена на множестве языков данного класса, если после применения ее к языкам, входящим в это множество, получается язык, принадлежащий множеству языков этого класса.

Например, если Я| с КС иЯс КС и если (Я, и Я) с КС, то операция объединения и определена на классе КС-языков.

Характеризуя с помощью введенного понятия классы языков, отмечают, что в последовательности (4.12) по мере продвижения слева направо увеличивается число операций, которые не определены на множестве языков данного класса.

Здесь, правда, следует оговорить, что дело обстоит не так прямолинейно. Точнее было бы сказать, что для большого числа операций нет доказательств, что они определены на классах НС-языков и НУ- языков, т.е. эти доказательства становятся сложнее или вообще (в силу теоремы Гёделя) нереализуемы средствами теории формальных грамматик.

Приведенное упрощенное представление проблемы помогает обратить внимание тех, кто будет заниматься разработкой языков программирования или программных систем, языков моделирования, автоматизации проектирования, на необходимость учета следующей закономерности: чем большими смысловыражающими возможностями обладает знаковая система, тем в большей мере растет в ней число алгоритмически неразрешимых проблем (т.е. тем менее доказательны в ней формальные процедуры).

При выходе в класс произвольных грамматик, в котором не выполняется даже условие неукорачиваемости, доказать допустимость тех или иных формальных преобразований средствами математической лингвистики практически невозможно, и поэтому в поисках новых средств исследователи обратились к семиотическим представлениям. Здесь можно провести как бы формальную границу между лингвистикой и семиотикой.

Семиотика возникла как наука о знаках, знаковых системах. Однако некоторые школы, развивающие семиотические представления, настолько равноправно пользуются в семиотике понятиями математической лингвистики, такими как "тезаурус", "грамматика", "семантика" и т.п. (характеризуемыми далее), не выделяя при этом в отдельное направление лингвосемиотику, что часто трудно определить, к какой области относится модель — математической лингвистике или семиотике.

В то же время именно в лингвосемиотике достигнуты наиболее конструктивные результаты, которые могут быть полезны при исследовании систем различной физической природы, а другие применения семиотики как пауки о знаках носят в большей мере характер методологического средства для пояснения результатов, которые ранее были получены в геометрии, алгебре и других разделах математики.

В данном учебнике для целей приложения математической лингвистики и семиотики к системным исследованиям эти направления рассматриваются совместно, но фактически речь пойдет о лингвосемиотике.

Семиотические представления пользуются другими по сравнению с математической лингвистикой средствами исследования семантических возможностей языков. В частности — понятием треугольника Фреге (рис. 4.8), согласно которому любой знак имеет форму, синтаксис (обозначаемое знака) и семантики (смысл, значение).

В пашей стране лингвосемиотику развивал Ю. Л. Трейдер, который:

  • • ввел понятие "знаковая ситуация" как пары из знака и обозначаемого данным знаком;
  • • сформулировал основные особенности знака: 1) способность знака в ряде случаев заметать обозначаемое; 2) нетождественность знака и денотата (знак никогда не может полностью заменить обозначаемое); 3) многозначность соответствия "знак — денотат" (конвенциональность обозначений);
  • • интерпретировал концепт как информацию, которую знак несет о возможных денотатах, об их положении в системе реалий, месте в универсуме;
  • • показал, что выбор денотата зависит от конкретной ситуации;
  • • ввел понятие знаковой системы как набора знаков, в котором есть какие-то внутренние отношения между обозначаемыми;
  • • установил соответствия: знак — семантика

текст — смысл

сообщение — информация

и показал, что текст может выполнять двойную функцию -знака и сообщения (рис. 4.9).

Исходная терминология семиотики позволяет отойти от представлений формальных грамматик Н. Хомского, имеющих отношения типа подстановки, и конструировать грамматику, используя более широкий спектр отношений.

В частности, на границе лингвистики и семиотики возникли языки синтагматического типа, т.е. языки, использующие правила типа {а г,, Л,-}, называемые синтагмой, где а, е Л; Ь<} е В — взаимодействующие множества (подклассы) исходных понятий языка; гк е Я — множество отношений, которые могут иметь произвольный вид. Однако такая свобода, как уже отмечалось выше, приводит к увеличению числа антиномий в языке.

Например, для информационно-поискового языка это означает ухудшение его качеств (в частности — релевантности, т.е. соответствия выдачи запросу пользователя) в силу того, что при реализации поискового алгоритма могут возникнуть замкнутые циклы, обусловленные противоречивыми правилами грамматики языка.

Поэтому используемые отношения конкретизируют. В частности, Ю. А. Шрейдер исследовал возможности использования отношений эквивалентности, толерантности и строгого порядка, определяемых на основе свойств рефлексивности, симметричности и транзитивности (табл. 4.6).

Таблица 4.6. Определение отношений эквивалентности, толерантности и строгого порядка

Определение отношений эквивалентности, толерантности и строгого порядка

Для пояснения возможностей, появляющихся при таком подходе к созданию языка, проиллюстрируем применение отношения толерантности. Как видно из табл. 4.6, по определению толерантность — особый вид сходства, при котором сопоставляемые элементы языка находятся в отношении, обладающем рефлективностью и симметричностью, но не обладающем транзитивностью. Это означает, что, например, если при сопоставлении слов ввести допустимую ошибку в один символ, то отношение сходства между первым и вторым словами может быть признано (с точностью до допустимой ошибки) рефлексивным и симметричным; аналогично -между вторым и третьим; но первое и третье слова уже могут отличаться не одним, а двумя символами, и сходства между ними можно вообще не обнаружить, т.е. не будет выполнено отношение транзитивности.

Рис. 4.10

Для пояснения толерантности Ю. А. Шрейдер приводит образный пример, как в результате применения такого отношения можно получить из "мухи" "слона" (т.е. из слова "муха" получить слово "слон"), а также иллюстрирует понятие транзитивности с помощью гравюры голландского художника М. К. Эсхера "Небо и вода", на которой едва различимые преобразования на каждом шаге сверху вниз постепенно превращают контуры птиц в контуры рыб (рис. 4.101).

Возникновение подобных ситуаций важно учитывать при разработке языков для формального кодирования передачи текстов и восстановления их в месте приема.

С помощью отношения толерантности можно отобразить некоторые отношения между словами естественного языка.

Например:

где т — операция установления сходства.

Приведенные соотношения (4.13) означают, что в синтагме "рама т стол" имеет место отношение сходства с точностью до рефлексии и симметрии, в синтагме "стол т книгу" — тоже, а между элементами синтагмы "рам-а" — "книг-у" сходства нет в силу невыполнения по определению для рассматриваемого отношения свойства транзитивности.

Попытаемся интерпретировать формальную запись (4.13). Содержательный анализ этих соотношений позволяет понять, что в них отражено сходство по падежу: слова мужского рода ("стол") могут употребляться в русском языке в одинаковой форме в именительном (первая строка) и винительном (вторая строка) падежах, в то время как слова женского рода имеют в этих падежах разную форму, что и обусловило нетранзитивность.

Аналогично можно отобразить сходство по роду, так как в русском языке могут использоваться одни и те же имена для женщин и мужчин, что в тексте без дополнительных пояснений или учета формы глагола может оказаться нераспознаваемым. Можно также отразить понятие места в предложении или места предложения в абзаце и т.п.

Таким образом, вводя в язык отношение толерантности (например, путем формирования классов толерантности), можно отразить в языке взаимоотношения между словами и высказываниями более полно и точно, чем это позволяют делать отношения математической логики или грамматик Н. Хомского. Такие языки необходимы при расшифровке древних рукописей, при автоматизации процесса перевода с одного языка на другой.

Однако следует иметь в виду, что создание подобных языков — весьма сложный и трудоемкий процесс и поэтому в практике информационного поиска или разработки языков моделирования в тех случаях, когда есть возможность отразить особенности моделируемой ситуации иным способом, рассматриваемый подход не применяют.

В частности, при разработке некоторых информационно-поисковых языков было предложено вводить при индексировании текста понятия "указатели роли", "указатели связи", которые легче интерпретируются при ручном индексировании, чем понятие толерантности. В то же время при автоматизации индексирования может возникнуть необходимость в использовании отношений, приведенных в табл. 4.5, поскольку они, обладая большими по сравнению с лингвистическими представлениями смысловыражающими возможностями, все же базируются на определенной формальной основе, которая может позволить сделать язык более алгоритмизируемым.

 
< Пред   СОДЕРЖАНИЕ     След >