Методы кибернетики как инструмент исследования звучащей речи
Использование методов моделирования для преодоления низкой сопоставимости исходного и сравнительного речевого материала в задаче криминалистической идентификации говорящего
Успешное решение задач криминалистической идентификации личности по голосу и звучащей речи связано с преодолением ряда трудностей, обусловленных растущим многообразием речевого материала, поступающего на такие экспертизы.
Фонограммы, подлежащие исследованию, очень часто характеризуются недостаточным объемом, зашумленностью, низкой разборчивостью, невысокой (на первый взгляд) сопоставимостью исходной и сравнительной записей, различием технических характеристик каналов записи и др.
За прошедшие годы к перечисленным выше сложностям добавилась еще и проблема идентификации дикторов, говорящих на так называемых этнических языках, которая в настоящее время приобретает все большую актуальность.
Не пытаясь в данной статье охватить весь перечень перечисленных выше трудностей, остановимся только на вопросе преодоления низкой сопоставимости исходных и сравнительных записей, используемых в процессе идентификационного исследования, который уже частично освещался в наших работах[1] [2].
Успешному решению этого вопроса может помочь использование в процессе криминалистической идентификации диктора методов моделирования. Эти методы давно и широко применяются в различных сферах человеческой деятельности при построении и отработке сложных систем [Глинский, Грязнов, Дынин, 1965]. Большая советская энциклопедия определяет моделирование как «исследова
ние объектов познания на их моделях... для определения, уточнения их характеристик, рационализации способов их построения...»
Не обсуждая подробно вопросы классификации методов моделирования, отметим только, что любая классификация таких методов обречена на неполноту, тем более что терминология в этой области опирается не столько на строгие правила, сколько на языковые, научные и практические традиции. Чаще всего эта терминология определяется в рамках конкретного контекста и вне его никакого стандартного значения в себе не несет.
Типичным примером может служить термин «кибернетическое моделирование»1, при котором обычно абстрагируются от структуры изучаемой системы, рассматривая последнюю как «черный ящик». Сама модель системы при таком подходе строится в терминах соотношения между состояниями ее «входов» и «выходов»[3] [4].
Если модель и моделируемый объект имеют одну и ту же физическую природу, то говорят о физическом моделировании[5].
Возможность переноса результатов, полученных в ходе построения и исследования моделей, на оригинал, основана на том, что модель в определенном смысле отображает (воспроизводит, моделирует) какие-либо черты этого оригинала — например, поведение органов речевого аппарата диктора в том или ином его эмоциональном состоянии, если речь идет о фигуранте криминалистической экспертизы.
1. Применение метода моделирования для выбора речевого материала при невозможности получения нового образца. Рассмотрим вначале случай, когда у эксперта-исследователя нет возможности получить новый, отвечающий всем необходимым требованиям, образец голоса и звучащей речи лица, подозреваемого в совершении преступного деяния. Поясним, что такой образец необходим для сравнения с речевым материалом, зафиксированным на исходной записи, полученной, например, в ходе ОРМ.
Преодолению низкой сопоставимости исходного речевого материала и сравнительной записи способствует, наряду с другими факторами, и правильный подбор тех фрагментов исходной фонограммы, которые будут впоследствии использованы в процессе сравнительного анализа. Вопросы такого подбора нередко носят нетривиальный характер и каждый раз требуют специального рассмотрения.
Известно, что в криминалистике и в теории судебной экспертизы широко используется понятие функционально-динамических комплексов (ФДК) навыков, носителем которых является человек [Орлова, 1997, с. 124]. Навыки имеют свою физиологическую основу, механизмы реализации, этапы формирования. Будучи материально отображенными в обстановке расследуемого события, ФДК навыков оказываются источниками важной криминалистической информации.
Проиллюстрируем использование ФДК навыков звучащей речи для моделирования работы фонационного аппарата подозреваемого, который находился в пониженном эмоциональном состоянии во время отбора у него образца голоса и звучащей речи.
На рис. 7.1.1 приведено распределение частоты основного тона (далее — ЧОТ) голоса неизвестного фигуранта (далее — фигурант М) в условиях воздействия шумов при заметной активизации эмоционального состояния участников разговора, в котором шел спор о сумме взятки (кривая 1). На этом же рисунке (кривая 2) показано распределение частоты основного тона для фонограммы-образца, на которой подозреваемый в пассивном, вялом эмоциональном состоянии читал в кабинете следователя предложенный ему текст1, в среднем, обычном для этого диктора темпе[6] [7] речи.

Рис 7.1.1 Распределение частоты основного тона для речи М в исследуемом диалоге (кривая 1) и при чтении подозреваемым текста в нормальном для него темпе речи (кривая 2)
Из сравнения кривых 1 и 2 (рис. 7.1.1) видно, что распределения сильно отличаются друг от друга: среднее значение частоты основного тона для распределения исходной записи =125 Гц, для фонограммы образца =109 Гц. Темп речи в первом случае составил около семи слогов в секунду, а во втором (при чтении текста-образца длительностью около шести минут) — пять-шесть слогов в секунду. Такое отличие распределений ЧОТ и темпа речи объясняется разницей в эмоциональном состоянии диктора: активным в исходной записи и пассивным в образце. Таким образом, активное эмоциональное состояние характеризуется более высоким значением средней частоты основного тона и более быстрым темпом речи.
Сопоставление исходной и сравнительной записей по параметрам частоты основного тона и темпу речи (см. столбцы «исходная» и «образец (чтение)» табл. 7.1.1) показывает их несовпадение. Указанное несовпадение, однако, не следует связывать с биометрическими характеристиками фонационного аппарата. Расхождение в параметрах основного тона и темпа речи в табл. 7.1.1 могут быть объяснены ситуативными условиями записи исходной и сравнительной фонограмм (спор о сумме взятки «на повышенных тонах» в исходной записи и чтение текста в кабинете следователя после предъявления фигуранту обвинения в записи-образце). Неодинаковость речевых ситуаций и породила различие в степени напряженности голосовых связок фигуранта и как следствие несовпадение речевых структур.
В процессе исследование речи М было отмечено, что ее характерной особенностью являлось постоянное, вошедшее в навык, употребление им нецензурной лексики не несущей функциональной нагрузки. Нецезурная лексика, а также так называемые слова-сорняки («это», «это самое» и др.) занимали в исходной записи =6,2 секунд из общего объема речи М длительностью =13 секунд, т. е. около половины его речевой продукции. Эти выделенные фрагменты сближались со сравнительной записью по темпу речи, степени напряжения голосовых связок, акустическим характеристикам источника возбуждения речевого тракта (см. столбец «исходная фрагменты» табл. 7.1.1).
Они служили своеобразной зоной отдыха для говорящего и выполняли функцию связки с другими фрагментами высказываний. Это весомый факт в пользу идентификации фигуранта. Существенно отметить, что данные аудитивной и лингвистической частей комплексного идентификационного исследования также свидетельствовали об идентичности голосов и речи на исходной и сравнительной фонограммах.
Средневзвешенное относительное отклонение параметров частоты основного тона и темпа речи выборок исходного речевого материала (столбцы «исходная» и «исходная фрагменты» табл. 7.1.1) от параметров фонограммы-образца составляет соответственно 14,5 и 8,7 %.
Таблица 7.1.1
Сопоставление исходной и сравнительной записей по средней частоте основного тона и темпу речи
Параметры основного тона и темпа речи |
Фигурант М (подозреваемый) |
||
Исходная (в целом) |
Исходная (фрагменты) |
Образец (чтение) |
|
Медиана основного тона, Гц |
126 |
109 |
107 |
Среднее значение основного тона голоса, Гц |
125 |
111 |
109 |
Максимальное значение частоты основного тона, Гц |
152 |
120 |
139 |
Минимальное значение частоты основного тона, Гц |
102 |
104 |
93 |
Относительное значение диапазона основного тона |
1,3 |
1,5 |
1,6 |
Количество слогов в секунду |
7 |
7 |
5—6 |
Столбец «исходная» — исходная запись в целом;
Столбец «исходная фрагменты» — фрагменты исходной записи с нецензурной лексикой;
Столбец «образец (чтение)» — сравнительная запись (чтение М текста в нормальном темпе).
Хотя оба значения не выходят за пределы допустимой внутри-дикторской вариативности[8], приведенный выше анализ параметров частоты основного тона и темпа речи подтвердил большую (по сравнению с исходной записью в целом) близость акустических характеристик нецензурной лексики и слов-сорняков в исходной записи М и чтения подозреваемым текста в фонограмме-образце. Иными словами, выделение идентификационных признаков, основанных на ФДК навыков лексической группы, позволили провести на исходном речевом материале моделирование работы фонационного аппарата М в пассивном, вялом эмоциональном состоянии, преодолев тем самым неполную сопоставимость исходной записи данного фигуранта и образца голоса и речи подозреваемого.
Подобные ситуации не относятся к числу единичных и заслуживают специального психолингвистического исследования, поскольку нельзя утверждать, что описанная близость акустических характеристик нецензурной лексики к различным видам нейтральной речи представляет собой общее явление. Не исключено, что возможны и другие соотношения, т. е. в массе экспертных ситуаций нецензурная лексика может выступать как в функции передышки, так и, напротив, в функции выразителя состояния возбуждения.
В любом случае, однако, приведенный пример ярко иллюстрирует тот факт, что использование ФДК речевых навыков (в данном случае — навыков лексической группы) может оказать существенную помощь при отборе речевого материала исходной записи в процессе определения фонационных характеристик фигуранта экспертизы в тех случаях, когда у эксперта-исследователя отсутствует возможность получения нового образца голоса и речи1.
2. Моделирование речевой ситуации исходной записи в процессе получения образца. Рассмотрим еще один случай использования метода моделирования в процессе отбора речевого материала при решении задачи идентификации личности говорящего. Речь пойдет о моделировании ситуации речевого общения в ходе получения сравнительной записи.
Известно, что полновесный образец голоса и речи фигуранта идентификационной экспертизы не ограничивается чтением текстов [Каганов, 2012, с. 125]. Такое чтение составляет лишь часть фонограммы-образца, которая в обязательном порядке должна включать в себя также запись свободной неподготовленной заранее (так называемой спонтанной) речи.
Обсудим построение и содержание беседы с фигурантом экспертизы[9] [10], если речь идет об отборе образцов голоса и речи для сравнительного идентификационного исследования. Беседа должна быть построена так, чтобы больше говорил фигурант. Пример такой беседы можно найти в журналистских интервью, в разговорах на свободную тему, полученных из семейных архивов, и (что для нас особенно важно) в звукозаписях допроса свидетеля, потерпевшего, подозреваемого или обвиняемого.
Поясним, что согласно ч. 4 ст. 189 УПК РФ «По инициативе следователя или по ходатайству допрашиваемого лица в ходе допроса могут быть проведены фотографирование, аудио- и (или) видеозапись, киносъемка, материалы которых хранятся при уголовном деле и по окончании предварительного следствия опечатываются».
Тема разговора в процессе записи образца не обязательно должна быть целиком связана с обстоятельствами расследуемого дела. Рассказ фигуранта может включать в себя также фрагменты повествования о его жизни, профессии, о каких-либо событиях в городе, в стране. В зависимости от темы, от характера фигуранта и лица, производящего запись (интервьюера, судьи, следователя, специалиста1), может преобладать монологический или диалогический вид речи. Это спонтанная звучащая речь. Объем речи может быть определен с точки зрения состава (монолог, диалог, бытовые и профессиональные темы) и длительности звучания речи фигуранта =12 минут (±2 минуты)[11] [12]. Этого будет достаточно для того, чтобы выявить многие особенности речи по сравнению с литературной нормой. Например:
- — оканье/аканье/иканье/еканье/яканье (яканье — произношение типа сестра — как [с’астра], понедельник — как [пън’ад’ел’-н’ик] и др., которое встречается в среднерусских диалектах (например, в Брянской и Калужской областях);
- — распределение оканья по слогам: предударным и заударным, в предлогах (под, от, про и др.);
- — соседство оканья и аканья, иканья и еканья, преобладающий вариант;
- — изменение фокуса артикуляции гласных и согласных (сдвижение вперед или назад, сдвижение фокуса артикуляции по направлению к средней части ротовой полости);
- — особенности качественной и количественной редукции безударных гласных, особенности реализации формулы А. А. Потебни;
- — степень мускульной напряженности согласных;
- — особенности произношения шипящих (огубленность, полумягкость, шепелявость);
- — особенности произношения свистящих, прежде всего мягких;
- — степень плотности смычки, прежде всего у переднеязычных смычных;
- — стилистические особенности;
- — интонационные особенности (типы интонационных конструкций (далее — ПК), степень контрастности центра ИК, место центра ПК, количество слов в ИК и др.) [Брызгунова, 2007, с. 102] и др.
Интересно отметить, что эксперты-исследователи, как правило, стараются выбрать для анализа (если это позволяет протяженность фонограммы-образца) вторую половину сравнительной звукозаписи. Это связано с тем, что в начале допроса фигурант чаще всего скован, психологически напряжен. По мере развития диалога с судьей, следователем или специалистом, отбирающим образец, фигурант, как правило, раскрепощается, забывается, начинает говорить в своей обычной, естественной манере. Именно эту часть записи-образца предпочтительнее использовать впоследствии для сравнительного идентификационного исследования.
Таким образом, правильное моделирование речевой ситуации в процессе получения сравнительной записи позволяет повысить сопоставимость исходной фонограммы и фонограммы-образца и получить материал, пригодный для проведения криминалистического исследования на всем поле идентификационных признаков.
3. Моделирование эмоционального состояния говорящего за счет искусственного ослабления обратной связи. Продолжая обсуждение вопросов преодоления низкой сопоставимости исходной и сравнительной фонограмм, перейдем к случаю такого моделирования работы органов речевого аппарата, которое отражало бы эмоциональное состояние фигуранта экспертизы.
В кибернетике давно и хорошо известно понятие обратной связи [Солодовников, 1967, с. 146], которую можно определить как обратное воздействие результатов процесса на его протекание или воздействие управляемого процесса на управляющий орган. Таким образом, в системах с обратной связью дополнительно появляется еще один информационный поток — от управляемого объекта к системе управления [Летов, 1969, с. 181]. Этот поток и принято называть обратной связью. Обратная связь характеризует системы регулирования и управления в живой природе, обществе и технике.
С этой точки зрения процесс продуцирования и восприятия речи самим говорящим можно представить в виде схемы (рис. 7.1.2).

Рис. 7.1.2. Схема процесса продуцирования и восприятия собственной речи говорящим
Роль обратной связи в данной модели играет та часть воспринимаемой человеком звуковой волны (порожденной его собственным речевым аппаратом), которая распространяется обычным, т. е. воздушно-жидкостным путем, а не передается через так называемую костную проводимость. Воздействуя на этот канал слуховой информации, можно управлять процессом порождения речи.
Проиллюстрируем приведенное положение примером из нашей экспертной практики. В одном из экспертных исследований (речь шла о решении задачи криминалистической идентификации личности говорящего по голосу и звучащей речи) мы столкнулись со случаем несопоставимости исходной фонограммы, полученной в процессе ОРМ, и образца голоса и речи обвиняемого, полученным в процессе допроса.
Несопоставимость двух звукозаписей была обусловлена различием в эмоциональном состоянии фигуранта и в ситуационных условиях общения. Разговор с потерпевшей, записанный на исходной фонограмме, проходил с глазу на глаз, без свидетелей в кабинете обвиняемого, т. е. на его рабочем месте. Фигурант экспертизы (военный прокурор) находился в активном эмоциональном состоянии, вел разговор уверенно, говорил хорошо отработанным командным голосом.
Образец голоса и речи отбирался у фигуранта в ходе его допроса, после предъявления ему обвинения. Обвиняемый находился в пассивном эмоциональном состоянии, скользящим к подавленности, его речь на протяжении всей фонограммы-образца была монотонной, вялой.
Экспертами было заявлено ходатайство об отборе у обвиняемого еще одного образца его голоса и речи. В рекомендациях по отбору нового образца специалисту или следователю, производившему запись, было предложено перед ее началом надеть на фигуранта наушники. Это было сделано с тем, чтобы ослабить обратную связь, в роли которой (рис. 7.1.2) выступали те звуки, которые человек воспринимает благодаря воздушно-жидкостной проводимости его слухового аппарата [Шиффман, 2003, с. 505], т. е. когда ухо выступает в роли анализатора внешней среды, а звук является внешним раздражителем[13].
После ослабления обратной связи, когда фигурант, надев наушники, стал хуже себя слышать, он непроизвольно усилил голос. Тем самым была смоделирована работа его речевого аппарата в условиях, характерных для записи исходного речевого материала. Результаты сравнения численных значений параметров ЧОТ и спектральных характеристик русских гласных (в фонетически сильных позициях), выделенных в процессе исследования речи фигуранта в исходной записи и в новом образце, показали, что различие значений соответствующих фонационных и артикуляционных характеристик оказалось значительно меньше пределов внутридикторской вариативности.
Необходимо подчеркнуть, что — как и в примере из раздела 1 — данные аудитивной и лингвистической частей комплексного идентификационного исследования также свидетельствовали об идентичности голосов и речи на исходной и сравнительной фонограммах.
Таким образом, обратная связь в виде внешнего слуха диктора позволяет контролировать и учитывать действительное состояние управляемой системы (в нашем случае речевого аппарата) и вносить соответствующие корректировки в алгоритм ее управления.
Представленный анализ применения методов моделирования для преодоления низкой сопоставимости исходного и сравнительного речевого материала показывает, что общие принципы моделирования (на которых базируется по существу любой метод экспериментального научного исследования, использующий предметные модели) могут быть успешно использованы в задаче криминалистической идентификации личности по голосу и звучащей речи.
Литература
Брызгунова, Е. А. Современное состояние русского языка в свете общей теории языковых изменений (в аспекте судебной экспертизы) // Теория и практика судебной экспертизы. — 2007. — № 3 (7).
Гласман, К. Ф. Слуховая система человека: основные свойства// Архив журнала «Звукорежиссер» за 2005 г. — иЯЬ: http://www.rus.625-net.ru/ аибюргобисег/2005/03/трЗ.Нгт.
Каганов, А. Ш. Криминалистическая экспертиза звукозаписей : монография. — Москва : Юрлитинформ, 2005.
Каганов, А. Ш. О получении образцов голоса и речи фигурантов криминалистической экспертизы звукозаписей // Теория и практика судебной экспертизы. — 2010. — № 3.
Каганов, А. Ш. Криминалистическая идентификация личности по голосу и звучащей речи : монография. — 2-е изд. — Москва : Юрлитинформ, 2012.
Летов, А. М. Динамика полета и управление. — Москва : Наука, 1969.
Орлова, В. Ф. Систематизация свойств и признаков объектов судебной экспертизы, являющихся отражением функционально-динамических комплексов (ФДК) навыков// Основы судебной экспертизы. Ч. I. Общая теория : методическое пособие для экспертов, следователей и судей / под редакцией Ю. Г. Корухова. — Москва : Российский федеральный центр судебной экспертизы при Минюсте России, 1997.
Рамишвили, Г. С., Чикоидзе, Г. Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. — Тбилиси : Мецниереба, 1991.
Солодовников, В. В. и др. Теория автоматического регулирования. Кн. 1. Математическое описание, анализ устойчивости и качества систем автоматического регулирования. — Москва : Машиностроение, 1967.
Шиффман,Х. Р. Ощущение и восприятие. — 5-е изд. — Санкт-Петербург : Изд-во Питер, 2003.
- [1] Вопросы психолингвистики. 2014. № 3 (21). С. 50—59.
- [2] См., например, [Каганов, 2010, с. 137].
- [3] Задачу криминалистической идентификации личности по голосу и звучащей речи можно рассматривать как задачу речевой и аналитической кибернетики (см., например, [Каганов, 2012, с. 19]).
- [4] Напомним, что «входы» соответствуют внешним воздействиям на изучаемую систему, а «выходы» — ее реакциям на них, т. е. ее поведению.
- [5] Типичным примером физического моделирования может служить работа имитатора, который пытается воспроизвести речь другого человека с помощью средств своего речевого аппарата.
- [6] Указанный текст представлял собой фрагмент УПК РФ.
- [7] В процессе получения образцов голоса и речи информанту (свидетелю, подозреваемому, обвиняемому или потерпевшему) в числе прочих тестов предлагают прочитать тексты как в нормальном для данного индивидуума темпе, так и в убыстренном [Каганов, 2005, с. 237].
- [8] Напомним, что предельно допустимая внутридикторская вариативность характеристик основного тона согласно литературным источникам составляет от 15 до 20 % [Рамишвили, 1991, с. 31].
- [9] Например, в тех случаях, когда на момент проведения экспертного исследования фигуранта экспертизы уже нет в живых.
- [10] В данном контексте под фигурантом экспертизы понимается тот обвиняемый, подозреваемый, свидетель или потерпевший, образец голоса и речи которого отбирается для последующего сравнительного анализа.
- [11] В соответствии с ч. 1 ст. 58 УПК РФ специалист может привлекаться «к участию в процессуальных действиях в порядке, установленном настоящим Кодексом, для содействия в обнаружении, закреплении и изъятии предметов и документов, применении технических средств в исследовании материалов уголовного дела».
- [12] Здесь разговор идет именно о длительности звучания речи данного фигуранта, а не о длительности сравнительной звукозаписи в целом.
- [13] Известно, что существуют два способа передачи звуковых колебаний к рецепторам — воздушная проводимость и костная проводимость. В случае воздушной проводимости звуковые волны попадают в наружный слуховой проход и вызывают колебания барабанной перепонки, передающиеся на слуховые косточки — молоточек, наковальню и стремечко; смещение основания стремечка, в свою очередь, вызывает колебания жидкостей внутреннего уха и затем — колебания основной мембраны улитки. При костной проводимости звук, источник которого соприкасается с головой, вызывает вибрацию костей черепа, в частности височной кости черепа, и за счет этого — опять-таки колебания основной мембраны. В обоих случаях звуковые волны распространяются от основания к верхушке улитки. При этом для волны каждой частоты существует область основной мембраны, где амплитуда колебаний наибольшая: для высоких частот она ближе к основанию улитки, для низких — к верхушке [Гласман, 2005].