Язык эмоций и эмоциональный слух. Избранные труды
Шрифт:
Что же касается языка эмоций в «наоборотном» виде, то, как показали наши опыты, он доступен каждому из нас.
Двухканальная природа речевого общения
Одним из важнейших принципов работы мозга, отличающих его от многих технических систем, в частности ЭВМ (по крайней мере, старого типа), является принцип параллельной обработки многих разных видов информации, поступающей по разным анализаторным каналам (слух, зрение, кожно-тактильное, мышечное чувство и др.) и даже в пределах одного и того же канала. Применительно к звуковой речи мозг можно считать двухканальной системой, несмотря на кажущуюся одноканальность речевого акустического сигнала.
Таким образом, традиционная одноканальная схема речевой коммуникации (заимствованная в свое время у Шеннона) нуждается в принципиальной коррекции. В свете приведенных в этом разделе данных
Рис. 7. Традиционная схема речевой коммуникации, представленная одним каналом (А), и схема речевой коммуникации, подчеркивающая ее двухканальную природу
В мозгу человека осуществляется функциональное разделение этих каналов по принципам обработки информации: левое (лингвистическое) полушарие осуществляет посегментный анализ речевого сигнала, ориентируясь на тонкую динамику его формантной структуры в микроинтервалах времени, а правое (экстралингвистическое) полушарие использует целостный принцип анализа на основе сравнения интегрального акустического образа сигнала с хранящимися в памяти паттернами (эталонами) образцов этого вида информации.
Двухканальный принцип работы мозга проявляется не только в условиях восприятия речи, но и в процессе формирования (порождения) речевого высказывания в форме принципиально разных функций больших полушарий мозга в этом процессе.
Рис. 8. Вероятность (Р, %) правильного восприятия различных видов речевой информации при увеличении соотношения шум/сигнал (дБ): 1 – лингвистической, 2 – эмоциональной, 3 – половой принадлежности диктора.
Помехоустойчивость экстралингвистических видов информации (эмоциональной и о половой принадлежности диктора) намного выше, чем лингвистической (речь). При действии сильного шума (при соотношении сигнал/шум=+16 дБ) лингвистическая информация полностью разрушается (слушатели не могут разобрать ни одного слова), но восприятие эмоций возможно с вероятностью более 50 %, а пола диктора – более 80 %
Объективной основой разделения мозгом каналов лингвистической и экстралингвистической коммуникации являются различия в акустических средствах и принципах кодирования этих двух видов речевой информации. Если для вербальной информации определяющим является динамика формантной структуры сигнала, то для экстралингвистической, как показали наши исследования, особую роль приобретают динамика основного тона голоса и другие особенности просодической организации речи. Таким образом, лингвистический и экстралингвистический каналы оказываются обособленными (по целому ряду критериев) во всех звеньях системы речевой коммуникации. По отношению к действию шума эта обособленность проявляется в разной помехоустойчивости лингвистической и экстралингвистической информации: помехоустойчивость экстралингвистической информации оказывается выше (рисунок 7).
Несомненны также различия между указанными каналами и в эволюционно-историческом аспекте: экстралингвистическая коммуникация является значительно более древней по сравнению с лингвистической. Возникновение в процессе эволюции слова как весьма совершенного средства передачи любых видов информации не привело, однако, к умалению эволюционно древней формы экстралингвистической коммуникации. Она продолжает сосуществовать наряду со словом, существенно дополняя и видоизменяя его смысл, а во многих случаях претендуя на самостоятельность. В огромном большинстве ситуаций речевого общения более важным является не столько ЧТО говорит человек, сколько КАК говорит и КТО говорит. Доминирующая роль экстралингвистической информации представляется очевидной в таких специфических видах звуковой коммуникации, как искусство сценической речи и пения. Важнейшим и почти неизученным свойством двухканальной системы речевой коммуникации является взаимодействие каналов лингвистической и экстралингвистической информации, появляющейся во всех звеньях данной системы и на всех этапах обработки речевой информации мозгом.
Человек и ЭВМ – проблемы взаимопонимания
Наиболее
удобным, оптимальным, с точки зрения человека, было бы введение информации в ЭВМ не при помощи клавиатуры, а непосредственно с голоса, т. е. естественным речевым средством общения между людьми. Однако сегодня ЭВМ, как известно, не понимает речь человека в должной мере и с должной надежностью, и пользователю нужно прибегать к услугам целого штата «переводчиков» (программистов, операторов), осуществляющих ввод информации в ЭВМ на особом, понятном для ЭВМ языке, а также дешифрующих выданную машиной информацию.Создание машин 5-го поколения, надежно понимающих речь любого человека, а также говорящих машин является глобальной задачей мировой науки, в решении которой значительные успехи принадлежат Японии, США, Франции. Однако задача эта оказалась настолько трудной, что полностью ее решить пока что не удалось. Например, машина легко распознает речь одного человека или нескольких знакомых ей дикторов, но не желает распознавать незнакомых, понимает речь взрослых и не хочет понимать детей. Если же и удается расширить круг дикторов, то тут же приходится ограничивать объем словаря. Даже могучие современные ЭВМ не в состоянии пока что решить в полной мере такую детскую задачу, как письмо под диктовку. Пусть даже знакомый машине диктор будет читать знакомый ей текст, но простуженным голосом, или не очень внятно, или в шуме – машина его не поймет.
Специалист по данной проблеме доктор технических наук М. Сулуквадзе, работающий в Институте систем управления Академии наук Грузинской ССР, считает, что «автоматическое распознавание речи следует считать одной из наиболее сложных проблем технической кибернетики. Мы не уверены, что она будет полностью решена и через 50 лет, то есть к 2034 году. Под термином „полностью“ подразумевается уровень восприятия и понимания речи человеком в реальных условиях его речевого взаимодействия с другими людьми».
Рис. 9. Раритет
Причина столь упорного «нежелания» ЭВМ научиться в совершенстве понимать речь кроется в индивидуальных и эмоциональных особенностях речи людей, сильно искажающих ту фонетическую структуру стандартного речевого сигнала, на распознавание которого заранее настраивается машина. Так, известно, что речевая информация кодируется формантной структурой (частотой формант и их динамикой). Но частота особенно первых формант существенно зависит от частоты основного тона голоса: повышается при повышении голоса и снижается при понижении основного тона речи. Изменения во времени основного тона голоса – это важнейшее средство эмоциональной выразительности (интонации голоса), и происходят они в связи с эмоциями в пределах до одной, полутора и даже двух октав (!), как это наблюдается при сильном эмоциональном возбуждении. Это и приводит к сильнейшей деформации всей спектральной структуры речи и непониманию речи машиной. По данным Г. Фанта, женские и детские голоса, имеющие повышенную, по сравнению с мужскими, частоту основного тона, характеризуются и повышенными формантными частотами (в среднем на 17–25 %).
Очевидно, в мозгу есть механизм, учитывающий информацию о повышении средних частот формант в связи с повышением основного тона голоса (высота голоса). Потому-то нам практически безразлично, на какой высоте основного тона голоса произносятся слова: произносит ли их мужской, женский или детский голос – разборчивость, понятность речи обеспечиваются.
Но перечисленные трудности – это лишь малая толика всех их, стоящих на пути обучения ЭВМ пониманию речи. Образно говоря, все виды речевой информации – лингвистической и экстралингвистической – как бы «растворены» в звуке голоса человека. Наш слух не испытывает затруднений в их разделении и учете, а машина «затрудняется». Поэтому можно надеяться, что изучение индивидуально-эмоциональных особенностей речи и механизмов, на которые опирается наш слух и мозг при их разделении, позволит наконец окончательно решить и проблему ее автоматического распознавания. Может быть, здесь пригодятся данные о том, что для восприятия и переработки логической и эмоциональной информации речи в мозгу человека имеются два специализированных и вместе с тем взаимодействующих отдела: левое полушарие мозга – для логики, правое – для эмоций. Кстати, в одной из работ под редакцией виднейшего американского специалиста по автоматическому распознаванию речи Уайна Ли описаны алгоритм и устройство распознавания речи, основанные на принципах работы правого полушария мозга (т. е. целостного, а не посегментного анализа, с учетом просодических и экстралингвистических характеристик речевого сигнала).