Глава 6
ЗВУКИ ТИШИНЫ[72]. Речь и звуки, из которых она складывается
В студенческие годы я работал в лаборатории университета Мак-Джилл, где изучалось восприятие речи на слух. Используя компьютер, я синтезировал цепочки накладывающихся друг на друга тонов и определял, звучат ли они как один смешанный звук или как два чистых. Как-то утром в понедельник случилось странное: тоны вдруг превратились в хор вопящих жевунов73. Вот так:
73 Персонажи сказки «Волшебник страны Оз». — Прим. перев.
(биип-бууп-бууп) (биип-бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ74-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-(биип-бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-(биип бууп-бууп) (биип бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-(биип бууп-бууп) ХАМПТИ-ДАМПТИ (биип бууп-бууп).
74 Хампти-Дампти — персонаж «Алисы в стране чудес» (в рус. пер. Шалтай-Болтай). — Прим. перев.
Я проверил осциллоскоп — два потока тонов, как и запрограммировано. Должно быть, это эффект восприятия. Сделав небольшое усилие, я мог услышать этот звук или как биипы или как крики жевунов. Когда ко мне зашла знакомая студентка, я рассказал ей о своем открытии, упомянув, что я жду не дождусь, чтобы рассказать об этом профессору Брегману, который заведовал лабораторией. Студентка дала мне хороший совет: не рассказывать никому, кроме, может быть, профессора Позера (который возглавлял психопатологическую программу).
Годы спустя я, наконец, открыл, в чем состояло мое открытие. Психологи Роберт Ремез, Дэвид Пизони и их коллеги, более смелые, чем я, опубликовали в журнале «Сайенс» статью о «речи синусоидной волны» («sine-wave speech»). Они синтезировали три тона с синхронными колебаниями. С физической точки зрения, звук ничем не напоминал речь, но тоны соответствовали тем же очертаниям, что и дорожки магнито-записи предложения Where were you a year ago? ‘Где ты был год назад?’ Добровольцы описывали услышанное как «фантастические звуки» или «сигналы компьютера». Второй группе добровольцев сказали, что звуки были порождены плохим синтезатором речи. Они смогли разобрать многие слова, а четверть из них смогла точно записать предложение. Мозг может услышать речь в звуках, которые имеют самое отдаленное сходство с речью. И действительно, именно речью синусоидной волны нас дурачит скворец-майна. Сложно устроенный звукопродуцирующий орган птиц, который представляет собой парную систему клапанов на вершине бронхов, способен продуцировать звуки, которые мы воспринимаем как речь.
Наш мозг колеблется между восприятием чего-либо как сигнал компьютера или как слово, потому что фонетическое восприятие напоминает шестое чувство. Когда мы слышим речь, то звуки фактически проникают в одно ухо и выходят из другого; то, что мы в результате этого воспринимаем и есть язык. Наше представление о словах и слогах, сущности звука “b” и сущности звука “ee”, настолько же отличны от представления о высоте тона и громкости, как текст песни от ее музыки. Иногда, как в речи синусоидной волны, слух и фонетика соревнуются друг с другом в том, как следует истолковать звук, и наше восприятие принимает сторону то одного, то другого. Иногда два эти чувства «истолковывают» один и тот же звук синхронно. Если взять запись слога da и с помощью приборов убрать напоминающую чириканье часть, которая отличает da от ga и ka, и проиграть чириканье в одно ухо, а оставшуюся часть — в другое, то люди услышат чириканье в одном ухе и da — в другом. Единый участок звука воспринимается одновременно и как сущность звука d, и как чириканье. А иногда фонетическое восприятие может преодолеть границы слухового канала. Если вы смотрите фильм с английскими субтитрами на языке, который знаете слабо, то через несколько минут можете почувствовать, что действительно понимаете речь. В лаборатории исследователи могут наложить звук речи типа ga на снятое с близкого расстояния очертание губ, произносящих va, ba, ta или da. Зрители буквально слышат тот согласный звук, который, как они видят, произносят губы, — это потрясающая иллюзия с приятным названием «эффект МакГорка», в честь одного из ее первооткрывателей.
На самом деле не нужно никакого электронного колдовства, чтобы создать иллюзию речи. Вся речь — это иллюзия. Мы слышим речь как поток отдельных слов, но в отличие от падения дерева в лесу, где никто не может его услышать, неслышимая граница слова просто беззвучна. В волне звуков речи одно слово набегает на другое без зазоров, и между произносимыми словами нет никаких маленьких промежутков, в отличие от слов на письме. Мы просто воображаем границу слова, когда достигаем конца звукового участка, который соответствует какой-то статье в нашем ментальном словаре. Это становится очевидно, когда мы слушаем речь на иностранном языке: невозможно сказать, где заканчивается одно слово и начинается другое. «Бесшовная» структура речи в явном виде предстает в «оронимах» — линейных последовательностях звуков, которые можно разбить на слова двумя разными способами:
The good can decay many ways ‘Добро может угасать по-разному’.
The good candy came anyways ‘Как бы там ни было, но появились хорошие конфеты’.
The stuffy nose can lead to problems ‘Заложенный нос может привести к проблемам’.
The stuff he knows can lead to problems ‘То, что ему известно, может привести к проблемам’.
Some others I’ve seen ‘Я видел других людей’.
Some mothers I’ve seen ‘Я видел других матерей’.
Оронимы часто используются в песнях и детских стишках:
You scream,
We all scream
For ice-cream.
dozey doats
And little lamsey divey,
A kiddley-divey do,
Wouldn’t you?
Fuzzy Wuzzy had no hair.
Fuzzy Wuzzy wasn’t fuzzy,
Was he?
In oak none is.
In mud eel is,
In clay none is.
Goats eat ivy.
Mares eat oats.
Некоторые оронимы были случайно обнаружены преподавателями, читавшими курсовые работы и домашние задания студентов:
Jose can you see by the donzerly light? [Oh say can you see by the dawn’s early light?] ‘Хосе, можешь ли ты видеть при свете розмарин? [О, скажи, можешь ли ты видеть при свете ранней зари?]’
It’s a doggy-dog world. [Dog-eat-dog] ‘Это мир собачек. [Это мир с волчьими законами.]’
Eugene O’Neil won a Pullet Surprise. [Pulitzer Prize] ‘Юджин О’Нил выиграл куриный сюрприз. [Юджин О’Нил получил Пулицеровскую премию.]’
My mother comes from Pencil Vanea. [Pennsylvania] ‘Моя мама родом из Карандашной Вании. [Моя мама родом из Пенсильвании.]’
He was a notor republic. [notary public] ‘Он был печально известной республикой. [Он был нотариусом.]’
They played the Bohemian Rap City. [Bohemian Rhapsody] ‘Они играли богемский город в стиле рэп. [Они играли Богемскую рапсодию.]’
Даже последовательность звуков, которые, как нам кажется, мы слышим в слове, является иллюзией. Если разрезать магнитофонную пленку с записью произнесенного слова cat [k?t] ‘кошка’, то в результате нельзя получить отрывки, которые звучали бы как k, a и t (как единицы, называемые «фонемами», которые приблизительно соответствуют буквам алфавита). А если соединить отрывки в обратном порядке, то результатом будет не tack [t?k], а нечто, не поддающееся пониманию. Как мы увидим далее, информация о каждом компоненте слова распространяется на слово целиком.
Восприятие речи — это еще одно биологическое чудодейство, составляющее языковой инстинкт. В использовании рта и ушей как каналов коммуникации есть очевидные преимущества, и мы не найдем ни одно сообщество обладающих слухом людей, которое предпочло бы жестовый язык, хотя он точно так же выразителен. Речь не требует хорошего освещения, видения лица собеседника или полного задействования рук и глаз; слова можно прокричать издалека или прошептать, чтобы сказанное осталось втайне. Но, чтобы воспользоваться преимуществами звуковой передачи информации, речь должна преодолеть ту проблему, что ухо — это узкий информационный канал. Когда в 40-х годах инженеры впервые пытались изобрести читающие машины для слепых, они создали набор шумов, которые соответствовали буквам алфавита. Даже после усиленной тренировки люди не могли различать эти звуки быстрее, чем хорошие операторы азбуки Морзе, — три единицы в секунду. Живая речь почему-то воспринимается на порядок быстрее: от десяти до пятнадцати фонем в секунду при восприятии обычной речи, от двадцати до тридцати в секунду при прослушивании рекламы, идущей в вечерние часы, и до сорока — пятидесяти в секунду при искусственно ускоренной речи. Учитывая то, как работает человеческая система восприятия речи на слух, в это трудно поверить. Когда какой-либо звук, например, щелчок, повторяется со скоростью двадцать раз в секунду или быстрее, мы слышим его уже не как последовательность отдельных звуков, но как тихий шум. Если мы слышим сорок пять фонем в секунду, то фонемы вряд ли могут быть последовательностью отдельных звуков; должно быть, несколько фонем «упаковано» в каждом моменте звучания речи, а наш мозг каким-то образом «распаковывает» их. В результате речь — это самый быстрый способ получить информацию с помощью слуха.
Ни одна изобретенная человеком система не может сравниться с самим человеком в расшифровке речи. И не потому, что в такой системе нет необходимости, или, что в ее разработку не вкладывалось много усилий. Распознаватель речи был бы незаменим для слепых и других инвалидов, для профессионалов, которым нужно внести информацию в компьютер, в то время, когда заняты их руки или глаза, для тех, кто не научился печатать на машинке, для тех, кто пользуется телефонными услугами и для растущего числа машинисток, которые становятся жертвами синдрома повторяющихся движений. Поэтому не удивительно, что инженеры уже более сорока лет бьются над тем, чтобы заставить компьютер распознавать звучащее слово. Но им пришлось встать перед выбором: или, или. Если от системы требуется выслушивать большое количество людей, она может распознавать только очень небольшое количество слов. Например, телефонные компании начинают устанавливать вспомогательные справочные системы, которые могут распознать слово «да», сказанное любым человеком, или (для более продвинутых систем) названия десяти цифр, произносимых на английском языке, которые, к счастью для инженеров, звучат совершенно по-разному. Но если от системы требуется распознавать большое количество слов, то она должна быть приспособлена к голосу одного и того же говорящего. Ни одна система на сегодняшний день не может продублировать человеческую способность распознавать много слов и многих говорящих. Возможно, наивысшим достижением является система DragonDictate, написанная для персонального компьютера и способная распознавать 30 000 слов. Но у нее есть несколько ограничений. Ее нужно долго приспосабливать к голосу пользователя. С… ней… нужно… разговаривать… так — с паузами в четверть секунды между словами (таким образом, она действует на одной пятой скорости обычной речи). Если нужно использовать слово, которого нет в словаре, например, имя, то придется проговорить его по буквам, пользуясь специальной азбукой «Alpha, Bravo, Charlie»75. И тем не менее, приблизительно в пятнадцати процентах случаев программа путает слова — наблюдается более, чем одно перепутанное слово на предложение. Этот замечательный программный продукт не может сравниться даже с посредственной стенографисткой.
75 Если мы обычно проговариваем незнакомое слово по буквам, используя начинающиеся на те же буквы имена, в английском для этого есть специальная азбука, которая начинается так: Alpha, Bravo, Charlie. — Прим. перев.
Физический и нейронный механизм речи являются решением двух проблем в строении системы человеческой коммуникации. Человек может знать 60 000 слов, но его речевой аппарат не может издать 60 000 различных шумов, по крайней мере тех, которые можно легко различить на слух. Отсюда следует, что язык снова использует принцип дискретной комбинаторной системы. Предложения и синтаксические группы строятся из слов, слова строятся из морфем, а морфемы, в свою очередь — из фонем. Хотя, в отличие от слов и морфем, фонемы не несут порции информации, из которых складывается целое. Значение слова dog невозможно вывести из значения d, значения o, значения g и порядка их следования. Фонемы — это особый вид лингвистических объектов. Их соединение обращено наружу — к речи, а не внутрь — к мыслекоду: фонема соответствует акту издавания звука. Деление на независимые друг от друга дискретные комбинаторные системы, одна из которых комбинирует незначимые звуки в значимые морфемы, а другая комбинирует значимые морфемы в значимые слова, синтаксические группы и предложения, является основной чертой строения человеческого языка, которую лингвист Чарльз Хоккет назвал «дуализмом структуры».
Но у фонологического модуля языкового инстинкта имеются и иные задачи помимо проговаривания морфем по буквам. Языковые правила — это дискретные комбинаторные системы: фонемы четко заскакивают в морфемы, морфемы — в слова, слова — в синтаксические группы. Они не смешиваются, не сливаются и не путают высказывание: Dog bites man ‘Собака кусает человека’ с Man bites dog ‘Человек кусает собаку’, а вера в God ‘Бога’ отличается от веры в Dog ‘Собаку’. Но чтобы переместить эти структуры из головы одного человека в голову другого, эти правила нужно преобразовать в слышимые сигналы. Слышимые сигналы, которые могут быть продуцированы людьми, это не то же самое, что отрывистые гудки на телефоне с кнопочным набором. Речь — это поток дыхания, изгибающийся то в сторону шипения, то в сторону гудения благодаря мягким тканям ротовой полости и горла. Проблемы, встающие перед Матерью-Природой — это преобразование цифровой записи в аналоговую, когда говорящий зашифровывает цепочки дискретных символов в непрерывный поток звуков, и аналоговой записи — в цифровую, когда слушающий расшифровывает непрерывную речь обратно в дискретные символы.
Таким образом, звуки языка сгруппировываются вместе в несколько этапов. Единицы, отобранные из ограниченного набора фонем ставятся в порядке, необходимом для идентификации слов, а получившиеся в итоге цепочки фонем видоизменяются так, чтобы облегчить произношение и понимание, прежде, чем начинается их артикуляция. Я проведу вас по каждому из этих этапов и покажу, как благодаря им возникают следующие связанные с речью явления: стихи и песни, послышавшиеся звуки, акценты, понимающие речь механизмы и сумасшедшее английское правописание.
* * *
Один из простых путей понять, что же такое звуки речи — это проследить движение объема воздуха по речевому аппарату наружу из легких.
Когда мы говорим, мы изменяем своему обычному ритмичному дыханию и делаем быстрые вдохи, а затем равномерно выпускаем воздух, используя реберные мышцы, чтобы противодействовать силе эластической тяги легких. (Если бы мы этого не делали, наша речь звучала бы как жалобное завывание спускаемого надувного шарика.) Синтаксис берет верх над углекислым газом: мы подавляем функции тонко настроенного узла обратной связи, контролирующего частоту дыхания для регулярности забора кислорода, и вместо этого растягиваем время выдоха до длины высказывания, которое желаем сделать. Это может привести к легкой гипервентиляции или гипоксии; вот почему так изнурительна речь на публике и почему так трудно поддерживать разговор с партнером, бегущим трусцой.
Воздух покидает легкие через трахею (воздушную трубку), которая ведет в гортань (центр голосообразования, который виден снаружи — это кадык, или адамово яблоко). Гортань — это клапан, состоящий из отверстия — голосовой щели — закрытой двумя лоскутами сократимой мышечной ткани, называемой голосовыми складками (они также называются «голосовыми связками» из-за ошибки в ранних анатомических исследованиях; они вовсе не являются связками)76. Голосовые связки могут плотно смыкать голосовую щель, «запечатывая» легкие. Это необходимо, когда мы хотим увеличить жесткость верхней части тела, являющейся мягким воздушным резервуаром. Поднимитесь со стула без помощи рук — вы почувствуете, как напрягается гортань. Гортань также перекрывается при осуществлении физиологических функций, таких как кашель или дефекация. Хрип штангиста или игрока в теннис — это напоминание о том, что мы используем один и тот же орган, чтобы запечатывать легкие и продуцировать звуки.
76 В русской терминологии принят только один термин — «голосовые связки». — Прим. перев.
Голосовые связки могут также частично прикрывать голосовую щель, чтобы производить шум при прохождении через них воздуха. Так происходит потому, что проходящий под большим давлением воздух раздвигает голосовые связки до полного открытия, после чего они устремляются назад и смыкаются, перекрывая голосовую щель, пока их снова не раздвинет давление воздуха, начиная новый цикл. Дыхание, таким образом, разбивается на циклы изгнания воздуха, которые мы воспринимаем как шум под названием «звонкость». Этот шум можно услышать и почувствовать, если произнести звук sssssssssss, не обладающий звонкостью, и звук zzzzzzzzz, который ею обладает.
Частота открытия и закрытия голосовых связок обуславливает высоту голоса. Меняя степень напряжения и положение голосовых связок, можно контролировать эту частоту и, таким образом, высоту. Это можно ясно наблюдать во время пения или «мурлыкания» мелодии, но мы также можем постоянно изменять высоту голоса на протяжении предложения — этот процесс называется интонацией. Нормальная интонация — это то, благодаря чему естественная речь звучит отлично от речи роботов в старых научно-фантастических фильмах и от речи «конусоголовых» в «Сэтердей найт лайв». Интонации также уделяется особое внимание в сарказмах, при логическом ударении и тогда, когда тон голоса становится эмоциональным — во время гнева или ликования. В «тональных» языках, таких как китайский, поднимающиеся или падающие тоны являются смыслоразличительным признаком для гласных.
Хотя звонкость и создает звуковую волну с доминирующей частотой вибрации, это не то же самое, что камертон или позывные радиостанции «Имердженси Бродкастинг Систем» — чистый тон с единственной частотой. Звонкость — это интенсивный шум со множеством обертонов. Мужской голос — это волна с вибрациями не только при 100 Гц, но и при 200, 300, 400, 500, 600, 700 Гц и так далее вплоть до 4000 Гц и больше. Женский голос вибрирует при 200, 400, 600 Гц и так далее. Интенсивность источника звука имеет решающее значение — это то сырье, из которого остальная часть голосового тракта формирует гласные и согласные.
Если по каким-то причинам мы не можем издавать шум гортанью, подойдет любой интенсивный источник звука. Когда мы шепчем, мы раздвигаем голосовые связки, заставляя поток воздуха хаотически разбиваться об их выступы и создавая турбулентность или шум, который звучит как шипение или радио-помехи. Шипящий шум — это не с определенной периодичностью повторяющаяся волна, состоящая из последовательности обертонов, которую мы встречаем в обладающем периодичностью звуке человеческого голоса, но неровная зазубренная волна, состоящая из мешанины постоянно изменяющихся частот. Тем не менее этой мешанины достаточно остальному голосовому тракту для продуцирования внятного шепота. Некоторые пациенты, перенесшие ларинготомию, учатся чревовещанию, или управляемому рычанию, которое обеспечивает необходимый шум. Другие помещают на шею вибратор. В 1970 г. гитарист Питер Фрэмптон пропустил усиленный звук своей электрогитары через трубку себе в рот, что позволило ему во время выступления выправлять свою гнусавость. Благодаря этому эффекту он записал пару хитов, прежде чем погрузиться в рок-н-ролльное забвение.
Затем, прежде чем покинуть голову, интенсивно вибрирующий воздух проходит через анфиладу полостей: горло, или «фаринкс», находящееся позади языка, область рта между языком и нёбом, отверстие между губами и альтернативный путь во внешний мир через нос. Каждая полость имеет определенную длину и форму, которые влияют на проходящий звук посредством явления под названием «резонанс». У звуков разных частот разная длина волны (расстояние между соседними гребнями звуковой волны); у высоких звуков длина волны короче. Звуковая волна, идущая по трубе, отражается назад, достигнув отверстия на другом конце. Если длина трубы кратна длине звуковой волны, то каждая отраженная волна усиливает идущую за ней; если же она не кратна длине волны, то они гасят друг друга. (Это сходно с тем, как можно достичь наилучшего эффекта, раскачивая ребенка на качелях — нужно синхронизировать каждый толчок с самым высоким положением качелей.) Отсюда следует, что труба определенной длины «отфильтровывает» звуковые частоты, усиливая одни и гася другие. Этот эффект можно наблюдать во время наполнения жидкостью бутылки. Шум падающей воды изменяется воздушной прослойкой между входным отверстием и донышком: чем больше воды, тем меньше прослойка, тем выше резонансная частота этой прослойки, и тем более высокий, металлический звук у булькания.
То что мы слышим как различные гласные звуки — это различные комбинации усиления и гашения звука, идущего из гортани. Эти комбинации порождаются изменением положения пяти органов речи в ротовой полости, благодаря чему резонансные полости, по которым проходит звук, изменяют форму и длину. Например, звук, обозначаемый буквами ee [i:] определяют два резонанса, один — от 200 до 350 Гц, порождаемый в основном полостью рта, а другой — от 2100 до 3000 Гц, порождаемый в основном горловой полостью. Диапазон частот, которые отфильтровываются той или иной полостью, не зависит от определенной смеси частот, которые в эту полость попадают; поэтому мы слышим ee как ee вне зависимости от того, произносят ли этот звук достаточно громко, шепчут, пропевают на высокой ноте, пропевают на низкой ноте, произносят рыча или произносят гнусаво.
Язык (tongue) — это наиболее важный орган речи; благодаря ему язык (language) поистине является «даром языков» (tongues). На самом деле, язык является тремя органами речи в одном: корпус языка, его кончик и корень (мускулы, которыми он крепится к челюсти). Произнесите несколько раз подряд гласные в словах bet [e] и butt [?] — e-uh e-uh e-uh. Вы почувствуете, как корпус языка двигается вперед и назад (если вы поместите палец между зубами, то это можно почувствовать пальцем). Когда язык находится в передней части рта, он удлиняет полость позади себя — в горле — и укорачивает ротовую полость перед собой, изменяя резонансы: для гласного в слове bet рот усиливает звуки до приблизительно 600 и 1800 Гц; для гласного в слове butt он усиливает звуки около 600 и 1200 Гц. Теперь произнесите по очереди гласные звуки в словах beet [i:] и bat [?]. Корпус языка запрыгает вверх и вниз под прямым углом к движению bet-butt, можно даже почувствовать, как, помогая произношению, движется челюсть. Это также изменяет форму горловой и ротовой полости и, соответственно, их резонансы. Мозг воспринимает разные варианты усиления и гашения звука как разные гласные.
Связь между положением языка и разными гласными звуками, которые он образовывает, порождает одну своеобразную особенность английского и многих других языков, носящую название фонетического символизма. Когда язык находится в переднем положении в верхней части рта, он создает там маленькую резонансную полость, которая усиливает некоторые высокие частоты, и получающиеся в результате звуки, например, выражаемые буквами ee [i:] и i [?] (как в слове bit) вызывают у людей ассоциацию с маленькими вещами. Когда язык находится в нижнем положении и оттянут назад, он создает большую резонансную полость, которая усиливает некоторые низкие частоты, и получающиеся гласные звуки, такие как a [??] в слове father и o в словах core [??] или cot [?] ассоциируются с чем-то большим. Поэтому мыши мали-усенькие (teeny [i?]) и издают писк (squeak [i?]), а слоны огромные (humongous [??]) и ревут (roar [??]). В аудио-колонках есть маленькие tweeters [i?] («пищалки») для высоких частот и большие woofers [u?] (басовики) для низких. Носители английского языка правильно догадываются, что в китайском ch’ing [чинг] означает ‘легкий’, a ch’ung [чанг] ‘тяжелый’. (В контрольных исследованиях на большом количестве иностранных слов уровень правильных догадок статистически выше, чем по теории вероятности, хотя и не намного.) Когда я допрашивал нашу местную компьютерную чародейку, что она имела в виду, когда сказала, что собирается произвести действие frob моей рабочей установкой, она провела для меня краткий обзор хакерского жаргона. Когда вы присоединяете новый графический эквалайзер к вашему стерео и бесцельно двигаете вверх и вниз рычажки, чтобы послушать, какой от этого будет эффект, это называется frobbing. Когда вы устанавливаете рычажки в среднее положение, чтобы достичь желаемого качества звука, — это называется twiddling. Когда вы делаете последние маленькие поправки, чтобы добиться идеала, это называется tweaking. Гласные звуки в -ob, -id и -eak идеально соответствуют простирающемуся от малого до большого диапазона фонетического символизма.
И, рискуя уподобиться Энди Руни из передачи «Сиксти минитс»77, я хочу спросить: вы никогда не задавались вопросом, почему мы говорим fiddle-faddle ‘пустячный’, а не faddle-fiddle? Почему ping-pong ‘пинг-понг’ и pitter-patter ‘топотать’, а не pong-ping и patter-pitter? Почему dribs and drabs ‘обрывки’, а не наоборот? Почему кухня не может быть span and spic (правильно — spic and span — ‘безупречно чистый’). Откуда берут свое начало riff-raff, mish-mash, flim-flam, chit-chat, tit for tat, knick-knack, zig-zag, sing-song, ding-dong, King-Kong, criss-cross, shilly-shally, see-saw, hee-haw, flip-flop, hippity-hop, tick-tock, tic-tac-toe, eeny-meeny-miney-moe, bric-a-brac, clickety-clack, hickory-dickory-dock, kit and kaboodle и bibbity-bobbity-boo? Ответ такой: слова с гласными звуками, образованными при переднем и верхнем положении языка, всегда предшествуют словам с гласными, образованными при нижнем положении языка, когда последний оттянут назад. Никто не знает, почему порядок именно таков, но, похоже, это является следствием двух других странных явлений. Первое состоит в том, что слова, связанные с понятиями «me-here-now» («я-здесь-сейчас»), склонны иметь гласные с более высоким и продвинутым вперед местом образования, чем слова, обозначающие удаленность от нашего «я»: me [mi?] ‘я’ и you [ju?] ‘ты’, here [h??] ‘здесь’ и there [?e?] ‘там’, this [??s] ‘этот’ и that [??t] ‘тот’. Второе явление состоит в том, что слова, связанные с понятиями «я-здесь-сейчас», склонны предшествовать словам, связанным с буквальной или метафорической удаленностью от нашего «я» (или говорящего в обобщенном смысле): here and there ‘здесь и там’, а не there and here ‘там и здесь’, this and that ‘этот и тот’, now and then ‘сейчас и потом’, father and son ‘отец и сын’, man and machine ‘человек и машина’, friend or foe ‘друг или враг’, the Harvard-Yale game ‘матч Гарвард-Иель’ — для студентов Гарварда, the Yale-Harvard game ‘матч Иель — Гарвард’ — для студентов Иельского университета, Serbo-Croatian ‘сербско-хорватский’ — для сербов, Croat-Serbian ‘хорватско-сербский’ — для хорватов. Силлогизм намечается, похоже, следующий: «я» = звук с высоким передним местом образования; я — прежде всего, поэтому звук с высоким передним местом образования ставится перед другими. Создается впечатление, что сознание не может решиться пустить порядок слов на самотек: если он не определяется значением, то за дело принимаются звуки, и логическое обоснование основано на способе образования гласных при помощи языка.
77 «60 минут» — информационно-публицистический еженедельный тележурнал. — Прим. ред.
Давайте рассмотрим другие органы речи. Обратите внимание на свои губы, произнося по очереди гласные в словах boot [u?] и book [?]. Произнося boot, вы вытягиваете губы вперед и округляете их. Это добавит полость, обладающую своими собственными резонансами, к передней части голосового тракта, усиливая и гася другие наборы частот и таким образом определяя другие типы противопоставления гласных. Благодаря акустическому эффекту губ мы в буквальном смысле слышим улыбку, когда разговариваем по телефону с радостным человеком.
Помните, как ваша школьная учительница рассказывала вам, что гласные звуки в словах bat [?], bet [e], bit [?], bottle [?] и butt [?] являются «краткими», а звуки в словах bait [e?], beet [i?], bite [a?], boat [??] и boot [u?] являются «долгими»? Тогда вы не понимали, о чем она говорит? Ну и забудьте об этом, ее информация устарела на пять столетий. В древнеанглийском языке существовало смысловое различие звуков по тому, произносились они быстро или их «тянули», что напоминает современное отличие слова bad в значении “bad” ‘плохой’ и baaaad в значении “good” ‘хороший’. Но в пятнадцатом веке английское произношение претерпело катаклизм под названием «Великий сдвиг гласных». Те гласные, которые раньше просто произносились как более долгие, теперь стали «напряженными»: благодаря тому, что корень языка (мускулы, крепящие язык к челюсти) подался вперед, язык стал выгнутым и напряженным, а не плоским и расслабленным, и изгиб языка вверх сузил пространство полости рта над собой, изменяя ее резонансы. Кроме того, некоторые напряженные гласные в современном английском, такие как в словах bite [a?] и brow [a?], стали «дифтонгами» — два звука произносятся в быстрой последовательности так, как если бы они были одним целым: ba-eet, bra-oh78.
78 Здесь и далее наряду с авторскими транскрипционными обозначениями С. Пинкера переводчик приводит транскрипцию в классически принятых обозначениях, которые выверены по словарю «Longman Dictionary of Contemporary English». — Прим. перев.
Вы можете ощутить, как действует пятый орган речи, протянув гласные звуки в словах Sam и sat и «смазав» произнесение последнего согласного. В большинстве английских диалектов эти гласные будут разными: звук в слове Sam будет гнусавым, носовым. Это происходит потому, что мягкое нёбо или нёбная занавеска (лоскуток ткани в задней части твердого нёба) поднимается, позволяя воздуху проходить как через рот, так и через нос. Нос — это еще одна резонансная полость, и когда через нее проходит вибрирующий воздух, то отфильтровывается (усиливается или гасится) еще один набор частот. В английском назальность гласных не является смыслоразличительным признаком, но во многих языках, таких как французский, польский или португальский, такое различие присутствует. Про тех носителей английского языка, которые поднимают нёбную занавеску, даже произнося слово sat, говорят, что у них «носовой» голос. Когда вы простужены, и у вас заложен нос, не имеет значения, поднята у вас нёбная занавеска или нет, а ваш голос является противоположностью носовому.
* * *
До сих пор мы обсуждали гласные — звуки, при образовании которых воздух напрямую проходит из гортани наружу. Когда на этом пути появляется какое-либо препятствие, то получается согласный звук. Произнесите ssssss. Кончик вашего языка — шестой орган речи — достигает почти края десен, оставляя маленькую щель. Когда вы заставляете поток воздуха проходить через эту щель, этот поток разбивается на несколько турбулентных потоков, создавая шум. В зависимости от размера щели и длины резонансных полостей перед ней, некоторые частоты в этом шуме будут громче остальных, а верхний уровень и диапазон этих частот и определят тот звук, который мы слышим как s. Шум порождается трением проходящего воздуха, поэтому такие звуки называются фрикативными79. Когда стремящийся вперед воздух зажат между спинкой языка и нёбом, мы получаем звук sh [?]; если он зажат между языком и зубами, мы получаем th [?]; если между нижней губой и зубами — то f. Корпус языка или голосовые связки можно также привести в такое положение, чтобы создать турбулентность, определяющую разнообразные «ch» в таких языках, как немецкий, иврит и арабский (Бах, ханука и т.д.).
79 От англ. friction ‘трение’. В русской терминологии также употребляется другой термин — щелевые. — Прим. перев.
Теперь произнесите t. Кончик языка встает на пути у воздушного потока, но на этот раз он не только препятствует прохождению воздуха, но совершенно останавливает его. Когда давление нарастает, вы отпускаете кончик языка, позволяя воздуху осуществить прорыв (флейтисты используют это движение, чтобы сделать музыкальное ударение на ноту). Другие «смычные» согласные могут быть образованы губами (p), смычкой между спинкой языка и нёбом (k) и гортанью («глоттальные» согласные в uh-oh). При произнесении смычного звука слышно следующее: вначале ничего, поскольку воздушный поток остановлен смычкой; смычные согласные — это звуки тишины. Затем — короткий выплеск шума в тот момент, когда высвобождается воздух, его частота зависит от величины отверстия и резонансных полостей перед ним. И наконец — плавно меняющийся резонанс — в тот момент, когда затухает звучание, а язык переходит в позицию для образования следующего звука. Как мы увидим, эти броски туда-сюда сильно отравляют жизнь аудиоинженерам.
И наконец, произнесите m. Ваши губы смыкаются совсем как для звука p. Но на этот раз воздух не просто безмолвно отступает назад; можно произносить mmmmm, пока не выбьешься из сил. Это происходит потому, что одновременно у вас поднята нёбная занавеска, позволяющая всему воздуху проходить через нос. Звук усиливается резонансными частотами носа и части рта позади смычки. Размыкание губ вызывает скользящий резонанс, похожий по форме на то, что мы слышали при размыкании смычки для звука p, только без безмолвной паузы, шумового выплеска и затухания. Звук n образуется аналогично m, но только смычка создается кончиком языка, того же органа, который образует смычку для d и s. Так же образуется звук ng [?] в sing, с той разницей, что смычка образуется корпусом языка.
Почему мы говорим razzle-dazzle, а не dazzle-razzle? Почему super-duper, helter-skelter, harum-scarum, hocus-pocus, willy-nilly, hully-gully, roly-poly, holy moly, herky-jerky, walkie-talkie, namby-pamby, mumbo-jumbo, loosey-goosey, wing-ding, wham-bam, hobnob, razza-matazz и rub-a-dub-dub. Я думал, что вы никогда об этом не спросите. Согласные различаются по своей «шумности» — степени, в которой они препятствуют прохождению воздуха, начиная с того, чтобы просто вызвать резонанс, и до того, чтобы заставить воздух с шумом преодолеть препятствие и в итоге полностью остановиться. Слово, начинающееся с менее шумного согласного, всегда предшествует слову, начинающемуся с более шумного согласного. Зачем спрашивать, почему?
* * *
Теперь, когда завершено путешествие по голосовому тракту, вы имеете представление о том, как образуется и становится слышимым огромное большинство звуков в языках мира. Хитрость заключается в том, что звук речи — это не одно-единственное движение одного органа. Каждый звук речи — это комбинация таких движений, каждое из которых порождает свою собственную модель формирования звуковой волны и происходит более или менее синхронно с остальными — вот одно из объяснений того, почему речь может быть такой быстрой. Как вы, вероятно, заметили, звук может быть назальным или неназальным, и может быть образован корпусом языка, кончиком языка или губами, что дает шесть возможных комбинаций:
{пустая ячейка таблицы} — Назальный (Нёбная занавеска поднята) — Не назальный (Нёбная занавеска опущена)
Губы — m — p
Кончик языка — n — t
Корпус языка — ng — k
Аналогично, звонкость комбинируется всеми возможными способами с тем или иным органом речи:
{пустая ячейка таблицы} — Звонкий (Гортань издает шум) — Глухой (Гортань не издает шума)
Губы — b — p
Кончик языка — d — t
Корпус языка — g — k
Таким образом звуки речи аккуратно заполняют столбцы, ряды и ярусы многомерной матрицы. Во-первых, один из шести органов речи выбирается в качестве основного для артикуляции: гортань, нёбная занавеска, корпус языка, кончик языка, корень языка или губы. Во-вторых, выбирается способ, которым этот орган осуществляет артикуляцию: щель, смычка или гласность. В-третьих, может быть точно установлена конфигурация остальных органов речи: для нёбной занавески — назальность или ее отсутствие, для гортани — глухость или звонкость, для корня языка — напряженность или ненапряженность, для губ — округленность или неокругленность. Каждый вариант конфигурации является символом для набора команд для мышц органов речевого аппарата и такие символы называются признаками. Для артикуляции фонемы эти команды должны быть выполнены в совершенно определенный временной промежуток, это самые сложные гимнастические упражнения, которые нам приходится исполнять.
Для английского языка перебор этих комбинаций определяет 40 фонем, несколько больше среднего уровня для языков мира. В других языках это количество варьируется от 11 (полинезийский) до 141 (хойсан, или язык бушменов). А весь целиком список фонем для языков мира насчитывает тысячи, но все они определяются комбинациями шести органов речи, их положения и формы. Другие звуки, издаваемые ртом, не используются ни в одном языке, например: скрежетание зубами, цокание языком, фыркание и пронзительный крик, подобный крику Дональда Дака. Даже непривычные щелчки в языках хойсан и банту (сходные со звуком тск-тск и ставшие известными благодаря певице Мириам Макеба) не являются самостоятельными фонемами в составе этих языков. Щелчок — это признак способа артикуляции, такой же как смычка или щель, и он комбинируется со всеми остальными признаками, чтобы определить новый ярус столбцов и рядов в фонологической таблице языка. Есть щелчки, образуемые губами, кончиком языка и корпусом языка, каждый из которых может быть назальным или нет, звонким или нет, и т.д., так что в итоге получается 48 щелчковых звуков!
* * *
Фонемный состав — это одна из тех вещей, которые придают языку его характерное звучание. Например, японский язык знаменит тем, что он не различает r и l. Когда я приехал в Японию 4 ноября 1992 г., лингвист Масааки Яманаси подмигнул, приветствуя меня, и сказал: In Japan we have been very interested in Clinton’s erection ‘У нас в Японии вызывала большой интерес эрекция Клинтона’. (Имелось в виду: выборы Клинтона — Clinton’s election.)
Мы часто узнаем характерное звучание языка даже в том потоке речи, который не содержит реально существующие слова, как, например, у шведского повара в шоу «Маппетс» или в «самурайской» речи Джона Белуши. Лингвист Сара Г. Томасон обнаружила, что люди, заявляющие, будто помнят свои прошлые жизни или неожиданно начинающие говорить на незнакомых до этого языках, действительно выдают некую тарабарщину, смутно напоминающую заявленный язык по характерному звучанию. Например, находясь под гипнозом, одна такая женщина, заявлявшая, что она болгарка, жившая в девятнадцатом веке и разговаривавшая со своей матерью о солдатах, опустошавших их местность, выдавала нечто псевдославянское:
Ovishta reshta rovishta. Vishna beretishti? Ushna barishta dashto. Na darishnoshto. Korapshnoshashit darishotoy. Aobashni bedetpa.
И, конечно, когда слова на одном языке произносятся со звучанием, характерным для другого языка, мы называем это иностранным акцентом, как в нижеприведенном отрывке из незаконченной сказки Боба Белвисо:
GIACCHE ENNE BINNESTAUCCHE
Uans appona taim uase disse boi. Neimmese Giacche. Naise boi. Live uite ise mamma. Mainde da cao.
Uane dei, di spaghetti ise olle ronne aute. Dei goine feinte fromme no fudde. Mamma soi orais, «Oreie Giacche, teicche da cao enne traide erra forre bocchese spaghetti enne somme uaine».
Bai enne bai commese omme Giacche. I garra no fudde, i garra no uaine. Meichese misteicche, enne traidese da cao forre bonce binnese.
Giacchassc!
Что определяет характерное звучание языка? Это должно быть нечто большее, чем просто множество фонем. Рассмотрим следующие слова:
ptak thole hlad
plast sram mgla
vlas flitch dnom
rtut toasp nyip
Все составляющие их фонемы есть в английском языке, но любой, для кого этот язык является родным, определит, что слова thole, plast и flitch не английские, хотя они могли бы ими быть, а остальные слова — не английские и не могли бы ими быть. Должно быть, у носителей языка существует неосознанное понимание того, как могут выстраиваться в этом языке фонемы. Фонемы, выстраиваются в слова не как одномерные цепочки, идущие слева направо. Подобно словам и синтаксическим группам, фонемы группируются внутри единиц, которые группируются внутри больших единиц и так далее, создавая древесную структуру. Группа согласных (C) в начале слога называется приступ (onset); гласный (V) и любые согласные, идущие после него, называются рифма (rime):
Правила, по которым создаются слоги, определяют виды слов, имеющие и не имеющие право существовать в языке. В английском приступ может состоять из группы согласных, например: flit, thrive и spring, если они следуют определенным ограничениям. (Например, слова vlit и sring существовать не могут.) Рифма может состоять из гласного, за которым следует согласный или определенная группа согласных, как в словах toast, lift и sixths. В японском, наоборот, в приступе может содержаться только один согласный, а рифма должна быть исключительно гласной; поэтому strawberry ice-cream передается как sutoroberi aisukurimo, a girlfriend — как garufurendo. Итальянский допускает некоторые группы согласных в приступе, но не допускает согласных на конце рифмы. Белвисо использовал это ограничение, чтобы сымитировать характерное итальянское звучание в истории про Giacche: and стало enne, from — fromme, beans — binnese.
Приступы и рифмы не просто определяют, может ли звук существовать в языке, они являются теми частями звучащего слова, которые наиболее бросаются в глаза, и потому именно ими оперируют в стихосложении и игре слов. У рифмующихся слов общая рифма, у слов с аллитерацией общий приступ (или просто начальный гласный). Pig Latin, eggy-peggy, aygo-paygo и другие тайные детские языки имеют тенденцию сращивать слова на границе приступа и рифмы, и то же самое происходит в таких конструкциях на Yinglish80, как: fancy-shmancy и Oedipus-Shmoedipus. В одной из самых популярных песен 1964 г. — «Игра Имен» («The Name Game»: “Noam Noam Bo-Boam, Bonana Fana Fo-Foam, Fee Fi Mo Moam, Noam”) Ширли Эллис могла бы сэкономить несколько строк в строфе, объясняющей правила, если бы она просто дала ссылку на понятия приступа и рифмы.
80 Образовано от названий двух языков Yiddish ‘идиш’ и English ‘английский’. — Прим. перев.
В свою очередь, слоги собираются в ритмические группы под названием стопа (foot):
Слоги и стопы классифицируются как ударные и безударные в соответствии с другими правилами, и схема расположения ударных и безударных ветвей определяет, насколько напряженным будет этот слог при его произнесении. Стопы, так же как и приступы и рифмы, это наиболее заметные составляющие сло?ва, которыми мы склонны манипулировать в стихосложении и при игре слов. Стихотворный размер определяется теми видами стоп, которые выстраиваются в строку. Последовательность стоп, при которой сначала идет ударный слог, а потом — безударный, называется хореем, например: Mary had a little lamb; последовательность, при которой сначала идут безударные, а потом — ударные, называется ямбом, например: The rain in Spain falls mainly in the plain. Жаргон, популярный среди юных хулиганов, содержит такие формы как: fan-fuckin-tastic, abso-bloody-lutely, Phila-fuckin-delphia и Kalama-fuckin-zoo81. Как правило, нецензурные слова появляются перед теми, которые необходимо выделить; когда у Дороти Паркер82 однажды спросили, почему она в последнее время не появляется на симфонических концертах, она ответила: I’ve been too fucking busy and vice versa ‘Я была слишком нецензурное слово занята и наоборот’83. Но на упомянутом жаргоне нецензурщина появляется внутри слова, а не предложения, и всегда перед ударной стопой. Этому правилу следуют с фанатичной точностью: если вы скажете Philadel-fuckin-phia, то взрывом смеха вас вынесет за двери бара.
81 Игра слов состоит в том, что в обычные слова, такие как: fantastic ‘фантастический’, absolutely ‘абсолютно’, Philadelphia ‘Филадельфия’ и Kalamazoo ‘Каламазу’ вставляются нецензурные fuckin(g) и bloody. — Прим. перев.
82 Паркер Дороти (1893–1967) — американская писательница, критик, сатирик; прославилась своими подчас шокирующими афоризмами. — Прим. ред.
83 Наоборот получится следующее: I’ve been too busy fucking ‘Я была слишком занята половыми сношениями’. — Прим. перев.
* * *
Фонемный состав в морфемах и словах, хранящихся в памяти, претерпевают ряд аккомодаций прежде чем в итоге получить звуковое выражение, и эти аккомодации продолжают формирование звуковой модели языка. Произнесите слова pat и pad. Теперь добавьте флексию -ing и произнесите их снова: patting, padding. Во многих английских диалектах теперь они будут произноситься одинаково, стерлась первоначально существовавшая разница между t и d. Стерлась она в результате действия фонологического правила под названием «схлопывание»: если смычный согласный, образованный кончиком языка, появляется между двумя гласными, то этот согласный артикулируется так: язык быстро касается края десен вместо того, чтобы задержаться там достаточно долго, чтобы наросло давление воздуха. Правила, подобные «схлопыванию», действуют не только на стыке двух морфем, как pat и -ing, они также действуют и в словах, состоящих из одного корня. Для многих носителей английского языка слова ladder и latter произносятся одинаково (кроме как в преувеличенно внятной речи), хотя люди и «чувствуют», что звуки в этих словах разные и эти слова по-разному представлены в ментальном словаре. Благодаря тому же явлению, если разговор заходит о коровах, какой-нибудь острослов может упомянуть udder mystery, udder success и т.д.84
84 Обыгрываются слова utter ‘абсолютный’ и udder ‘вымя’. Utter success ‘абсолютный успех’, utter mystery ‘абсолютная тайна’. — Прим. перев.
Интересно то, что фонологические правила действуют последовательно, как если бы слова собирались из фонем на конвейере. Произнесите write и ride. В большинстве диалектов английского гласные в этих словах несколько различаются. По меньшей мере i [a?] в ride длиннее, чем i в write. В некоторых диалектах, как например, в канадском английском диктора Питера Дженнингза, знаменитого хоккеиста Уэйна Грецки и вашего покорного слуги (несколько лет назад этот акцент пародировали на телевидении Боб и Даг Маккензи) эти гласные совершенно различны: ride содержит дифтонг, звук в котором скользит от гласного [?] как в hot до гласного ee [i:]; write содержит дифтонг, звук в котором скользит от гласного более высокого подъема, как в hut [?] до ee. Но, вне зависимости от того, как видоизменяется гласный, он видоизменяется в соответствии с одной и той же схемой: нет слов с долгим/низким i, за которыми шел бы t, так же как и нет короткого/высокого i, за которым шел бы d. Используя ту же логику, которая позволила Лоис Лейн в ее редкие минуты озарения догадаться, что Кларк Кент и Супермен — одно и то же лицо, поскольку никогда не появляются в одном и том же месте в одно и то же время, мы можем заключить, что в ментальном словаре существует единое i, которое видоизменяется по правилу еще до момента произнесения в зависимости от того, появится ли оно в компании t или d. Мы даже можем предположить, что, скорее всего, изначальная форма, хранящаяся в памяти, соответствует гласному в слове ride, а гласный в write — это скорее продукт действия правила, а не наоборот. На это указывает тот факт, что когда после i не появляется ни t, ни d, как в слове rye, и, таким образом, не существует правила, которое затуманивало бы изначальную форму, мы слышим тот же гласный, что и в слове ride.
Теперь произнесите writing и riding. Звуки t и d стали одинаковыми благодаря действию правила «схлопывания». Но два звука i тем не менее различны. Как это возможно, если разницу между звуками i вызывает только разница между t и d, и если эта разница стерта правилом «схлопывания»? Это показывает, что правило, видоизменяющее i, вступило в действие до правила «схлопывания», пока t и d еще были различными. Другими словами, два правила действуют строго по порядку: сначала — изменение гласного, потом — «схлопывание». Предположительно, такой порядок устанавливается потому, что правило «схлопывания» в каком-то смысле облегчает произношение, и поэтому его место — дальше в идущей от мозга до языка цепи процессов, происходящих со словом.
Обратите внимание на другую важную черту правила, изменяющего гласные звуки. Звук i изменяется перед многими различными согласными, не только перед t. Сравните:
prize price
five fife
jibe hype
geiger biker
Значит ли это, что существуют пять различных правил, которые изменяют i — одно для z в противоположность s, другое — для v в противоположность f и т.д.? Конечно, нет. Согласные, вызывающие видоизменения — t, s, f, p и k отличаются от парных им d, z, v, b и g по одному и тому же параметру: они глухие, в то время как парные им согласные — звонкие. Значит, нам нужно только одно правило: i должно изменяться каждый раз, когда оно появляется перед глухим согласным. Доказательством того, что в головах у людей действительно существует такое правило (и я не пытаюсь сэкономить чернила, заменяя пять правил одним) служит следующее: если носитель английского языка оказывается в состоянии произнести немецкий звук ch в the Third Reich, то он произнесет ei [a?] как в слове write, а не как в слове ride. Согласный ch не входит в инвентарь английских фонем, поэтому носители английского языка не могли овладеть каким-либо правилом, действующим применительно именно к этому звуку. Но поскольку это глухой согласный, а правило действует применительно к глухим согласным, то носитель английского языка в точности знает, что делать.
Такая избирательность действует не только в английском, но и во всех языках. Фонологические правила редко приводятся в действие какой-то одной фонемой, они приводятся в действие целым классом фонем, обладающих одним или двумя общими признаками (такими как: звонкость, смычность в противоположность фрикативности или артикуляции с помощью того или иного органа). Это предполагает, что правило «смотрит» не на фонемы, выстроенные в цепочку, а сквозь них на те признаки, которые их образуют.
И правила манипулируют именно признаками, а не самими фонемами. Произнесите следующие формы прошедшего времени:
walked jogged
slapped sobbed
passed fizzed
В словах walked, slapped и passed окончание -ed произносится как t; в jogged, sobbed и fizzed оно произносится как d. Теперь вы, наверное, сами сможете вывести закономерность, стоящую за этим различием: окончание произносится как t после глухих согласных, таких как k, p и s, а d произносится после звонких, таких как g, b и z. Аккомодация произношения суффикса -ed должна происходить по правилу, диктующему «оглянуться» на последнюю фонему основы и проверить, имеет ли она такой признак, как звонкость. Мы можем подтвердить свои предположения, предлагая людям произнести Mozart out-Bached Bach ‘Моцарт «переплюнул» Баха’. Глагол to out-Bach ‘переплюнуть’ (букв. ‘переБахать’) содержит звук ch, не существующий в английском. Тем не менее, каждый произнесет -ed как t, потому что звук ch глухой, а правило помещает после глухих t. Мы даже можем определить, хранится ли суффикс -ed в ментальном словаре как t, и используют ли люди правило, чтобы изменить его в d для некоторых слов, или наоборот. Такие слова, как play [ple?] и row [r??], не имеют на конце согласного, но каждый произносит их формы прошедшего времени как [ple?d] и [r??d], а не [ple?t] и [r??t]. Поскольку основа не содержит согласного, приводящего в действие правило, то мы должны слышать суффикс в его чистой, не видоизмененной форме из ментального словаря, каковой является d. Это прекрасно демонстрирует одно из основных открытий современной лингвистики: фонема может храниться в ментальном словаре в форме, отличной от той, в которой она в итоге будет произнесена.
У читателей, имеющих вкус к утонченному теоретизированию, может возникнуть желание проследовать за мной еще по одному параграфу. Обратите внимание на необыкновенные свойства той схемы, по которой работает правило изменения d в t. Во-первых, звук d звонкий и ставится после звонких согласных, в то время, как звук t глухой и ставится после глухих согласных. Во-вторых, кроме звонкости, у t и d нет никаких различий: они образованы одним органом речи — кончиком языка, и этот орган двигается одним и тем же образом для каждого звука, а именно: замыкая ротовую полость на уровне десен, а затем размыкая ее. Отсюда следует, что правило не просто произвольно тасует фонемы, скажем изменяя p в l после гласного высокого подъема или после любого другого, выбранного наугад. Нет, оно осуществляет тонкую операцию над суффиксом -ed, приспосабливая его признак звонкости к признаку звонкости его соседа, но оставляя нетронутыми остальные его признаки. Следовательно, преобразуя slap+ed в [sl?pt], правило «распространяет» инструкцию по звонкости от p на конце слова slap на суффикс -ed по следующей схеме:
Глухость t в слове slapped соответствует глухости p в слове slapped, потому что это одна и та же глухость, которая ментально представлена как единый признак, распространяющийся на два сегмента. Это довольно обычное в языках мира явление. Такие признаки, как звонкость, качество гласного и тональность могут распространяться на несколько фонем в слове или видоизменять их, как если бы каждый признак обитал на своем собственном горизонтальном ярусе, вместо того, чтобы быть привязанным к одной и только одной фонеме.
Итак, фонологические правила «видят» признаки, а не фонемы, и производят аккомодацию признаков, а не фонем. Вспомните также, что языки склонны создавать свой фонемный состав, перебирая различные комбинации некоего набора признаков. Эти факты показывают, что именно признаки, а не фонемы являются атомами звуков языка, которые хранятся и с которыми производятся манипуляции в мозге. Фонема — это просто пучок признаков. Таким образом, даже имея дело со своими наименьшими единицами — признаками — язык работает с использованием комбинаторной системы.
* * *
Фонологические правила есть в каждом языке, но для чего они нужны? Как вы могли заметить, они часто облегчают произношение. «Схлопывание» t или d между двумя гласными быстрее, чем удерживание языка на месте достаточно долго, чтобы наросло давление воздуха. Распространение глухости с конца слова на его суффикс избавляет говорящего от необходимости «отключать» гортань, произнося конец основы, чтобы снова «включить» ее для произнесения суффикса. На первый взгляд фонологические правила кажутся просто скопищем артикуляторной лености. А отсюда недалеко до того, чтобы заметить фонологические аккомодации в диалекте, отличном от твоего собственного, и заключить, что носитель этого диалекта говорит неряшливо, некорректно. От такого отношения не застрахован ни один берег Атлантики. Джордж Бернард Шоу писал:
У англичан нет уважения к своему языку, и они не учат своих детей говорить на нем. Они не могут правильно писать на нем, потому что у них нет для этого никаких средств, кроме старого иностранного алфавита, в котором только у согласных, и то не у всех, есть какое-то общепризнанное речевое значение. Следовательно, англичанин не может открыть рот, чтобы его немедленно не начал презирать какой-то другой англичанин.
В своей статье «Howta Reckanize American Slurvian» (искаженное: «Как опознать американца с кашей во рту») Ричард Ледерер пишет:
Любители языка долго сокрушались по поводу печального состояния произношения и артикуляции в Соединенных Штатах. С гневом и яростью люди, наделенные, на свою беду, чутким слухом, содрогаются, слыша такое невнятное бормотание, как guvmint вместо government и assessories вместо accessories. И действительно, куда бы мы ни обратились, на нас обрушивается лавина словесной каши.
Но если бы слух этих несчастных был еще немного чувствительнее, они могли бы заметить, что на самом деле не существует диалекта, в котором бы преобладала речевая неаккуратность. Фонологические правила дают одной рукой и отбирают другой. Те же «деревенщины», которых высмеивают за опускание звука g в словах Nothin’ doin’, четко выговорят гласные в словах p?-lice и accid?nt, которые утонченные интеллектуалы сократят до нейтрального «uh». Когда питчер команды «Бруклин Доджерс» Уэйт Хойт (Waite Hoyt) получил удар мячом, кто-то из болельщиков на трибунах закричал: Hurt’s hoit!85. Бостонцы, которые pahk their cah in Hahvahd Yahd86 называют своих дочерей Sheiler и Linder87. В 1992 г. был предложен указ, запрещавший брать на работу любого учителя-иммигранта, который «говорит с акцентом». Этот указ был предложен — я не шучу! — в Уэстфилде, штат Массачусетс88. Одна женщина, будучи не в состоянии в это поверить, написала в газету «Бостон Глоуб» о том, как ее учитель — уроженец Новой Англии — приводил в качестве примера омонимии слова orphan [??f?n] и often [?f?n]. Другой читатель, которого позабавил этот указ, вспомнил, как вызывал учительский гнев, произнося слово k-o-r-e-a как «cuh-ree-uh», a c-a-r-e-e-r — как «cuh-ree-ur», а не наоборот89. Предложение было быстро снято.
85 Игра слов основана на том, что при правильном произношении слова должны звучать с точностью до наоборот: Hoyt’s hurt! ‘Хойту больно!’. — Прим. перев.
86 Пародируется произношение, при котором опускается звук r. Правильно: park their car in Harvard Yard ‘паркуют машины во дворе Гарварда’. — Прим. перев.
87 Правильно: Sheila и Linda, но в произношении бостонцев последний звук звучит четко, а в стандартном произношении — неясно. — Прим. перев.
88 ‘Описываемый акцент характерен для группы штатов региона Новая Англия на восточном побережье США. К этой группе штатов относится и Род Айленд, где расположен Бостон, и граничащий с Род Айлендом Массачусетс. — Прим. перев.
89 То, как произносил эти слова читатель статьи, соответствует устоявшейся традиции. — Прим. перев.
Существует веская причина того, почему так называемая леность в произношении на самом деле строго ограничена фонологическими правилами и почему, исходя из этого, ни один диалект не позволяет говорящим на нем произвольно срезать углы. Каждый акт речевой небрежности со стороны говорящего требует компенсации в виде умственного усилия со стороны партнера по разговору. Общество ленивых говорунов станет обществом усердно трудящихся слушателей. Если бы говорящие действовали, как им заблагорассудится, то все фонологические правила сводились бы к аккомодации, редуцированию и опусканию. Но если бы слушатели действовали, как им заблагорассудится, фонологии пришлось бы производить противоположную операцию: подчеркивать акустические различия между фонемами, которые возможно спутать, заставляя говорящих преувеличенно отчетливо их произносить. И действительно, многие фонологические правила так и делают. (Например, существует правило, которое вынуждает носителей английского языка округлять губы, произнося sh, но не делать этого для s. Польза от этого, обязательного для всех, дополнительного движения в том, что удлиненная резонансная полость, образованная вытянутыми вперед губами, усиливает низкочастотный шум, отличающий sh от s, позволяя слушающему легче идентифицировать sh.) Хотя каждый говорящий и становится слушателем через короткий промежуток времени, человеческое лицемерие сочтет неразумным зависеть от предусмотрительности и предупредительности говорящего. Вместо этого единый, зачастую произвольный набор фонологических правил, одни из которых усиливают, другие — редуцируют звуки, усваиваются каждым членом языкового сообщества в детстве при овладении тем или иным местным диалектом.
Фонологические правила помогают слушающим и тогда, когда им не нужно подчеркивать какую-либо акустическую разницу. Поскольку эти правила делают модели речи предсказуемыми, они сообщают языку избыточность. Подсчитано, что английский текст в два-четыре раза длиннее, чем он должен был бы быть, исходя из содержащейся в нем информации. Например, на моем компьютерном диске эта книга занимает около 900 000 знаков, но программа сжатия файла может воспользоваться избыточностью в последовательностях букв и сжать эту книгу до 400 000 знаков; те компьютерные файлы, которые не содержат английского текста, не могут даже отчасти рассчитывать на такое сжатие. Ученый-логик Квай так объясняет причины, по которым во многих системах заложена избыточность:
Это диктуемый здравомыслием избыток при имеющемся необходимом минимуме. Именно поэтому хороший мост не рассыпается на куски, когда ему приходится выдерживать нагрузку больше предусмотренной. Это страховка от провалов. Именно поэтому мы используем столько слов, чтобы отправить почту в тот или иной город и страну, несмотря на почтовый код. Одна неразборчиво написанная цифра в коде может все испортить… Легенда рассказывает как королевство погибло потому, что в кузнице не было гвоздя, чтобы подковать коня. Избыточность — эта страж, предохраняющий от такой чрезвычайной ситуации.
Благодаря избыточности в языке вх мхжхтх пхнхть, чтх х пхшх, дхжх хслх х зхмхнх всх глхснхх нх «х» (сл в н знт, гд стт глсн, т бдт нмнг трдн)90. При понимании речи избыточность, обеспечиваемая фонологическими правилами, может компенсировать двусмысленность, вызванную звуковой волной. Например, слушающий может быть уверен, что «thisrip» это this rip, а не the srip, поскольку в английском сочетание согласных sr невозможно.
90 «Вы можете понять, что я пишу, даже если я заменю все гласные на „х“ (если вы не знаете, где стоят гласные, это будет немного труднее)». — Прим. перев.
* * *
Так почему же нация, которая может запустить человека на Луну, не может сконструировать компьютер, который будет воспринимать диктовку? В соответствии с тем, что я до сих пор объяснял, каждая фонема должна иметь свидетельствующее о ней акустическое выражение: набор резонансов для гласных, вызывающая шум преграда для фрикативных, и последовательность «тишина — взрыв — переход» для смычных. Последовательности фонем обрабатываются предсказуемым образом идущими по порядку фонологическими правилами, результаты действия которых были бы, очевидно, сведены на нет, если бы правила применялись в обратном порядке.
Причина, по которой понимание речи вызывает такие трудности, в том, что на пути между мозгом и губами много раз можно поскользнуться. Нет двух совершенно одинаковых человеческих голосов, различаться будут и формы голосового тракта, формирующего звуки, и индивидуальная манера артикуляции. Фонемы также звучат очень по-разному, в зависимости от того, насколько они напряженные и как быстро их произносят; в быстрой речи многие просто проглатываются.
Но главная причина того, почему электронная стенографистка не ждет вашего вызова за дверью, связана с общим явлением, возникающим при управлении мускулатурой, и называемым коартикуляцией. Поставьте перед собой блюдце и на расстоянии около полуметра от нее — кофейную чашку. Теперь быстро дотроньтесь до блюдца и схватите чашку. Вы наверняка дотронулись до края блюдца, ближнего к чашке, а не ровно посредине. Ваши пальцы наверняка пришли в позицию, удобную для хватания, в то время, как рука двигалась по направлению к чашке, но прежде, чем достигла цели. Такой плавный переход от одного жеста к другому и накладывание жестов повсеместно встречаются при осуществлении моторных функций. Это экономит силы, необходимые для движения частей тела и уменьшает нагрузку на суставы. Язык и гортань не являются исключением. Когда мы намереваемся артикулировать фонему, наш язык не может немедленно занять требуемую позицию: это увесистый кусок мяса, которому нужно время, чтобы переместиться. Поэтому пока мы его перемещаем, наш мозг планирует траекторию, уже представляя себе следующее положение, совсем как в случае с блюдцем и чашкой. Изо всех возможных позиций в полости рта, которые могут определить фонему, мы помещаем язык в ту, при которой наибыстрейшим образом может быть артикулирована следующая фонема. Если фонемой, которую мы сейчас произносим, не задано, где в точности должен находиться орган речи, мы предугадываем, где он должен находиться для произнесения следующей фонемы, и помещаем его туда заранее. Большинство из нас находится в полном неведении об этих аккомодациях, пока к ним не привлекут внимания. Произнесите Cape Cod [ke?p k?d]. До сих пор вы наверняка не замечали, что корпус языка занимает разные позиции для произнесения этих двух звуков k. В слове horseshoe [h???-?u?] первое s становится sh, при произнесении NPR n становится m, в словах month и width место образования звуков n и d — возле зубов, а не у края десен, как обычно.
Поскольку звуковые волны мгновенно реагируют на форму полостей, по которым они проходят, то коартикуляция сеет смуту среди звуков речи. Индивидуальная звуковая реализация той или иной фонемы «подкрашена» теми фонемами, которые идут перед ней и после нее, иногда до такой степени, что эта звуковая реализация не имеет ничего общего с фонемой благодаря компании других фонем. Вот почему невозможно отрезать кусок пленки с записью звучащего слова cat и надеяться найти в нем относящуюся к началу часть, которая содержала бы один звук k. Чем ближе и ближе к началу будут эти отрезки, их звучание будет варьироваться от чего-то, напоминающего ka, до чириканья или свиста. Такое «смазывание» фонем в речи могло бы в принципе иметь преимущество для оптимально сконструированного опознавателя речи. Согласные и гласные реализуются в речи синхронно, значительно увеличивая количество фонем, произносимых в секунду, как было замечено в начале этой главы, и существует много избыточных звуковых подсказок о том, что за фонема имеется в виду. Но этим преимуществом может воспользоваться только высоко технологичный распознаватель речи, тот, что имеет некоторое представление о принципах смешения звуков речевым аппаратом.
Конечно, человеческий мозг — это высоко технологичный распознаватель речи, однако, никто не знает, как ему удается быть таковым. Поэтому психологи, изучающие восприятие речи, и инженеры, конструирующие механизмы для распознавания речи, пристально наблюдают за работой друг друга. Возможно, распознавание речи — настолько сложный процесс, что существует всего несколько способов того, как оно в принципе может быть реализовано. Если так, то способ, которым пользуется мозг, может подсказать, как наилучшим образом сконструировать машину для распознавания речи, а способ, каким это удастся сделать машине, может предложить гипотезу о том, как это удается мозгу.
* * *
Уже на ранних этапах истории исследований речи стало ясно, что слушающие способны с выгодой для себя использовать свои представления о речевых намерениях говорящего. Последние сужают круг вариантов, возможных при акустическом анализе речевых сигналов. Мы уже заметили, что фонологические правила обеспечивают один вид избыточности, который можно использовать, но люди в состоянии пойти еще дальше. Психолог Джордж Миллер проиграл записи предложений, произносимых на фоне шума, и попросил людей в точности повторить, что они слышали. Некоторые предложения соответствовали правилам английского синтаксиса и имели смысл:
Furry wildcats fight furious battles ‘Пушистые дикие кошки ведут яростные бои’.
Respectable jewelers give accurate appraisals ‘Уважаемые ювелиры высказывают сдержанное одобрение’.
Lighted sigarrets create smoky fumes ‘Облегченные сигареты создают клубы дыма’.
Gallant gentlemen save distressed damsels ‘Галантные кавалеры спасают опечаленных дам’.
Soapy detergents dissolve greasy stains ‘Мыльные моющие средства растворяют жирные пятна’.
Другие предложения были получены «перемешиванием» слов из разных синтаксических групп, что дало бесцветно-зелено-мысленные предложения, грамматически правильные, но бессмысленные:
Furry jewelers create distressed stains ‘Пушистые ювелиры создают опечаленные пятна’.
Respectable cigaretts save greasy battles ‘Уважаемые сигареты спасают жирные бои’.
Lighted gentlemen dissolve furious appraisals ‘Облегченные кавалеры растворяют яростные одобрения’.
Gallant detergents fight accurate fumes ‘Галантные моющие средства ведут сдержанные клубы дыма’.
Soapy wildcats give smoky damsels ‘Мыльные дикие кошки спасают дымных дам’.
Третий вид предложений был получен «перемешиванием» непосредственно составляющих в структуре при сохранении в предложении одних и тех же слов:
Furry fight furious wildcat battles ‘Пушистые ведут яростные дикие кошки бои’.
Jewelers respectable appraisals accurate give ‘Ювелиры уважаемые одобрения сдержанно высказывают’.
И наконец, некоторые предложения были просто словесным винегретом, как например:
Furry create distressed jewelers stains ‘Пушистые создают опечаленные ювелиры пятна’.
Cigaretts respectable battles greasy save ‘Сигареты уважаемые бои жирные спасают’.
Люди лучше всего справились с имеющими смысл грамматически правильными предложениями, хуже — с грамматически правильной бессмыслицей и грамматически неправильным смыслом, а хуже всего — с грамматически неправильной бессмыслицей. Несколько лет спустя психолог Ричард Уоррен записал на пленку предложения типа: The state governors met with their respective legislatures convening in the capital city ‘Губернаторы штатов встретились с представителями соответствующих законодательных органов, заседающими в столице’, изъял s из слова legislatures и заменил его покашливанием. Слушающие сказали, что ни одного звука не было пропущено.
Вы можете подумать, что звуковая волна находится на нижнем уровне иерархии «звуки — фонемы — слова — синтаксические группы — значения предложений — знание вообще». Но то, что было продемонстрировано выше, явно подразумевает, что восприятие человеком речи осуществляется сверху вниз скорее, чем снизу вверх. Возможно, мы постоянно пытаемся догадаться, что собирается сказать говорящий, используя каждую находящуюся в нашем распоряжении крупицу осознанного и неосознанного знания, начиная со знания о том, как коартикуляция «смазывает» звуки, до знания правил английской фонологии, английского синтаксиса, знаний о производителях и объектах действия, и о том, что в данный момент на уме у собеседника. Если наши предположения достаточно точны, то акустический анализ может быть очень поверхностным: то, чего не достает звуковой волне, заполнит контекст. Например, если вы слушаете дискуссию о разрушении экологических сред обитания, вы можете заранее настроиться на слова, относящиеся к исчезающим животным и растениям, и тогда, когда вы слышите звуки, в которых невозможно разобрать фонемы, например: eesees [i:si:z], вы сможете правильно воспринять это слово как species [sp?????z] ‘биологический вид’, если только вы не Эмили Лителла — тугой на ухо персонаж «Сэтердей найт лайв», яростно выступавшая против кампании по защите поставленных под угрозу feces [fi?si?z] ‘каловые массы’. (И действительно, юмор, связанный с Гильдой Рэднер, которая также отчаянно боролась против спасения «советской бижутерии», «остановки скрипок» на улице и сохранения естественных «скаковых лошадей», вызван не проблемами на нижнем уровне обработки звука, но тупостью на верхнем уровне, там, где нужно было бы не допустить саму возможность таких интерпретаций)91.
91 Игра слов связана с тем, что Тильда Рэднер воспринимает слова Soviet Jewry ‘советские евреи’ — как Soviet jewelry ‘советская бижутерия’, stopping violence ‘прекращение насилия’ — как stopping violins ‘остановка скрипок’, resources ‘ресурсы’ — как racehorses ‘скаковые лошади’. — Прим. перев.
Теория восприятия речи «сверху вниз» производит на некоторых людей сильное эмоциональное впечатление. Она подтверждает философию релятивистов о том, что мы слышим то, что надеемся услышать, что наше знание определяет наше восприятие и, наконец, что мы не находимся в прямом контакте с объективной реальностью. В каком-то смысле восприятие, упрямо идущее сверху вниз, может стать едва управляемой галлюцинацией, в этом-то и проблема. Человек, воспринимающий речь и вынужденный полагаться на свои ожидания, находится в очень невыигрышном положении в том мире, который непредсказуем даже при самых благоприятных обстоятельствах. Есть основания полагать, что восприятие человеческой речи в сильной степени определяется на акустическом уровне. Если у вас есть готовый к сотрудничеству друг, вы можете проделать следующий эксперимент: выберите наугад из словаря десять слов, позвоните другу и четко произнесите эти слова. Весьма вероятно, что друг легко сможет их воспроизвести, полагаясь только на данные звуковой волны и на свое знание английского словаря и фонологии. Ваш друг не мог использовать никаких относящихся к высокому уровню предположений относительно структуры высказывания, контекста, или связанной с ним истории, поскольку у множества слов, выбранного наугад, их нет. Хотя при плохой слышимости или на фоне помех мы и можем сослаться на теоретическое знание, относящееся к высокому уровню (но даже и здесь не совсем ясно, действительно ли знание воздействует на восприятие, или оно позволяет нам сделать адекватную догадку постфактум), наш мозг кажется устроенным так, чтобы до последней капли выжимать фонетическую информацию из самой звуковой волны. Наше шестое чувство может воспринимать речь как язык, а не как просто звук, но это — чувство — то, что связывает нас с миром, а не просто форма внушаемости.
Другой пример того, что восприятие речи не есть точное воплощение наших ожиданий, дает нам иллюзия, которую журналист Джон Кэрролл назвал «мондегрин» после того, как неправильно воспринял строку из народной баллады «The Bonny Earl O’Moray»:
Oh, where hae ye been?
They have slain the Earl of Moray
And laid him on the green.
О, вы, горы, и вы, долины,
Где же вы были?
Убит граф Морей
И положен на зеленую траву.
Кэрролл всегда думал, что строки звучали так: They have slain the Earl of Moray, And Lady Mondegreen ‘Убит граф Морей и леди Мондегрин’. «Мондегрины» чрезвычайно распространены (они являются крайними вариантами вышеупомянутых Pullet Surprise и Pencil Vanea), вот несколько примеров:
A girl with colitis goes by. [A girl with kaleidoscopic eyes.]
‘Вот идет девушка, больная колитом. [Девушка с калейдоскопическими глазами.]’
Our father wishart in heaven; Harold be they name… Lead us not into Penn Station. [Our father which art in Heaven; hallowed be thy name… Lead us not into temptation.]
‘Отче наш и иже с ним на небеси, Харольд будет их имя… Не приведи нас на станцию Пенн. [Отче наш, иже еси на небеси, да святится имя твое… Не введи нас во искушение.]’
He is trampling out the vintage where the grapes are wrapped and stored. [… grapes of wrath are stored.]
‘Он выжимает сок из винограда там, где гроздья упаковываются и хранятся. [… хранятся гроздья гнева.]’
Gladly the cross-eyed bear. [Gladly the cross I’d bear.]
‘Радостно косоглазый медведь. [С радостью я понесу крест.]’
I’ll never be your pizza burning’. [… your beast of burden]
‘Я никогда не буду твоей подгоревшей пиццей. [… твоей тяжелой ношей]’
It’s a happy enchilada, and you think you’re gonna drown. [It’s a half an inch of water…]
‘Это радостная дюна, и ты думаешь, что утонешь в ней. [Здесь полдюйма воды…]’
«Мондегрины» интересны тем, что послышавшиеся слова, как правило, менее уместны в контексте, чем реальные. Они никоим образом не выражают ожиданий здравомыслящих слушателей относительно того, что собирается сказать, или что имеет в виду говорящий. (Одному студенту, постоянно слышались слова «I’m Your Penis» ‘Я твой пенис’ вместо «I’m Your Venus» ‘Я твоя Венера’ в названии знаменитой песни группы «Блю Чиэр», и он удивлялся, как такое можно было пропустить на радио.) «Мондегрины» соответствуют английской фонологии, английскому синтаксису (иногда) и английской лексике (хотя и не всегда, как, например, в случае с самим словом «мондегрин»). Очевидно, слушатели замыкаются на каком-то наборе слов, которые соответствуют звуку и появление которых рядом друг с другом в качестве английских слов и синтаксических групп более или менее возможно; но бал правят не уместность в контексте и не общие ожидания слушателя.
Об этом же свидетельствует и история искусственных распознавателей речи. В 1970-х гг. группа исследователей искусственного интеллекта при университете Карнеги-Меллон, возглавляемая Раджем Редди, создала компьютерную программу под названием HEARSAY, которая использовала голосовые команды, чтобы перемещать шахматные фигуры. Находясь под влиянием теории восприятия речи «сверху — вниз», они создали эту программу как «содружество» «экспертных» субпрограмм, действующих сообща с целью дать наиболее вероятную интерпретацию сигнала. Там были субпрограммы, специализирующиеся на акустическом анализе, на фонологии, на синтаксисе, на лексике, на правилах перемещения шахматных фигур, даже на шахматной стратегии применительно к развитию игры. Рассказывают, что на демонстрацию программы явился генерал из министерства обороны, спонсировавшего исследования. Пока ученые обливались холодным потом, генерала усадили напротив шахматной доски и микрофона, соединенного с компьютером. Генерал откашлялся. Программа напечатала: «Пешка — король 4».
Недавно созданная программа DragonDictate, упомянутая ранее в этой главе, делает больший упор на акустический, фонологический и лексический анализ, и, похоже, что этим объясняется ее больший успех. В программе имеется словарь, где слова представлены так же как последовательности фонем. Чтобы помочь предвидеть результаты действия фонологических правил и коартикуляции, в программе задано, как звучит каждая английская фонема в окружении любых возможных предшествующих и последующих фонем. Для каждого слова эти сопутствующие фонемы объединены в цепочку и при каждом переходе от одной звучащей единицы к другой заложена вероятностная характеристика. Цепочка выполняет функции среднестатистической модели говорящего человека, и когда эту систему использует реальный говорящий, вероятностные характеристики в цепочке варьируются таким образом, чтобы приспособиться к манере речи данного человека. Самому слову также присваивается процент вероятности, зависящий от его частотности в языке и от привычек говорящего. В некоторых версиях программы значение вероятности для слова варьируется в зависимости от того, какое слово ему предшествует; это единственный вид информации «сверху—вниз», используемый программой. Все вышеупомянутое позволяет программе вычислить, какое слово с наибольшей вероятностью произнес говорящий, исходя из имеющихся звуковых данных. Но даже при этом DragonDictate больше полагается на ожидания, чем нормально слышащий человек. Когда я присутствовал при демонстрации программы, ее пришлось упрашивать отличить слово word [w??d] ‘слово’ от worm [w??m] ‘червь’, хотя они оба и произносились яснее ясного, потому что программа продолжала делать ставку на вероятность и угадывала в этих звукосочетаниях высокочастотное слово were [w??] ‘были’.
* * *
Теперь, когда вы знаете, как продуцируются единицы речи, как они представлены в ментальном словаре, как они перестраиваются и обрабатываются прежде, чем появиться из наших губ, в конце этой главы вас ждет награда: вы узнаете, почему английское правописание не столь ненормально, как кажется на первый взгляд.
Конечно, на английское правописание можно пожаловаться за то, что оно якобы отражает звуки слов, но не делает этого в действительности. В жанре шутливых стихов этот факт обыгрывается с незапамятных времен, примером чему служат следующие вирши:
That looks like beard and sounds like bird,
And dead: it’s said like bed, not bead —
For goodness sake don’t call it «deed»!
Watch out for meat and great and threat
(They rhyme with suite and straight and debt).
Бойтесь слова услышал — ужасного слова,
Похожего на бороду и звучащего как птица;
И слова мертвец, оно звучит как постель, а не бусина,
Ради Бога не говорите о нем, как о «подвиге»!
Остерегайтесь слов мясо, великий, угроза
Они рифмуются с апартаментами, прямым, и долгом.
Джордж Бернард Шоу вел решительную борьбу за реформу английского алфавита, системы, по его словам, настолько нелогичной, что в соответствии с ней слово fish [f??] могло бы писаться как «ghoti» — gh как в слове tough [t?f], о как в слове women [w?m?n], ti как в слове nation [ne???n]. (Таким же образом minute могло бы писаться «mnomnoupte», a mistake — «mnopspteiche».) Шоу завещал денежное вознаграждение тому, кто изобретет замену английского алфавита, где каждый звук разговорного языка будет опознаваем благодаря единственному символу. Он писал:
Чтобы осознать годовую положительную разницу от использования 42-буквенного фонетического алфавита… нужно умножить количество минут в году на количество людей в мире, которые постоянно пишут английские слова, отливают шрифты, производят пишущие и печатающие механизмы, и к этому моменту общая сумма будет настолько астрономической, что вы осознаете, что стоимость написания даже одного звука двумя буквами обошлась нам в столетия ненужного труда. Новый английский алфавит в 42 буквы окупится в миллионы раз не только в течение часов, но в течение минут. Когда это будет уяснено, вся ненужная болтовня, касающаяся слов enough, cough, laugh и упрощенного правописания будет заброшена, и экономисты и статисты вместе сядут за работу в орфографической Голконде.
Защищая английское правописание, я буду испытывать противоречивые чувства. Поскольку, хотя язык и является инстинктом, письмо им не является. Оно изобреталось всего несколько раз на протяжении истории, а алфавитное письмо, где один знак соответствует одному звуку, кажется, было изобретено всего однажды. В большинстве человеческих сообществ письменный язык отсутствовал, а там, где он имелся, он был унаследован или заимствован у сообщества изобретателей. Научить ребенка читать и писать — это кропотливый труд, и умение писать не предполагает тех качественных скачков вперед от учебного материала, которые мы наблюдали в случаях с Саймоном, Майелой, Джаббой и мышеедом из экспериментов в главах 3 и 5. И обучение не обязательно приводит к успеху. Неграмотность — результат недостаточного обучения — обычное явление во всем мире, но даже при достаточном обучении у 5–10 % населения имеется дислексия, что порождает трудности с обучением чтению и создает серьезную проблему даже в индустриально развитых странах.
Но хотя письмо — это искусственное изобретение, связующее зрение и язык, оно должно быть внедрено в языковую систему в специально отведенных местах, что придает ему крупицу логики. Во всех известных системах письма символы выражают только три вида языковых структур: морфемы, слоги и фонемы. Месопотамская клинопись, египетские иероглифы, китайские логограммы и японское письмо кандзи92 зашифровывают морфемы. Письмо чероки, древне-кипрское и японское письмо кана93 основаны на слогах. Все современные фонематические алфавиты, как выяснилось, происходят от системы, изобретенной жителями земли Ханаан около 1700 г. до н.э. Ни в одной системе письма нет символов для реальных звуковых единиц, которые могут быть идентифицированы на осциллоскопе или в спектрограмме, — фонем, произносимых в определенном контексте, или рассеченного пополам слога.
92 Иероглифическое письмо. — Прим. ред.
93 Слоговое письмо. — Прим. ред.
Почему же ни одна система письма так и не воплотила идеал Шоу — один символ для одного звука? Как однажды где-то сказал сам Шоу: «В жизни существуют две трагедии: одна — не получить то, чего жаждет сердце, а вторая — получить это». Мысленно вернитесь к принципам работы фонологии и коартикуляции. Идеальный в представлении Шоу алфавит предполагал бы появление различных гласных в словах write и ride, различных согласных в write и writing и различного написания суффикса прошедшего времени в словах slapped, sobbed и sorted. Cape Cod потерял бы свою зрительную аллитерацию. Слово horse писалось бы иначе, чем horseshoe, a National Public Radio имело бы загадочную аббревиатуру MPR. Нам понадобились бы совершенно новые буквы для n в слове month и для d в слове width. Я бы писал слово often отлично от orphan, а мои коллеги в Новой Англии — одинаково, в то же время их написание слова career соответствовало бы моему написанию слова Korea и наоборот.
Очевидно, алфавиты не соответствуют и не должны соответствовать звукам, в лучшем случае они соответствуют фонемам, указанным в ментальном словаре. Реальные звуки будут разными в разных контекстах, поэтому чисто фонетическое написание только скрыло бы их глубинное сходство. Те звуки, что появляются на поверхностном уровне, можно предсказать благодаря фонологическим правилам, поэтому нет необходимости рыскать по странице с символами реальных звуков; читателю нужен только абстрактный образ слова, и он сможет при необходимости сам воссоздать звук. И действительно, для 84 % английских слов правописание полностью предсказуемо, исходя из стандартных правил. Более того, поскольку диалекты, разделенные временем и пространством, зачастую различаются больше всего в области фонологических правил, которые преобразуют единицы ментального словаря в произношение, правописание, соответствующее этим глубинным единицам, а не звукам, должно быть общим для многих диалектов. Слова с действительно странным правописанием (такие как: of, people, women, have, said, do, done и give), как правило, одни из самых употребляемых в языке, поэтому у всех есть широкие возможности их запомнить.
Даже наименее предсказуемые аспекты правописания выдают скрытые языковые закономерности. Рассмотрим следующие пары слов, где одни и те же буквы получают разное произношение:
electric [?'lektr?k] electricity [?'lek'tr?s?t?]
declare [d?'kle?] declaration ['dekl?'re??n]
photograph ['f??t?gr??f] photography [f?'t?gr?f?]
muscle ['m?s?l] muscular ['m?skj?l?]
grade [gre?d] gradual [?gr?d?u?l]
condemn [k?n'dem] condemnation ['k?ndem'ne???n]
history ['h?st?r?] historical [h?'st?r?k?l]
courage ['k?r?d?] courageous [k?'re?d??s]
revise [r?'va?z] revision [r?'v???n]
romantic [r???m?nt?k] romanticize [r???m?nt?sa?z]
adore [?'d??] adoration ['?d?'re??n]
industry ['?nd?str?] industrial [?n'd?str??l]
bomb [b?m] bombard [b?m'b??d]
fact [f?kt] factual [?f?kt?u?l]
nation ['ne??n] national ['ne??n?l]
inspire [?n'spa??] inspiration ['?nsp?'re??n]
critical ['kr?t?k?l] criticize ['kr?t?sa?z]
sign [sa?n] signature ['s?gn?t??]]
mode [m??d] modular ['m?dj?l?]
malign [m?'la?n] malignant [m?'l?gn?nt]
resident ['rez?d?nt] residential ['rez?'den??l]
И вновь одинаковое правописание, несмотря на разницу в произношении, имеет определенную цель: оно указывает на то, что два слова имеют одну и ту же корневую морфему. Это свидетельствует о том, что английское правописание не полностью фонематическое; иногда буквы зашифровывают фонемы, но иногда последовательность букв точно указывает на морфему. И морфемное письмо гораздо полезнее, чем можно было бы предположить. В конце концов смысл чтения в том, чтобы понять текст, а не произнести его. Основанное на морфемах правописание может помочь читателю различить омофоны, такие как mete ‘отмерять’ и meet ‘встречать’. Оно также может подсказать читателю, что внутри одного слова содержится другое (а не просто фонологически идентичная обманка). Например, правописание говорит нам, что слово overcome [??v?'k?m] ‘преодолеть’ содержит come ‘приходить’, поэтому мы знаем, что его формой прошедшего времени должно быть overcame, в то время как succumb [s?'k?m] ‘уступить’ содержит просто звук [k?m], а не морфему come, поэтому его форма прошедшего времени — не succame, a succumbed. Аналогично, когда что-либо recedes ‘отступает’, мы получаем recession ‘отступление’, но когда кто-либо re-seeds ‘повторно засевает’ лужайку, мы получаем re-seeding ‘повторное засевание’.
Кое в чем система письма, основанная на морфемах, сослужила китайцам хорошую службу, несмотря на тот присущий ей недостаток, что читатель теряется, встречая новое или редкое слово. Носители диалектов, которые не понимают друг друга, могут читать одни и те же тексты (даже если слова из этих текстов они произносят на своих диалектах совершенно по-разному), а многие документы, написанные тысячи лет назад, может прочитать и современный человек. Марк Твен ссылался на такую же инертность в нашей романской системе правописания, когда говорил: «Они пишут Vinci, а произносят Vinchy (Винчи); иностранцы всегда пишут лучше, чем они произносят».
Конечно, английское правописание могло бы быть и лучше, чем оно есть. Но оно уже гораздо лучше, чем большинство людей о нем думает, поскольку системы письма не ставят своей задачей отразить реальные звуки, возникающие при разговоре, которые мы не слышим, но абстрактные языковые единицы, лежащие в их основе, именно те, что нам слышны.