Глава 2. Предсказания дофамина


...

2

Нарды — старейшая игра в мире. Впервые в нее начали играть в древней Месопотамии, около 3000 лет до нашей эры. Она была популярным развлечением в Древнем Риме, ее воспевали персы и запрещал французский король Людовик IX как побуждающую к незаконным азартным играм. В семнадцатом веке царедворцы Елизаветы I систематизировали правила игры, и с тех пор нарды мало изменились.

Однако того же нельзя сказать об игроках. Одним из лучших игроков в нарды в мире сейчас является компьютерная программа. В начале 1990-х годов Джеральд Тезауро, программист из компании IBM, начал разрабатывать новый вид искусственного интеллекта (ИИ). В то время большинство программ ИИ основывались на примитивных вычислительных возможностях микросхем. Этот подход был использован в Deep Blue, мощном суперкомпьютере IBM, сумевшем в 1997 году побить шахматного гроссмейстера Гарри Каспарова. Deep Blue мог анализировать более двухсот миллионов возможных шахматных ходов в секунду и, таким образом, имел возможность постоянно выбирать оптимальную шахматную стратегию. (Мозг Каспарова, напротив, мог просчитывать лишь около пяти ходов в секунду.) Но вся эта стратегическая огневая мощь требовала большого количества энергии: во время шахматного матча Deep Blue был пожароопасен и требовал специального охлаждающего оборудования, чтобы не загореться. Между тем Каспаров даже практически не вспотел. Дело в том, что человеческий мозг — прекрасный образец производительности: даже когда он погружен в глубочайшие раздумья, кора головного мозга потребляет меньше энергии, чем электрическая лампочка.

В то время как массовая пресса превозносила потрясающее достижение Deep Blue — машина переиграла самого великого шахматиста в мире, — Тезауро был озадачен ограниченностью ее возможностей. Машина, способная думать в миллионы раз быстрее, чем ее человеческий противник, с трудом выиграла матч. Тезауро понял, что проблемой всех стандартных программ ИИ, даже таких блестящих, как у компьютера Deep Blue, является негибкость. Большая часть интеллекта Deep Blue была заимствована у других шахматных гроссмейстеров, чья мудрость была оцифрована и заложена в его программу. (Программисты из IBM также изучили предыдущие шахматные матчи Каспарова и настроили программу на использование его повторяющихся стратегических ошибок.) Но сама машина не могла учиться. Вместо этого она принимала решения, предсказывая вероятные последствия нескольких миллионов различных шахматных ходов. Ход с максимальной предсказанной «ценностью» был тем, который компьютер в результате и совершал. Для Deep Blue игра в шахматы была просто бесконечной серией математических задач.

Конечно, такой вид искусственного интеллекта не является точной моделью человеческого сознания. Каспаров смог соревноваться на том же уровне, что и Deep Blue, хотя его мозг обладал гораздо меньшей вычислительной мощностью. Удивительная догадка Тезауро состояла в том, что нейроны Каспарова были так эффективны потому, что они сами себя натренировали. Их усовершенствовал многолетний опыт выявления едва различимых пространственных шаблонов на шахматной доске. В отличие от Deep Blue, анализировавшего каждый возможный ход, Каспаров мог сразу взвесить возможные стратегические варианты и сосредоточить свои умственные силы на оценке только самых перспективных из них.

Тезауро решил создать программу ИИ, которая бы действовала как Гарри Каспаров. Для своей модели он выбрал нарды (backgammon) и назвал программу TD-Gammon. (TD, temporal difference, означает «временное различие»). Deep Blue был изначально запрограммирован на игру в шахматы, а программа Тезауро начинала с чистого листа. Сначала ее ходы были совершенно случайными. Она проигрывала каждый матч и делала глупые ошибки. Но компьютер недолго оставался новичком — TD-Gammon был запрограммирован так, чтобы учиться на собственном опыте. Днем и ночью он играл в нарды сам с собой, терпеливо выясняя, какие ходы наиболее эффективны. После сотен тысяч партий TD-Gammon мог выиграть у лучших человеческих игроков в мире.

Как машина превратилась в эксперта? Хотя математические подробности программы Тезауро утомительно сложны, базовый подход крайне прост13. TD-Gammon порождал набор предсказаний о том, как будет развиваться игра в нарды. В отличие от Deep Blue, это компьютерная программа не исследовала каждое возможное перемещение. Вместо этого она действовала как Гарри Каспаров и порождала предсказания, основываясь на своем прошлом опыте. Программное обеспечение сравнивало эти предсказания с реальным ходом игры. Выявленные несоответствия становились материалом для обучения, и программа стремилась постоянно сокращать «ложный сигнал». В результате точность предсказаний постоянно росла, и, следовательно, стратегические решения программы становились все более эффективными и разумными.


13 Модель TD-leammg (temporal difference learning — обучение временным различиям), использованная Тезауро, основывалась на новаторской работе специалистов в области теории вычислительных машин Рича Саттона и Эндрю Барто. В начале 1980-х годов, будучи аспирантами в Университете Массачусетса в городе Амхерст, Саттон и Барто попытались создать модель искусственного интеллекта, способную обучаться простым правилам и поступкам и применять их для достижения цели. Это была смелая идея, научные наставники пытались отговорить их от бесплодных попыток, но молодые ученые были упрямы. «Это всегда было недостижимой целью в информатике, — говорит Саттон. — Марвин Мински написал диссертацию об обучении с подкреплением и практически сдался. Он пришел к выводу, что это невозможно, и покинул эту область. К счастью для нас, он был не прав. Мы знали, что даже простейшие животные способны к самообучению (никто не учит птицу, как ей искать червяков), мы просто не знали, как они это делают».


В последние годы та же стратегия использовалась для решения всевозможных сложных задач от программирования работы групп лифтов в небоскребах до составления расписания полетов. «Эти самообучающиеся программы доказали свою полезность для решения любых задач с, казалось бы, бесконечным количеством возможностей, — говорит Рид Монтагью. — Ведь лифты и самолеты можно распределить в самых разных последовательностях». Самое главное различие между программами обучения с подкреплением и традиционными подходами состоит в том, что эти новые программы сами находят оптимальные решения. Никто не говорит компьютеру, как организовать работу лифтов. Вместо этого он систематически обучается методом проб и ошибок, пока после определенного числа проб лифты не начинают ездить с максимально возможной эффективностью. Ошибки, казавшиеся неизбежными, успешно устранены.

Этот метод программирования довольно точно отражает действие дофаминовых нейронов. Клетки мозга тоже измеряют несоответствие ожидания конечному результату. Они используют свои неизбежные ошибки для повышения производительности, в конечном счете обращая неудачу в успех. Рассмотрим, к примеру, эксперимент, известный как «айовский игровой тест». Он был разработан нейробиологами Антонио Дамасио и Антуаном Бекара. Игра проводилась следующим образом: человеку — «игроку» — выдавалось четыре колоды карт, две черных и две красных, и 2000 долларов на игру. Каждая карта сообщала игроку, выиграл он деньги или проиграл. Общая рекомендация состояла в том, чтобы переворачивать карты из одной из четырех колод и выиграть как можно больше денег.

Но карты были распределены по колодам не случайным образом. Ученые их подтасовали. Две колоды состояли из крайне рискованных карт. Выигрыши там были больше (100 долларов), но штрафы в них тоже были непомерные (1250 долларов). Две другие колоды были сравнительно сбалансированными и умеренными. Хотя выигрыши в них были меньше (50 долларов), они реже штрафовали игрока. Если бы игрок тянул только из этих колод, он бы в результате оказался в неплохом выигрыше.

Сначала процесс выбора оставался совершенно случайным. Не было никакой причины отдавать предпочтение ка-кой-то конкретной колоде, так что большинство людей пробовало брать из каждой стопки, ища наиболее прибыльные карты. В среднем людям требовалось перевернуть около пятидесяти карт для того, чтобы начать тянуть исключительно из прибыльных стопок. И в среднем около восьмидесяти карт уходило на то, чтобы проходивший эксперимент человек смог объяснить, почему он или она отдают предпочтение этим колодам. Логика медлительна.

Но Дамасио интересовала не логика, а эмоции. Все время игры участники эксперимента были подсоединены к компьютеру, который измерял электрическую проводимость их кожи. Обычно более высокие уровни проводимости свидетельствуют о нервозности и беспокойстве. Ученые выяснили, что уже после десятка карт рука игрока становилась более «нервной», когда тянулась к опасной колоде. Хотя сам игрок все еще не очень понимал, какие стопки наиболее прибыльны, его эмоции сформировали вполне определенное чувство страха. Эмоции знали, какие колоды таили в себе риск. Чувства человека разгадали игру первыми.

Пациенты с неврологическими расстройствами, которые не могли испытывать вообще никаких эмоций — обычно из-за повреждений орбитофронтальной коры, — оказались не способны выбирать правильные карты. В то время как большинство выиграло во время эксперимента значительные суммы, эти исключительно рациональные люди часто становились банкротами и вынуждены были брать «ссуды» у проводящего эксперимент. Так как эти пациенты не могли проассоциировать плохие колоды с негативными чувствами — их ладони не проявляли никаких признаков нервозности, — они продолжали брать равное число карт из всех четырех колод. Пока мозг не получит эмоционального укола от проигрыша, он никогда не поймет, как выигрывать.

Как наши эмоции становятся такими безошибочными? Как им удается так быстро научиться определять прибыльные колоды? Ответ возвращает нас к дофамину, молекулярному источнику наших чувств. Проводя айовский тест у человека, которому для лечения эпилепсии делали операцию на головном мозге (пациенту ввели местную анестезию, но он оставался в сознании), ученые из Университета Айовы и Калифорнийского технологического института смогли пронаблюдать за тем, как процесс обучения проходит в реальном времени. Ученые обнаружили, что клетки мозга человека программируются так же, как и TD-Gammon\ они формируют предсказания того, что произойдет, и определяют различия между своими ожиданиями и реальными результатами. В ходе айовского игрового эксперимента, если клеточное предсказание было неверным — например, если игрок выбирал плохую колоду, — дофаминовые нейроны немедленно прекращали возбуждаться. Игрок испытывал неприятное чувство и учился больше не брать из этой колоды (разочарование поучительно). Однако если предсказание было точным — если он вознаграждался за выбор прибыльной карты, — тогда игрок испытывал удовольствие от того, что был прав, и эта конкретная связь оказывалась подкреплена. В результате его нейроны быстро обучились зарабатывать деньги. Они раскрыли секрет выигрыша в этой игре еще до того, как игрок смог понять и объяснить собственное решение.

В этом и состоит ключевой когнитивный талант. Дофаминовые нейроны автоматически определяют едва различимые схемы, которые мы иначе заметить не сможем, они усваивают всю информацию, которую мы не можем осмыслить на сознательном уровне. А затем, составив набор усовершенствованных прогнозов предстоящих событий, они переводят эти предсказания в эмоции. Представьте, к примеру, что вы получили много информации о том, как двадцать различных акций вели себя за некоторый период времени. (Разные курсы акций показывают бегущей строкой внизу телеэкрана, например, на канале CNBC.) Очень скоро вы обнаружите, что вам сложно вспомнить всю финансовую информацию. Если вас спросят, какие акции показали наилучшие результаты, вы, скорее всего, не сможете дать точный ответ. Вы не можете обработать всю информацию. Однако если вас спросят, какие акции вызывают у вас наилучшие чувства, — теперь вопрос задают вашему эмоциональному мозгу, — вы неожиданно для себя сможете определить лучшие акции. Согласно Тилману Бетчу, психологу, который провел этот изящный эксперимент, эмоции «обнаруживают потрясающий уровень чувствительности» к реальному поведению различных ценных бумаг. Акции, которые поднялись в цене, будут ассоциироваться у вас с наиболее позитивными эмоциями, тогда как бумаги, стоимость которых упала, вызовут смутное беспокойство. Эти мудрые, хотя и необъяснимые чувства являются важнейшей составляющей процесса принятия решений. Даже когда нам кажется, что мы ничего не знаем, нашему мозгу что-то известно. Именно об этом нам и пытаются сказать наши чувства.