Глава 6. Осознаваемое и неосознаваемое обучение


...

Разные формы подкрепления и обучения

Формы подкрепления у высших позвоночных животных, и особенно у человека, разнообразны.

Это объясняется тем, что по мере фило- и онтогенетического развития все большее число стимулов из внешней среды приобретает свойства подкрепляющего фактора. В повседневной жизни человека такие формы подкрепления, особенно словесного характера, играют значительную роль, обеспечивая многообразие постоянно формирующихся многочисленных временных связей, ассоциаций и «внутренних состояний», которое делает психическую, поведенческую деятельность сложной и совершенной. Поэтому формирование ассоциаций, временных связей на осознаваемом и неосознаваемом уровнях с помощью эмоционально значимых стимулов (в частности, ключевая роль обратных связей с их мотивационно-лимбическим звеном, важным для изменений возбудимости коры больших полушарий) должно рассматриваться в качестве важной, но далеко не единственной формы обучения. При этом у животных и прежде всего у человека существует множество других форм подкрепления, не связанных с сильными отрицательными эмоциями.

В экспериментальной психологии и в психофизиологии предложено много моделей, предполагающих лабораторное исследование роли разных форм подкрепления в осуществлении высших корковых психических функций в норме и патологии. Модель, адекватная психофизиологическим исследованиям, должна давать возможность регистрировать наряду с биоэлектрическими феноменами качественные и количественные характеристики поведенческих реакций, изучать межполушарные функциональные отношения в процессе обучения, на разных его стадиях и, что особенно важно, допускать возможность изменять информационную значимость стимула обратной связи, т.е. подкрепления.

В повседневной жизни человека начиная с раннего возраста и до конца его дней в качестве подкрепления нередко используются слова «хорошо» и «ошибка». Подобная форма подкрепления в виде таких слов или символов, их заменяющих, обычна в экспериментальных психологических и психофизиологических лабораторных исследованиях. Когда прибегают к данным стимулам обратной связи, объект получает от другого лица оценку правильности или ошибочности своей реакции. Следует отметить, что информация, содержащаяся в подобном стимуле обратной связи, неполная, так как слово «ошибка» не указывает конкретно, в чем же заключалась ошибка в решении испытуемым когнитивной задачи. При этом необходимо учитывать, что отрицательная оценка, заключающаяся в этом слове, его неопределенность, «дефицит информации» могут вызвать у человека негативную эмоцию.

Формы подкрепления типа «хорошо» — «ошибка», используемые человеком, по существу аналогичны подкрепляющим раздражителям, традиционно используемым при обучении животных, или напоминают таковые. Их можно без особого труда сопоставить с многочисленными поощряющими и запретительными сигналами-подкреплениями у животных. Например, это поощрение пищей или наказание ударом электрического тока.

Специфически человеческой и, несомненно, важной формой подкрепления служит сознательное или бессознательное умозаключение субъекта. По крайней мере в развитом виде эта форма, по- видимому, присуща только человеку.    В чем она заключается? Субъект приходит к умозаключению о правильности или ошибочности своей реализованной произвольной реакции, сопоставляя принятое им решение когнитивной задачи с информацией, содержащейся в наглядной и доступной форме в стимуле обратной связи; например, он сопоставляет информацию о действительных соотношениях между эталонным и тестируемым зрительными объектами или интервалами времени и т.п. В данных случаях подкреплением служит не сам по себе стимул обратной связи, а то умозаключение о правильности или ошибочности своей произвольной реакции, к которому приходит субъект каждый раз после сопоставления данной реакции с информацией, содержащейся в этом стимуле. Здесь подкреплением служит не оценка другого лица (или, например, компьютера), а именно умозаключение субъекта, когда он оценивает свою деятельность на основании дальнейшей информации, и результат такой оценки оказывается корригирующим фактором в механизме обратной связи.

Существует много моделей когнитивной деятельности, в которых используются разные формы подкрепления. В качестве примера приведем две из них, наиболее удачные при изучении динамики когнитивной функции на разных этапах обучения в зависимости от применения определенных стимулов обратной связи (форм подкрепления). В обеих когнитивная задача, предлагаемая испытуемому для решения, состояла в том, что он должен был путем сопоставления тестируемых зрительных стимулов с эталонным стимулом каждый раз принимать решение об их соответствии или несоответствии друг другу.

В психофизиологических экспериментах исследовалась функция различения взрослыми людьми микроинтервалов времени, т.е. величины пауз между зрительными стимулами. В качестве подкрепления использовали три типа стимулов, имеющих разное информационное значение. В одних экспериментах это были слова «хорошо» и «ошибка». Как подчеркивалось, в данном случае субъект получает оценку своей реакции извне, от другого лица. Вместе с тем такая информация неполная, поскольку слово «ошибка» не поясняет, что же оказалось не так в различении пауз. Останется неясным, переоценил или недооценил исследуемый тестируемую паузу между двумя зрительными полосками, появляющимися последовательно на экране, по сравнению с эталонным интервалом между этими же полосками, предъявляемыми в каждой пробе за 1,2 с до тестируемой паузы.

При проведении другой серии экспериментов стимулы обратной связи состояли из двух горизонтальных параллельных полосок, высвечиваемых на экране. Величина эталонной паузы равнялась 60 мс, а тестируемых — 10, 60 и 180 мс. Исследуемый, согласно предварительно получаемой инструкции, должен был в каждой пробе сравнивать тестируемую паузу между двумя полосками с эталонной и решить: больше она или меньше. О своем решении ему надо было сообщить нажатием на кнопку соответствующей рукой; если он считал, что тестируемая пауза равна эталонной, нажимать на кнопку не следовало. Правильность реакции исследуемого контролировалась компьютером, который высвечивал на экране слова «хорошо» или «ошибка».

В еще одной серии экспериментов испытуемый судил о правильности или ошибочности своего решения по соотношению длины двух горизонтальных полосок, предъявляемых на экране в качестве стимулов обратной связи: длина верхней условно изображает величину эталонной паузы, нижней — тестовых; т.е. соответственно предъявленной в пробе тестовой паузе длина нижней полоски может быть меньше верхней эталонной, равной ей или большей. Здесь используется более активная форма обучения, когда исследуемый сам должен сделать умозаключение о правильности реакции, сравнив свое решение с информацией в виде четко различимого, наглядного, представленного в графической форме изображения, показывающего соотношение между эталонным и тестируемым интервалами времени. В контрольных опытах в качестве стимула обратной связи во всех пробах независимо от правильности или ошибочности реакции исследуемого на экране высвечиваются две горизонтальные полоски одного размера.

Как и следовало ожидать, обратная связь, информирующая субъекта о результате действия, существенно улучшает процесс обучения, направленный на различение величины пауз между двумя последовательно предъявляемыми на экране световыми полосками. Это сказывается не только в увеличении числа правильных ответов, но и в значительном сокращении времени произвольной двигательной реакции, с помощью которой испытуемый сообщает о решении им когнитивной задачи. Вместе с тем наиболее выраженный эффект наблюдается в пробах, где стимул обратной связи в наглядной, графической форме показывает истинные соотношения различных интервалов времени и субъект может сделать умозаключение о правильности или ошибочности своего решения.

Разница между двумя видами подкрепления значительно больше выражена у эмоционально возбудимых акцентуированных личностей. У них дефицит обучения проявляется сильнее при такой форме подкрепления, когда действия оцениваются другим лицом (или компьютером) и результат сообщается с помощью стимулов обратной связи, например появляющихся на экране слов «хорошо» или «ошибка». Об этом говорит не только существенно меньшее число правильных решений задачи, но и больший коэффициент их вариабельности и худшая динамика обучения по сравнению с подкреплением типа «умозаключение». В последнем случае, когда испытуемому предоставляется возможность на основе соответствующей информации, содержащейся в стимуле обратной связи, самому судить о правильности или ошибочности своей реакции, лучшее обучение выражается не только в количестве правильных различений интервалов времени, но и в достоверном сокращении времени реакции по мере повторения проб.

В процессе обучения наблюдается явно латерализованный в сторону левого полушария эффект стимула обратной связи, т.е. подкрепления. Он наблюдался в опытах с оценкой интервалов времени и даже в тех исследованиях, где испытуемому нужно было решать зрительную пространственную задачу. Ему требовалось мысленно сконструировать сложную геометрическую фигуру из последовательно предъявляемых в правое поле зрения ее частей, в то время как информация «прямо» поступала в левое полушарие. Если в первые дни обучения различение пауз между двумя последовательно предъявляемыми полосками на экране или же решение зрительно пространственной задачи осуществляются эффективнее при поступлении информации в правое полушарие, то по мере тренировки эта асимметрия постепенно исчезает и даже меняет свой знак за счет лучшего «обучения» левого полушария. Такую перемену знака латерализации при тренировке, по-видимому, можно объяснить тем, что в результате многократных повторений увеличивается участие речевых механизмов в осуществлении невербальных когнитивных функций.

Вероятно, в начале обучения человек решает когнитивную задачу (сравнение величины эталонной и тестовых пауз или конструирование в уме целой фигуры из отдельных частей по образцу эталонной) главным образом на основе образной рабочей памяти.

Необходимо остановиться на одной интересной особенности обучения при помощи стимулов обратной связи типа «хорошо» — «ошибка». Анализ динамики правильных решений в течение многодневных повторных исследований показывает: обучение происходит главным образом благодаря пробам, непосредственно следующим за словом «хорошо». В пробах со словом «ошибка», если судить по анализу правильных реакций, обучения не происходит. Примечательно, что только в первом случае наблюдается динамика вызванной корковой активности в виде постепенного увеличения амплитуды волны Р300, регистрируемой в правом полушарии на значимые зрительные стимулы (части фигуры). В пробах после слова «ошибка» этого не происходит. В случае со словом «хорошо» скрытый период волны Р300 на эти стимулы в правом полушарии значительно короче, чем в пробах после подкрепления словом «ошибка». Перечисленные факты говорят о том, что положительный стимул обратной связи усиливает активацию правого полушария. По-видимому, чтобы правильно решить зрительную когнитивную задачу мысленного конструирования фигуры-эталона, необходим достаточно высокий уровень активации правого полушария, который вызывается действием стимула положительной обратной связи, это и обеспечивает сохранение в долгосрочной памяти образов эталона и частей фигуры. Вместе с тем нельзя не заметить и некоторого противоречия между поведенческими и электрофизиологическими данными: как было сказано выше, по мере тренировки обучение происходит лучше в левом полушарии, когда зрительные стимулы непосредственно адресуются, в это полушарие. Функциональная межполушарная асимметрия по мере обучения и в результате действия стимулов обратной связи может существенно изменяться, она весьма динамична и неоднозначна. При этом следует помнить, что показатели полушарной асимметрии в значительной степени могут зависеть от регистрируемой функции, о чем свидетельствуют описанные опыты со стимулами обратной связи «хорошо» — «ошибка». Согласно поведенческим данным, обучение явно лучше протекает в левом полушарии, а по показателю вызванной электрической активности коры в результате действия стимула обратной связи сильнее активируется правое полушарие. Таким образом, при решении вопросов функциональной асимметрии полушарий необходимо учитывать это несовпадение данных. Подобное обстоятельство еще раз говорит о чрезвычайной сложности проблемы.