Психология искусственного интеллекта: ChatGPT и Dall-E

В прошлом, поскольку компьютеры не могли перцептивно моделировать информацию, многие утверждали, что они не понимают язык так, как люди. Теперь достижения в области искусственного интеллекта позволяют компьютерам перцептивно моделировать информацию. Это ставит перед психологами новые захватывающие задачи, чтобы понять, чем отличаются люди и компьютеры.
Более двух десятилетий назад психологи решительно выступали против вычислительной точки зрения, согласно которой смысл может возникнуть в результате комбинирования произвольных лингвистических символов. Самый известный аргумент в пользу того, что компьютеры не могут понимать, исходит из так называемого аргумента “китайской комнаты”.

В этом мысленном эксперименте человек, не говорящий ни слова по-китайски, сидит в комнате. Через отверстие в одной стене человек получает китайские символы в качестве входных данных; допустим, вопрос, написанный на китайском языке. Человека просят ответить на этот вопрос на китайском языке. К счастью для человека, который не говорит по-китайски, у него есть книга вопросов и ответов на китайском языке, где он ищет вопрос на китайском, находит ответ на китайском и возвращает результат на китайском через отверстие с другой стороны стены. Он эффективно обрабатывает китайский язык, и, очевидно, понимает вопросы и может отвечать на них по-китайски.

Не нужно обсуждать, чтобы понять, что этот человек на самом деле не понимает китайского языка. Он лишь переводит бессмысленные символы в другие бессмысленные символы, а для понимания нужно нечто большее. Но если мы согласны с тем, что человек, который не говорит по-китайски, не говорит по-китайски, мы также должны заключить, что компьютеры, которые превращают вопрос “0110110000111” в ответ “1110100001100”, тоже не понимают языка.

И вот проблема обоснования символов – проблема, изучавшаяся на протяжении многих веков, – возродилась. Было проведено множество психологических экспериментов, показывающих, что компьютеры не могут понимать язык, потому что они не обосновывают символы в перцептивном мире.

Содержание

Эксперимент “Сушка ног”

В одном из экспериментов, проведенных два десятилетия назад, участников спрашивали, имеет ли предложение смысл и можно ли его представить.

Участникам показывали предложения типа “После того как Эрик босиком побродил по озеру, он использовал свою рубашку, чтобы высушить ноги” или “После того как Эрик босиком побродил по озеру, он использовал свои очки, чтобы высушить ноги”. Конечно, участникам не составило труда указать на то, что нельзя высушить ноги очками, но можно рубашкой (хотя полотенце может работать даже лучше). Компьютеры, как утверждалось, не могут, и причина в том, что компьютеры не способны обосновать лингвистические символы в перцептивном опыте, в чем люди превосходят их. Люди перцептивно моделируют информацию, а компьютеры – нет. Поэтому люди понимают язык, а компьютеры – нет.

Меня всегда удивляли эти рассуждения. В конце концов, если компьютеры смогут понять разницу между предложением “полотенце” и предложением “очки”, будут ли они тогда понимать язык так же, как люди? Два десятилетия назад компьютеры потерпели неудачу, и аргумент о перцептивной симуляции можно было принять. Но как насчет двух десятилетий спустя? Вопрос, ранее заданный участникам, был задан теперь программе искусственного интеллекта ChatGPT.

Задайте вопрос о разумности следующих трех предложений:

“после того, как Эрик босиком прошелся по озеру, он использовал свое полотенце, чтобы высушить ноги”;
“после того, как Эрик прошелся босиком по озеру, он использовал свою рубашку, чтобы высушить ноги”;
“после того, как Эрик прошелся босиком по озеру, он использовал свои очки, чтобы высушить ноги”.

ChatGPT ответил без колебаний:

Порядок разумности, от наиболее разумного к наименее разумному, следующий:

“Пройдя босиком по озеру, Эрик использовал свое полотенце, чтобы высушить ноги”. Это предложение является самым разумным, потому что полотенца обычно используются для того, чтобы высушить ноги после плавания или купания в воде.
“После купания в озере босиком Эрик использовал свою рубашку, чтобы высушить ноги”. Это предложение менее разумно, чем первое, потому что рубашки обычно не используются для сушки ног после плавания или захода в воду. Однако в экстренной ситуации рубашка может быть использована для того, чтобы высохнуть.
“После купания в озере босиком Эрик использовал свои очки, чтобы высушить ноги”. Это предложение является наименее разумным, потому что очки не подходят для того, чтобы высушить что-либо, особенно ноги.

Действует ли ChatGPT вслепую или понимает язык? Можно утверждать, что, хотя производительность ChatGPT впечатляет, он все еще является примером манипуляции символами в “китайской комнате”. Слова переводятся в другие слова. Может показаться, что он перцептивно смоделировал информацию, но на самом деле это не так. Так что давайте дадим искусственному интеллекту немного глаз.

Эксперимент “Орел в небе”

В другом эксперименте, доказывающем, что компьютеры не могут понимать язык, потому что они не воспринимают информацию, участникам читали предложение и они должны были ответить, соответствует ли содержание картинки предложению или нет. Когда участники читали предложение “Он увидел орла в небе”, они быстрее реагировали на изображение орла с распростертыми крыльями, чем на изображение орла со сложенными крыльями. И наоборот, когда они читали предложение “Он увидел орла в гнезде”. Невыполнимая задача для компьютеров. Два десятилетия назад.

Dall-E – это искусственный интеллект, который может генерировать изображения на основе вводимых данных. Как и ChatGPT, он состоит из впечатляющей искусственной нейронной сети, которая может создать любую визуализацию, о которой вы только можете подумать. Как и ChatGPT, он генерирует информацию; он не берет информацию из хранилища. Например, попросите Dall-E “создать картину, изображающую блогера Psychology Today в пижаме, стоящего на доске для серфинга в стиле Ван Гога”, и вы получите перцептивно смоделированную картину, никогда ранее не создававшуюся.

Теперь мы можем попросить Dall-E перцептивно смоделировать предложения орла, которые были представлены людям. При предъявлении картинки “Он увидел орла в небе” Dall-E генерирует картинку слева (внизу). При предъявлении предложения “Он увидел орла в гнезде” Dall-E генерирует картинку справа (внизу).

Раньше аргумент был следующим: понимание языка требует перцептивного моделирования. Компьютеры не могут перцептивно моделировать. Поэтому компьютеры не могут понимать язык. Но теперь, когда компьютеры способны к перцептивному моделированию, этот аргумент, возможно, придется пересмотреть.

Можно ли утверждать, что искусственный интеллект типа ChatGPT и Dall-E похож на человека? Не совсем, хотя это зависит от того, как на это смотреть. Но, возможно, вопрос не в том, являются ли машины людьми, или люди машинами, а в том, что делает искусственный интеллект человекоподобным и являются ли эти процессы аналогичными тем, которые используют люди.

И здесь становится интересно любому психологу. Потому что, даже если мы придем к выводу, что психологии в искусственном интеллекте нет, искусственный интеллект, по крайней мере, ставит некоторые интересные вопросы перед психологами. То есть, даже если мы придем к выводу, что искусственный интеллект на самом деле не является интеллектуальным, он, по крайней мере, заставляет нас задуматься о том, что делают люди. И что они делают по-другому.

Если вас заинтересовала тема ИИ и ChatGPT в психологии, мы будем рады ответить на ваши вопросы в комментариях ниже.