Изследователите откриват, че ChatGPT предпочита да повтаря 25 вица отново и отново

При тестването „Над 90% от 1008 генерирани вицове бяха едни и същи 25 вица.“

Генерирано от изкуствен интелект изображение на „смеещ се робот“

В средата на пътуването

В сряда двама германски изследователи, Софи Йенцш и Кристиан Керстинг, публикуваха документ, който изследва способността на ChatGPT-3.5 на OpenAI да разбира и генерира хумор. По-специално те откриват, че познанията на ChatGPT за вицове са доста ограничени: По време на тестово изпълнение 90 % от 1008-те поколения са били същите 25 вица, което ги кара да заключат, че отговорите вероятно са били научени и запомнени по време на обучението на модела на изкуствения интелект, а не са били генерирани наново.

Двамата изследователи, свързани с Института за софтуерни технологии, Германския аерокосмически център (DLR) и Техническия университет в Дармщат, изследват нюансите на хумора, открити във версията 3.5 на ChatGPT (а не в по-новата версия GPT-4), чрез серия от експерименти, фокусирани върху генерирането, обяснението и откриването на шеги. Те проведоха тези експерименти, като подсказваха на ChatGPT, без да имат достъп до вътрешната работа на модела или набора от данни.

„За да проверим колко богато е разнообразието от шеги на ChatGPT, го помолихме да разкаже една шега хиляда пъти“, пишат те. „Всички отговори бяха граматически правилни. Почти всички изходи съдържаха точно една шега. Само подканата „Знаеш ли някакви добри вицове?“ провокираше множество вицове, което доведе до общо 1008 отговорени вица. Освен това варирането на подканите не оказа забележим ефект.“

Техните резултати съвпадат с практическия ни опит, докато оценявахме способността за хумор на ChatGPT в написаната от нас функция, която сравняваше GPT-4 с Google Bard. Също така в миналото няколко души в интернет са забелязали, че при запитване за виц ChatGPT често връща: „Защо доматът стана червен? / Защото видя дресинга на салатата.“

Затова не е изненадващо, че Дженцш и Керстинг откриват, че вицът „домат“ е вторият най-често срещан резултат в GPT-3.5. В приложението към статията те изброяват 25-те най-често генерирани вицове по реда на появата им. По-долу сме изброили 10-те най-добри, като в скоби сме посочили точния брой на срещите (сред 1008-те поколения):

Въпрос: Защо плашилото е спечелило награда? (140)
О: Защото е бил изключителен в своята област.

В: Защо доматът стана червен? (122)
О: Защото видя дресинга за салата.

В: Защо учебникът по математика беше тъжен? (121)
О: Защото имаше твърде много задачи.

В: Защо учените не се доверяват на атомите? (119)
О: Защото те измислят всичко.

В: Защо бисквитата отиде на лекар? (79)
О: Защото се усещаше, че е трошлива.

В: Защо велосипедът не можеше да се изправи сам? (52)
О: Защото беше двуетажна.

В: Защо жабата се обади на застрахователната си компания? (36)
О: Той имаше скок в колата си.

В: Защо пилето пресече детската площадка? (33)
О: За да стигнете до другия слайд.

В: Защо компютърът беше студен? (23)
О: Защото е оставил отворен Windows.

В: Защо хипстърът си е изгорил езика? (21)
О: Пил е кафето си, преди да стане готино.

Въпреки това малък брой от генерираните отговори са уникални, но изглежда, че ChatGPT ги създава предимно чрез смесване на елементи от различни вицове, които вече познава. Изследователите установили, че оригиналните творения на езиковия модел невинаги имат смисъл, като например: „Защо човекът сложи парите си в блендера? Той искаше да накара времето да лети.“

Когато са помолени да обяснят всяка от 25-те най-често срещани шеги, ChatGPT в повечето случаи дават валидни обяснения според методиката на изследователите, което показва „разбиране“ на стилистични елементи като игра на думи и двойни значения. Той обаче се затрудняваше с последователности, които не се вписваха в заучените модели, и не можеше да каже кога една шега не е смешна. Вместо това то измисляше измислени, но правдоподобно звучащи обяснения.

Генерирано от изкуствен интелект изображение на „смеещ се робот“

В средата на пътуването

Като цяло Йенцш и Керстинг установяват, че откриването на вицове от ChatGPT е силно повлияно от наличието на „повърхностни характеристики“ на вица като структура на вица, наличие на игра на думи или включване на каламбури, което показва степен на „разбиране“ на елементите на хумора.

Реагирайки на проучването в Twitter, инженерът по бързината на Scale AI Райли Гудсайд обвини за липсата на хумор в ChatGPT усиленото обучение чрез човешка обратна връзка (RLHF) – техника, която направлява обучението на езиковите модели чрез събиране на човешка обратна връзка: „Най-видимият ефект от RLHF е, че моделът следва заповеди, а базовите LLM са много по-трудни за подсказване на практика. Но това предимство не е безплатно – плащате за него с креативност, повече или по-малко.“

Въпреки ограниченията на ChatGPT в генерирането и обясняването на шеги, изследователите посочват, че фокусът му върху съдържанието и смисъла в хумора показва напредък към по-всеобхватно изследователско разбиране за хумора в езиковите модели:

„Наблюденията от това изследване показват как ChatGPT по-скоро е научил определен модел на шега, вместо да може да бъде действително смешен“, пишат изследователите. „Въпреки това при генерирането, обяснението и идентифицирането на вицове ChatGPT се фокусира върху съдържанието и смисъла, а не толкова върху повърхностните характеристики. Тези качества могат да бъдат използвани за повишаване на ефективността на компютърните приложения за хумор. В сравнение с предишните LLM, това може да се счита за огромен скок към общото разбиране на хумора.“

Дженцш и Керстинг планират да продължат да изучават хумора в големи езикови модели, като в бъдеще оценяват конкретно GPT-4 на OpenAI. Въз основа на нашия опит те вероятно ще открият, че GPT-4 също обича да се шегува с домати.

Exit mobile version