Проучване твърди, че ChatGPT губи способността си, но някои експерти не са убедени в това
В изследване, озаглавено „Как се променя поведението на ChatGPT с течение на времето?“, включено в списъка на arXiv, Lingjiao Chen, Matei Zaharia и James Zou поставят под съмнение постоянната производителност на големите езикови модели (LLM) на OpenAI, по-специално GPT-3.5 и GPT-4. Използвайки достъп до API, те тестваха версиите на тези модели от март и юни 2023 г. при задачи като решаване на математически задачи, отговаряне на деликатни въпроси, генериране на код и визуално мислене. Най-забележително е, че способността на GPT-4 да разпознава прости числа се е понижила драстично – от 97,6% през март до едва 2,4% през юни. Странно е, че GPT-3.5 е показал по-добри резултати през същия период.
Това проучване идва по петите на хората, които често се оплакват, че GPT-4 субективно е намалил ефективността си през последните няколко месеца. Популярните теории за причините включват „дестилиране“ на моделите от OpenAI, за да се намалят изчислителните им разходи в стремежа да се ускори извеждането на резултатите и да се спестят ресурси на графичните процесори, фини настройки (допълнително обучение), за да се намалят вредните резултати, които могат да имат непреднамерени ефекти, както и множество неподкрепени конспиративни теории, като например, че OpenAI намалява възможностите за кодиране на GPT-4, за да може повече хора да плащат за GitHub Copilot.
Междувременно OpenAI последователно отрича всякакви твърдения, че GPT-4 е намалил възможностите си. Още миналия четвъртък вицепрезидентът по продуктите на OpenAI Питър Велиндер написа в Twitter, „Не, не сме направили GPT-4 по-глупав. Точно обратното: правим всяка нова версия по-умна от предишната. Настоящата хипотеза: Когато го използвате по-интензивно, започвате да забелязвате проблеми, които не сте виждали преди.“
Въпреки че това ново проучване може да изглежда като пушечно оръжие, което да докаже догадките на критиците на GPT-4, други казват, че не е толкова бързо. Професорът по компютърни науки в Принстън Арвинд Нараянан смята, че резултатите от изследването не доказват категорично намаляване на производителността на GPT-4 и потенциално съответстват на корекциите за фина настройка, направени от OpenAI. Например по отношение на измерването на възможностите за генериране на код той критикува изследването за това, че оценява непосредствената способност на кода да бъде изпълнен, а не неговата коректност.
„Промяната, за която те съобщават, е, че по-новият GPT-4 добавя към изхода си текст, който не е код. Те не оценяват коректността на кода (странно)“, каза той в Twitter. „Те просто проверяват дали кодът е директно изпълним. Така че опитът на по-новия модел да бъде по-полезен се отчита срещу него“