ШІ "ламається" під тиском користувачів: що показало дослідження вчених
Індекс "задоволеності ШІ" (скриншот: матеріали дослідження "Благополуччя зі штучним інтелектом")
Який ШІ найскладніший у спілкуванні?
Дослідники порівняли "базовий стан" популярних моделей, і результати виявилися парадоксальними: чим "прокачаніший" ШІ, тим він гірше переносить негатив.
Як себе проявили нейромережі:
GPT-5.4 очолила антирейтинг як найбільш "похмура" модель. Менш ніж половина її діалогів була оцінена як позитивна або нейтральна.
Gemini 3.1 Pro та Claude Opus 4.6 показали значно кращі результати, демонструючи стабільнішу та приязнішу манеру співпраці з користувачами.
Grok 4.2 виявився найстійкішим до стресу, посівши перше місце в індексі "добробуту" ШІ-моделей.
На що звертати увагу користувачам нейронок?
Патерн, який виявили вчені, має пряме практичне значення. Грубість до ШІ - це не просто етичне питання, а питання якості вихідного продукту.
Якщо користувач поводиться агресивно, він активно працює над деградацією інтелекту ШІ-моделі у межах чинної сесії. Як результат, у відповідь на тиск користувач отримує неточності у коді, вигадані факти та прихований саботаж.
Вчені резюмували: ввічливість у запитах стає необхідним інструментом для отримання коректних та глибоких відповідей від ШІ.
Ще більше цікавого:
- ШІ ламає психіку користувачів: вчені стривожені масштабами проблеми
- Штучний інтелект не відрізняє правду від брехні: що виявили вчені