Рубрики
МЕНЮ
Ткачова Марія
Компанії Microsoft та Salesforce провели спільне дослідження, у межах якого проаналізували понад 200 тисяч діалогів із провідними мовними моделями — зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, а також "міркувальними" моделями на кшталт o3 та DeepSeek R1.

Спілкування з чат-ботом
Результати показали, що ефективність моделей у першому запиті може сягати 90%, однак у межах тривалого діалогу цей показник падає до 65%. Водночас рівень помилок і так званих "галюцинацій" зростає на 112%.
Дослідники також зафіксували, що відповіді моделей у довгих чатах стають довшими — у середньому на 20–300%.
Серед основних причин такого явища називають:
• модель намагається сформувати відповідь ще до повного розуміння контексту;
• початкова помилка може використовуватися як "база" для подальших відповідей;
• у довгих відповідях накопичуються припущення, які стають частиною контексту розмови.
Поки розробники працюють над вирішенням цієї проблеми, дослідники радять користувачам дотримуватися простого принципу: для нового завдання краще створювати новий чат, а не продовжувати старий діалог.