Через яке спілкування чат-боти "тупішають": увага всім користувачам

Спільне дослідження Microsoft і Salesforce показало, що під час тривалих діалогів чат-боти дедалі частіше помиляються та генерують більше «галюцинацій»

Компанії Microsoft та Salesforce провели спільне дослідження, у межах якого проаналізували понад 200 тисяч діалогів із провідними мовними моделями — зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, а також "міркувальними" моделями на кшталт o3 та DeepSeek R1.

Результати показали, що ефективність моделей у першому запиті може сягати 90%, однак у межах тривалого діалогу цей показник падає до 65%. Водночас рівень помилок і так званих "галюцинацій" зростає на 112%.

Дослідники також зафіксували, що відповіді моделей у довгих чатах стають довшими — у середньому на 20–300%.

Серед основних причин такого явища називають:

модель намагається сформувати відповідь ще до повного розуміння контексту;

• початкова помилка може використовуватися як "база" для подальших відповідей;

• у довгих відповідях накопичуються припущення, які стають частиною контексту розмови.

Поки розробники працюють над вирішенням цієї проблеми, дослідники радять користувачам дотримуватися простого принципу: для нового завдання краще створювати новий чат, а не продовжувати старий діалог.

Нагадуємо, раніше портал "Коментарі" повідомляв про те, що з’явилася платформа RentAHuman.ai, яка дозволяє агентам штучного інтелекту напряму наймати реальних людей для виконання завдань, недоступних для цифрових систем. Розробники називають сервіс "фізичним рівнем ШІ".
Навіть найсучасніший штучний інтелект не має тіла. Він не може забрати посилку, сходити на подію, оглянути нерухомість чи перевірити щось на місці. Саме для цього створили платформу RentAHuman.ai. Це майданчик, де алгоритм через API або MCP-протокол може знайти, забронювати й оплатити роботу людини як інструмент.