Через какое общение чат-боты "тупеют": внимание всем пользователям
Совместное исследование Microsoft и Salesforce показало, что во время длительных диалогов чат-боты все чаще ошибаются и генерируют больше галлюцинаций
Компании Microsoft и Salesforce провели совместное исследование, в рамках которого проанализировали более 200 тысяч диалогов с ведущими языковыми моделями - в частности GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, а также "размышляющими" моделями типа o3 и DeepSeek R1.
Результаты показали, что эффективность моделей в первом запросе может достигать 90%, однако в рамках продолжительного диалога этот показатель падает до 65%. В то же время уровень ошибок и так называемых галлюцинаций растет на 112%.
Исследователи также зафиксировали, что ответы моделей в длинных чатах становятся длиннее – в среднем на 20–300%.
Среди основных причин такого явления называют:
• модель пытается сформировать ответ еще до полного понимания контекста;
• начальная ошибка может использоваться в качестве "базы" для дальнейших ответов;
• в длинных ответах накапливаются предположения, становящиеся частью контекста разговора.
Пока разработчики работают над решением этой проблемы, исследователи советуют пользователям соблюдать простой принцип: для новой задачи лучше создавать новый чат, а не продолжать старый диалог.