ИИ-агент, кликающий по сайту, тратит в 45 раз больше токенов, чем работающий через API — тест Reflex
Дата публикации
07.05.2026
В ближайшее время мы свяжемся с вами
Если ИИ-агент выполняет задачу на веб-сайте так, как это делал бы человек — смотрит на экран, кликает, прокручивает, — он сжигает в 45 раз больше токенов, чем агент, обращающийся напрямую к API того же приложения. При этом работает медленнее и чаще ошибается. Такие результаты показал бенчмарк от Reflex, платформы для создания корпоративных приложений.
Оба агента использовали одну и ту же модель — Claude Sonnet от Anthropic — и работали с одним приложением. Задача тоже была идентичной: найти клиента по имени Смит с наибольшим количеством заказов, принять все его отложенные отзывы и пометить последний заказ как доставленный.
Визуальный агент управлял веб-интерфейсом через инструмент browser-use 0.12 — делал скриншоты, анализировал изображения и кликал по элементам. API-агент обращался к HTTP-эндпоинтам того же приложения напрямую и получал структурированные данные в ответ.
API-агент завершил задачу за 8 вызовов и примерно 20 секунд. Потратил около 12 150 входящих и 934 исходящих токена.
Визуальный агент — даже после дополнительного пошагового промпта — работал около 17 минут и потребил примерно 500 000 входящих и 38 000 исходящих токенов. Без этого промпта агент вообще нашёл лишь один из четырёх отзывов — потому что не смог прокрутить страницу.
Вариативность тоже показательна. За три запуска визуальный агент тратил от 407 до 751 тысячи входящих токенов и от 43 до 68 циклов. API-агент за пять запусков показал разброс в ±27 токенов — фактически нулевую вариативность.
Причина — в самой архитектуре. Каждый скриншот — это тысячи токенов. По оценке Anthropic, обработка одного изображения 1 000×1 000 пикселей в Claude Sonnet 4.6 потребляет около 1 334 токенов. Визуальный агент делает десятки таких скриншотов за одну задачу, потому что должен «увидеть» каждое промежуточное состояние страницы перед следующим действием.
И даже если модели станут умнее, количество скриншотов от этого не уменьшится — оно определяется интерфейсом, а не способностями агента. Как отмечают в Reflex, лучшие модели снижают процент ошибок на каждый скриншот, но не сокращают количество самих скриншотов.
Аваши подытоживает: если вы работаете с чужим приложением, где нет API, — визуальный агент может быть единственным вариантом. Но для внутренних инструментов, где контроль над кодом в ваших руках, агент должен работать через API. Reflex , чтобы любой мог воспроизвести результаты.
Для владельцев интернет-магазинов, которые планируют интегрировать ИИ-агентов в свои процессы, вывод из теста свидетельствует о необходимости давать агенту API-доступ к данным. Это дешевле, быстрее и надёжнее, чем заставлять его «смотреть» на интерфейс. А если ваш веб-сайт должен стать понятным и для внешних ИИ-агентов — стоит позаботиться о структурированных данных и чёткой архитектуре, которая облегчит им работу в разы.
Комментарии