ШІ-агент, що клікає по сайту, витрачає у 45 разів більше токенів, ніж той, що працює через API — тест Reflex
Дата публікації
07.05.2026
Найближчим часом ми зв'яжемося з вами
Якщо ШІ-агент виконує завдання на вебсайті так, як це робила б людина — дивиться на екран, клікає, прокручує, — він спалює у 45 разів більше токенів, ніж агент, який звертається напряму до API того ж застосунку. При цьому працює повільніше та частіше помиляється. Такі результати показав бенчмарк від Reflex, платформи для створення корпоративних застосунків.
Обидва агенти використовували одну й ту саму модель — Claude Sonnet від Anthropic — і працювали з одним застосунком. Завдання теж було ідентичне: знайти клієнта на ім’я Сміт із найбільшою кількістю замовлень, прийняти всі його відкладені відгуки та позначити останнє замовлення як доставлене.
Візуальний агент керував вебінтерфейсом через інструмент browser-use 0.12 — робив скріншоти, аналізував зображення та клікав по елементах. API-агент звертався до HTTP-ендпоінтів того ж застосунку напряму й отримував структуровані дані у відповідь.
API-агент завершив завдання за 8 викликів і приблизно 20 секунд. Витратив близько 12 150 вхідних і 934 вихідних токени.
Візуальний агент — навіть після додаткового покрокового промпту — працював близько 17 хвилин і спожив приблизно 500 000 вхідних і 38 000 вихідних токенів. Без цього промпту агент узагалі знайшов лише один із чотирьох відгуків — бо не зміг прокрутити сторінку.
Варіативність теж показова. За три запуски візуальний агент витрачав від 407 до 751 тисячі вхідних токенів і від 43 до 68 циклів. API-агент за п’ять запусків показав розкид у ±27 токенів — фактично нульову варіативність.
Причина — у самій архітектурі. Кожен скріншот — це тисячі токенів. За оцінкою Anthropic, обробка одного зображення 1 000×1 000 пікселів у Claude Sonnet 4.6 споживає близько 1 334 токенів. Візуальний агент робить десятки таких скріншотів за одне завдання, бо мусить «побачити» кожен проміжний стан сторінки перед наступною дією.
І навіть якщо моделі стануть розумнішими, кількість скріншотів від цього не зменшиться — вона визначається інтерфейсом, а не здібностями агента. Як зазначають у Reflex, кращі моделі знижують відсоток помилок на кожен скріншот, але не скорочують кількість самих скріншотів.
Аваші підсумовує: якщо ви працюєте з чужим застосунком, де немає API, — візуальний агент може бути єдиним варіантом. Але для внутрішніх інструментів, де контроль за кодом у ваших руках, агент має працювати через API. Reflex , аби будь-хто міг відтворити результати.
Для власників інтернет-магазинів, які планують інтегрувати ШІ-агентів у свої процеси, висновок із тесту свідчить про необхідність давати агенту API-доступ до даних. Це дешевше, швидше та надійніше, ніж змушувати його «дивитися» на інтерфейс. А якщо ваш вебсайт має стати зрозумілим і для зовнішніх ШІ-агентів — варто подбати про структуровані дані та чітку архітектуру, що полегшить їм роботу в рази.
Комментарии