ШІ-агент, що клікає по сайту, витрачає у 45 разів більше токенів, ніж той, що працює через API — тест Reflex

Дата публікації

07.05.2026

ШІ-агент, що клікає по сайту, витрачає у 45 разів більше токенів, ніж той, що працює через API — тест Reflex

Якщо ШІ-агент виконує завдання на вебсайті так, як це робила б людина — дивиться на екран, клікає, прокручує, — він спалює у 45 разів більше токенів, ніж агент, який звертається напряму до API того ж застосунку. При цьому працює повільніше та частіше помиляється. Такі результати показав бенчмарк від Reflex, платформи для створення корпоративних застосунків.

Що порівнювали

Обидва агенти використовували одну й ту саму модель — Claude Sonnet від Anthropic — і працювали з одним застосунком. Завдання теж було ідентичне: знайти клієнта на ім’я Сміт із найбільшою кількістю замовлень, прийняти всі його відкладені відгуки та позначити останнє замовлення як доставлене.

Візуальний агент керував вебінтерфейсом через інструмент browser-use 0.12 — робив скріншоти, аналізував зображення та клікав по елементах. API-агент звертався до HTTP-ендпоінтів того ж застосунку напряму й отримував структуровані дані у відповідь.

«Та ж модель Claude Sonnet, той же набір даних, те саме завдання. Єдина змінна — інтерфейс», — пояснив керівник відділу розвитку Reflex Палаш Аваші.

Цифри

API-агент завершив завдання за 8 викликів і приблизно 20 секунд. Витратив близько 12 150 вхідних і 934 вихідних токени.

Візуальний агент — навіть після додаткового покрокового промпту — працював близько 17 хвилин і спожив приблизно 500 000 вхідних і 38 000 вихідних токенів. Без цього промпту агент узагалі знайшов лише один із чотирьох відгуків — бо не зміг прокрутити сторінку.

Варіативність теж показова. За три запуски візуальний агент витрачав від 407 до 751 тисячі вхідних токенів і від 43 до 68 циклів. API-агент за п’ять запусків показав розкид у ±27 токенів — фактично нульову варіативність.

Читайте також:

Боти OpenAI потроїли активність після запуску GPT-5 — тепер пошуковий краулер працює інтенсивніше

Чому так дорого

Причина — у самій архітектурі. Кожен скріншот — це тисячі токенів. За оцінкою Anthropic, обробка одного зображення 1 000×1 000 пікселів у Claude Sonnet 4.6 споживає близько 1 334 токенів. Візуальний агент робить десятки таких скріншотів за одне завдання, бо мусить «побачити» кожен проміжний стан сторінки перед наступною дією.

І навіть якщо моделі стануть розумнішими, кількість скріншотів від цього не зменшиться — вона визначається інтерфейсом, а не здібностями агента. Як зазначають у Reflex, кращі моделі знижують відсоток помилок на кожен скріншот, але не скорочують кількість самих скріншотів.

Читайте також:

Що змушує ChatGPT і Claude повертатися на ваш сайт: висновки з 68 мільйонів візитів ШІ-краулерів

Коли візуальний агент все ж потрібен

Аваші підсумовує: якщо ви працюєте з чужим застосунком, де немає API, — візуальний агент може бути єдиним варіантом. Але для внутрішніх інструментів, де контроль за кодом у ваших руках, агент має працювати через API. Reflex виклав бенчмарк на GitHub, аби будь-хто міг відтворити результати.

Для власників інтернет-магазинів, які планують інтегрувати ШІ-агентів у свої процеси, висновок із тесту свідчить про необхідність давати агенту API-доступ до даних. Це дешевше, швидше та надійніше, ніж змушувати його «дивитися» на інтерфейс. А якщо ваш вебсайт має стати зрозумілим і для зовнішніх ШІ-агентів — варто подбати про структуровані дані та чітку архітектуру, що полегшить їм роботу в рази.

ШІ-агент, що клікає по сайту, витрачає у 45 разів більше токенів, ніж той, що працює через API — тест Reflex

Дата публікації

Що порівнювали

«Та ж модель Claude Sonnet, той же набір даних, те саме завдання. Єдина змінна — інтерфейс», — пояснив керівник відділу розвитку Reflex Палаш Аваші.

Цифри

Читайте також:

Чому так дорого

Читайте також:

Коли візуальний агент все ж потрібен

Комментарии