Послуги

  • Сайти
  • Контент
  • Просування
  • Бітрікс24
  • Додатки
Усі послуги Оплата
Бітрікс24
Усі послуги Оплата

Пошук

  • Разработка интернет-магазина под ключ
  • Разработка сайтов
  • Разработка леднигов
  • Разработка на битрикс24
  • Разработка на Вордпресс

Кейс: парсинг каталогу запчастин та імпорт в інтернет-магазин

Інтернет-магазини, їх розробка, просування та адміністрування – це окремий напрямок діяльності нашої команди, що має свої унікальні особливості. Одна з них полягає в тому, що розробка інтернет-магазину – це лише перший крок до запуску повноцінного бізнесу. Крім цього, багато сил витрачається на формування структури, налаштування, підключення до різних сервісів, адміністрування, управління асортиментом і так далі.

І чим більше товарів у каталозі, тим складнішим можливо його заповнення. Якщо йдеться про магазин, у якому 50-150 товарів, багато змін можна вносити вручну, без складних доопрацювань. Цілком іншого підходу вимагають сайти, на яких розміщуються тисячі, десятки або навіть сотні тисяч позицій.

Про проект

Сьогодні ми розглянемо саме такий випадок: інтернет-магазин автозапчастин для BMW, в якому представлено 273 000 (!!!) товарів. У цьому кейсі ми розповімо про досвід парсингу каталогу з подальшим імпортом на сайт клієнта для його заповнення.

Сам інтернет-магазин Ви зможете подивитися за посиланням.

Парсинг – автоматизований збір інформації з цільового сайту або сайтів (так званих сайтів-донорів) для подальшого використання отриманих даних при вирішенні певних завдань (наприклад, для заповнення каталогу інтернет-магазину).

Парсинг офіційного довідника автозапчастин БМВ мав низку особливостей:

Складна, багаторівнева рубрикація

Багато запчастин підходять до десятків різних моделей авто. Таким чином, за 273000 товарів на виході ми отримали більше мільйона (!!!) ланцюжків категорій (Серія > Модель > Підмодель > Тип запчастини > Вузол). У зв’язку з цим рубрикацію довелося парсити та групувати окремо.

Нюанс був ще й у тому, що для коректного імпорту необхідно було зібрати всі ланцюжки категорій в одному осередку таблиці. Але жоден із редакторів (excel, libreoffice, openoffice) не може зосередити в одному осередку більше 33 000 символів. Тому файли потрібно спочатку готувати потрібного виду в парсері за допомогою додаткового ПЗ.

Banner

Обмеження швидкості парсингу

Враховуючи великі масиви даних, ми обмежили швидкість роботи робота. В іншому випадку парсинг був би схожий на ddos-атаку на цільовий сайт, що призвело б до його непрацездатності, або блокування нашої активності. У підсумку збір інформації зайняв близько 10 днів.

Загальна вага вивантаження

Загальна вага вивантаження склала 1,78 ГБ. І це лише csv-файли з текстовим вмістом, крім зображень, обсяг яких становив понад 10Гб. Все це накладало додаткові складнощі, пов’язані з передачею та зберіганням даних.

Banner

Імпорт в інтернет-магазин CMS OpenCart

У більшості CMS імпорт здійснюється за допомогою спеціальних плагінів/модулів. OpenCart не є винятком: для імпорту каталогу в інтернет-магазин за результатами парсингу ми припускали використовувати рішення CSV Price Pro import:

Проблеми та рішення

Однак, враховуючи обсяг даних, і тут не обійшлося без складнощів. У процесі з’ясувалося, що клієнт не витримує навантаження. Імпорт затягнувся. Файли вантажилися годинами, доводилося постійно стежити за процесом, щоб не пропустити появу помилок.

Але і з цим завданням ми впоралися успішно, провівши низку заходів:

  • перенесли сайт клієнта на потужніший виділений сервер (VPS), який вдалося налаштувати для вирішення нашого завдання;
  • оптимізували структуру csv-файлів для профілактики перевантажень сервера при імпорті (помилок 503 та 504);
  • провели імпорт товарів в інтернет-магазин у кілька підходів: окремо характеристики та фото товарів, окремо – рубрикація.

Що вийшло?

  • 273 000

    товарів з фотографіями та характеристиками

  • 40 000

    унікальний категорій у рамках 5-рівневої структури

Приклад розділу

Приклад картки товару

Бажаєте обговорити проект?

Залишіть ваш номер телефону і наш менеджер зв'яжеться з вами найближчим часом