АВТОР
Даниил Акерман
ДАТА ПУБЛИКАЦИИ
7 декабря 2025 г.
КАТЕГОРИЯ
BUSINESS
ВРЕМЯ ЧТЕНИЯ
8 минут


Даниил Акерман
CEO & Founder
CEO и основатель МАЙПЛ. Эксперт в области AI/ML, веб-разработки и CRM-систем с 5+ летним опытом. Руководит командой из 10+ специалистов. Реализовал более 80 IT-проектов для бизнеса. Специализируется на внедрении нейросетей и автоматизации бизнес-процессов.
t.me/myplnews
Наша команда готова взяться за ваш проект. Оставьте заявку — мы свяжемся с вами и обсудим детали.
ML и нейросети
Кастомные ML-модели: предиктивная аналитика, компьютерное зрение, NLP.
Автоматизация процессов
AI-автоматизация рутинных бизнес-процессов: документы, коммуникации, отчёты.
AI-аналитика и BI
Визуализация данных и AI-аналитика для принятия решений.
Все статьи по теме «Автоматизация бизнеса»
Автоматизация процессов: RPA, workflow, low-code, интеграции ERP/CRM.
Телеграмм
Делимся визуально привлекательными фрагментами наших последних веб-проектов.
ВКонтакте
Пишем о интересных технических решениях и вызовах в разработке.
MAX
Демонстрируем дизайнерские элементы наших веб-проектов.
TenChat
Деловые связи, кейсы и экспертные публикации.
Рассылка
© 2025-2026 МАЙПЛ. Все права защищены.
Возьмём пример: огромную Excel-таблицу на сотни тысяч строк. В ней — данные о продажах вашего интернет-магазина за последние три года: даты, артикулы, цены, количество, регионы, данные о клиентах. Это не просто таблица. Это цифровой слепок вашего бизнеса, настоящий клад. Но как его найти?
Вы, как опытный руководитель, можете отфильтровать данные, построить сводные таблицы, увидеть сезонные пики и самые продаваемые товары. Но что, если я скажу, что в этих же данных скрыты ответы на вопросы, которые вы даже не догадались задать?
Человеческий мозг не способен уловить такие сложные, многомерные связи. Мы мыслим в двух-трех измерениях, в то время как искусственный интеллект, работающий с табличными данными, может оперировать сотнями измерений одновременно. Он видит скрытые паттерны, нелинейные зависимости и аномалии, которые для человека выглядят как «белый шум».
Анализ табличных данных — это, пожалуй, самый распространенный и один из самых эффективных сценариев применения машинного обучения в бизнесе. Это не футуристичная видеоаналитика или сложные языковые модели. Это технология, которая работает с тем, что у вас уже есть — с вашими данными в ERP, CRM, 1С или даже в обычных Excel-файлах, — и превращает их в конкретную, измеримую прибыль.
В этой статье мы подробно разберем, как ИИ «читает» таблицы, какие задачи он решает и как вы можете использовать эту технологию для предсказания будущего и защиты своего бизнеса от потерь.
Для ИИ таблица — это не просто строки и столбцы. Это математический объект, набор векторов в многомерном пространстве. Задача машины — найти в этом пространстве поверхность, которая наилучшим образом описывает зависимость между признаками (входными данными, X) и целевой переменной (тем, что мы хотим предсказать, Y).
Если в мире обработки изображений правят сверточные нейросети (CNN), а в мире текстов — трансформеры (GPT), то в мире табличных данных безраздельно властвует градиентный бустинг. Такие библиотеки, как CatBoost (от Яндекса), XGBoost и LightGBM, — это рабочие лошадки 90% всех успешных проектов по анализу таблиц.
Как это работает (простыми словами)?
Представьте, что вы собираете команду экспертов для предсказания погоды.
Первый эксперт (очень слабый): Вы нанимаете самого простого «эксперта» — решающее дерево. Он может ответить только на один примитивный вопрос, например: «Температура сегодня выше 20 градусов?». Если да, он предсказывает «солнечно», если нет — «пасмурно». Очевидно, его прогнозы очень неточны.
Работа над ошибками: Вы анализируете, где первый эксперт ошибся больше всего. Например, он предсказал «солнечно» в дни, когда было +25, но шел дождь.
Второй эксперт (учится на ошибках первого): Вы нанимаете второго эксперта и даете ему задачу — исправить ошибки первого. Он фокусируется только на тех случаях, где первый прогноз был неверным. Его вопрос может быть таким: «А влажность выше 80%?».
Сборка ансамбля: Вы продолжаете этот процесс сотни или тысячи раз. Каждый следующий «эксперт» (дерево) учится на ошибках предыдущей композиции всех экспертов. Он не пытается решить всю задачу целиком, а лишь делает маленький шажок в правильном направлении, исправляя самые грубые ошибки ансамбля.
Итоговый прогноз: Финальный прогноз — это взвешенная сумма мнений всех экспертов в вашей команде.
Градиентный бустинг потому так и называется, что каждое новое дерево «движется» в направлении антиградиента функции потерь, то есть в сторону наискорейшего уменьшения общей ошибки ансамбля. Это мощный и элегантный подход.
CatBoost, например, умеет работать с категориальными признаками напрямую, без необходимости их кодировать вручную.Избыточные запасы на складе — это замороженные деньги, а дефицит — упущенная прибыль и недовольные клиенты. Классические методы прогнозирования (например, на основе скользящего среднего) хорошо работают в стабильных условиях, но пасуют перед резкими изменениями рынка, акциями конкурентов или влиянием погоды. ИИ-прогнозирование лишено этих недостатков.
Мы не можем просто взять столбец «продажи» и «предсказать» его. Модели нужны предикторы — факторы, которые влияют на спрос.
Исходная таблица (из ERP-системы):
| date | store_id | sku_id | sales_count | price |
|---|---|---|---|---|
| 2025-11-28 | 101 | 55432 | 15 | 120.50 |
| ... | ... | ... | ... | ... |
Таблица после обогащения (Feature Engineering):
| date | store_id | sku_id | ... | day_of_week | is_holiday | promo_type | competitor_price | weather_temp | sales_lag_7d | sales_count (Y) |
|---|---|---|---|---|---|---|---|---|---|---|
| ... | ... | ... | ... | 5 (Пятница) | 0 | 'скидка 30%' | 118.00 | +5°C | 25 | 15 |
Что мы добавили? Этот этап — самый творческий и важный.
sales_lag_7d — это продажи этого же товара в этом же магазине ровно 7 дней назад. Это позволяет модели уловить недельную сезонность.Собранный датасет (например, за 3 года) делится на обучающую и тестовую выборки.
На обучающей выборке модель CatBoost «учится» находить зависимости.
На тестовой (например, последний квартал, который модель не видела) — проверяется ее точность (метрика WAPE/MAPE).
Обученная модель встраивается в IT-ландшафт компании.
(store_id, sku_id, date, predicted_sales).Экономический эффект:
Аномалия — это выброс, событие, которое резко отличается от нормы. Человек хорошо замечает простые аномалии (например, покупка на 1 000 000 рублей при среднем чеке 500 рублей), но ИИ способен находить сложные, контекстуальные аномалии. Например, покупка на 3000 рублей — это норма для премиального клиента вечером в пятницу, но это жесткая аномалия для студента, который обычно покупает только кофе по утрам в понедельник.
Один из самых эффективных алгоритмов для поиска аномалий — Isolation Forest («Изолирующий лес»).
Принцип действия (на пальцах):
Представьте, что все ваши транзакции — это люди в комнате.
Обычные транзакции стоят плотными группами (кластерами).
Аномалии (мошенники) — стоят поодиночке, в стороне от всех.
Ваша задача — «изолировать» каждого человека, построив вокруг него стены.
Алгоритм делает то же самое с данными.
Он строит множество случайных «решающих деревьев».
Аномальные точки «отсекаются» от основного массива данных гораздо быстрее (им требуется меньше разбиений), чем нормальные.
Посчитав среднее количество разбиений, необходимое для изоляции каждой точки, можно получить ее «аномальность».
Результат:
Идея сама по себе не работает. Для ее реализации нужна команда и выстроенный процесс.
На старте проекта роли аналитика и Data Scientist'а может совмещать один человек. Но Data Engineer и ML Engineer — это критически важные и отдельные компетенции.
Большинство компаний сидит на «нефтяной скважине», даже не подозревая об этом. Ваши таблицы с данными о продажах, клиентах, производственных процессах — это топливо для принятия решений, основанных не на интуиции, а на математике.
Искусственный интеллект для табличных данных — это не магия. Это мощный инструмент, который позволяет извлечь из этого топлива максимальную пользу:
В отличие от многих других ИИ-технологий, проекты по анализу табличных данных имеют один из самых быстрых и измеримых ROI. Начать можно с малого: выбрать одну конкретную боль (например, списания на складе), собрать исторические данные за 1-2 года и провести пилотный проект. Результаты, скорее всего, удивят вас и навсегда изменят ваш подход к управлению бизнесом.