Как мы готовили корпоративные данные к внедрению ИИ-агента: почему LLM недостаточно просто подключить к DWH
В последние месяцы к нам всё чаще приходят с похожим запросом: «Хотим внедрить ИИ-агента поверх корпоративных данных». Обычно у компании уже есть DWH, BI-отчёты, витрины, регламентная аналитика и накопленная экспертиза. На первый взгляд кажется, что осталось только подключить LLM, дать ей доступ к данным и сделать удобный интерфейс для вопросов на естественном языке.
Но на практике быстро выясняется: наличие хранилища ещё не означает, что данные готовы к использованию ИИ.
Человек-аналитик умеет достраивать контекст: знает, какую витрину брать, какие фильтры применить, что означает «продажи» в конкретном отчёте, где данные устарели, а где показатель считается «по договорённости». ИИ-агент этого не знает. Если этот контекст не описан явно, он либо ошибается, либо требует постоянной ручной поддержки.
Проблема, с которой столкнулись
Когда мы начали прорабатывать сценарии ИИ-агентов для аналитики и, в частности, для SpacePlanner, стало видно, что главный барьер не в модели и не в интерфейсе.
В SpacePlanner ИИ-агент должен помогать пользователю анализировать планограммы: находить слабые места в выкладке, сравнивать варианты, объяснять, какие товары стоит усилить или убрать, и давать рекомендации на основе данных о продажах, остатках, габаритах и размещении.
То есть пользователь хочет задать вопрос примерно так:
“Почему эта планограмма работает хуже предыдущей?” “Какие товары занимают много места, но дают слабую отдачу?” “Что можно изменить в выкладке, чтобы повысить эффективность полки?”
Для человека это понятные вопросы. Для ИИ-агента они становятся сложными, если данные не подготовлены.
Ему нужно понимать не только таблицы, но и бизнес-контекст: что такое эффективность выкладки, какие показатели сравнивать, за какой период брать продажи, как учитывать остатки, какие товары сопоставимы, какие ограничения есть у конкретной планограммы.
Цена ошибки: без подготовки данных нет бизнес-эффекта
Без подготовки данных ИИ-сценарий быстро превращается в ручной процесс:
Аналитик заранее готовит выгрузку.
Кто-то объясняет модели, что означают поля.
Ответ проверяется вручную.
Для следующего вопроса всё повторяется заново.
Формально ИИ есть, но бизнес-эффект ограничен. Пользователь всё равно зависит от аналитика, а команда разработки поддерживает не масштабируемый продукт, а набор индивидуальных сценариев.
В худшем случае ИИ начинает давать уверенные, но непроверяемые ответы. Например, сравнивает показатели из разных периодов, не учитывает исключения, путает версии планограмм или использует метрику не в том смысле, в каком её понимает бизнес.
Почему так происходит
Классический DWH обычно проектировался для BI-отчётов и аналитиков. В нём могут быть корректные данные, но не всегда есть слой, который объясняет машине:
какие бизнес-вопросы можно задавать к этому набору данных;
какие метрики использовать;
какие фильтры обязательны;
какие ограничения есть у расчёта;
откуда взялась цифра;
насколько свежие данные;
кто отвечает за корректность;
что ИИ не должен интерпретировать самостоятельно.
Для человека часть этого контекста очевидна. Для ИИ — нет.
Как мы делаем данные понятными и безопасными
Мы пришли к подходу AI-Ready Data Products. Это не «ещё одна витрина» и не просто документация. Это аналитический дата-продукт, который содержит достаточно контекста, чтобы ИИ-агент мог работать с ним безопасно и проверяемо.
В случае SpacePlanner это означало, что вокруг данных планограмм нужно описать:
ключевые сущности: планограмма, товар, полка, категория, версия выкладки;
метрики: продажи, остатки, занимаемое место, эффективность размещения;
допустимые вопросы: анализ текущей выкладки, сравнение версий, поиск точек роста;
ограничения: где ИИ может рекомендовать, а где только подсвечивать риск;
источники и свежесть данных;
правила объяснения ответа пользователю.
Пример работы ИИ-агента внутри интерфейса Планировщика пространства SpacePlanner
В SpacePlanner ИИ-агент не должен просто «сгенерировать совет». Его задача — помочь пользователю принять решение в контексте конкретной планограммы.
Например, раньше для анализа выкладки нужно было открыть отчёты, сопоставить продажи, остатки, место на полке и вручную сделать вывод. Теперь пользователь может задать вопрос внутри интерфейса планограммы и получить не только цифры, но и интерпретацию: какие позиции выглядят слабо, где есть потенциал роста, какие изменения стоит рассмотреть.
Ключевой момент: такой сценарий работает только потому, что ИИ получает не сырые данные, а подготовленный контекст. Он понимает, с какой планограммой работает, какие показатели применимы, какие ограничения есть у анализа и как объяснить рекомендацию пользователю.
Это хорошо видно в описании продукта: ИИ-агент внутри SpacePlanner помогает анализировать выкладку, сравнивать планограммы и находить точки роста без ручного разбора отчётов.
Итог: масштабируемый продукт с проверяемыми ответами
После такой подготовки ИИ-сценарий становится ближе к продуктовой функции, а не к разовому эксперименту.
Пользователь получает ответы в рабочем интерфейсе, не переключаясь между отчётами и таблицами. Аналитик меньше участвует в ручной подготовке данных. Команда разработки получает повторяемый подход: если появляется новый сценарий, его можно строить поверх уже описанных дата-продуктов, а не начинать с нуля.
Главный результат не в том, что «ИИ начал отвечать». Главный результат в том, что ответы стали проверяемыми: их можно связать с метриками, источниками, периодом, ограничениями и бизнес-логикой.
Чек-лист: готовы ли ваши данные к работе с ИИ
Если компания хочет внедрять ИИ-агентов поверх корпоративных данных, сначала стоит проверить не модель, а готовность данных.
Проверьте свой текущий статус по следующим пунктам:
Есть ли единые определения ключевых метрик?
Понятно ли, кто владелец каждой метрики?
Можно ли проследить путь данных от источника до ответа?
Есть ли контроль свежести и качества данных?
Описаны ли бизнес-термины в машинно-читаемом виде?
Понятно ли, какие вопросы можно задавать к конкретному дата-продукту?
Есть ли ограничения доступа для ИИ-агента?
Можно ли объяснить каждый ответ: источник, формула, период, фильтры?
Есть ли набор тестовых вопросов для проверки ИИ-ответов?
Можно ли масштабировать сценарий без ручной подготовки данных каждый раз?