Настройки сookie

Файлы cookie, необходимые для правильной работы сайта, всегда разрешены.

Основные файлы cookie

Всегда Включено. Эти файлы cookie необходимы для использования веб-сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши запросы, такие как настройка параметров конфиденциальности, вход в систему или заполнение форм.

Аналитические файлы cookie

Disabled

Эти файлы cookie нужны чтобы помочь нам понять, на сколько вам удобен наш веб-сайт и насколько эффективны наши маркетологи:) Смотрите список аналитических файлов cookie, которые мы используем.

Рекламные файлы cookie

Disabled

Эти файлы cookie предоставляют информацию рекламным компаниям с целью предоставления или ограничения персонализированной рекламы. Эта информация может быть передана другим рекламным компаниям. Смотрите список рекламных файлов cookie, которые мы используем.

8 800 350 06 58 info@lasmart.ru

Кейс Ласмарт.Автодокументация: как ИИ превращает технический каталог в инструмент для бизнеса

Большинство корпоративных каталогов данных остаются техническими реестрами: около 80% из них содержат только технические описания и не используются бизнесом как инструмент понимания данных.

Такая же ситуация сложилась и одного российского fashion-ритейлера. Каталог существовал, но выполнял роль формального хранилища метаданных и не помогал понимать структуру, логику и происхождение данных.

Проблема

Отсутствие понятных описаний приводило к большим трудозатратам, долгому поиску информации и ошибкам при работе аналитиков и разработчиков.

аналитики тратили 20−40% времени разработки отчёта на разбор ETL-кода
ручное описание объектов DWH занимало часы и часто не выполнялось из-за трудоемкости
поиск информации был долгим
знания о данных зависели от отдельных специалистов

Цель проекта

Создать систему знаний о корпоративных данных и наполнить каталог бизнес-описаниями.

Решение

Корпоративный каталог данных fashion-ритейлера был разработан внутренней командой на базе 1С. Каталог включает описания:

Серверов
Баз данных
Таблиц и представлений
ETL-процессов
Оркестраторов
Отчётов

Datadesc был внедрён как AI-слой поверх существующего каталога.

Система автоматически:

формирует бизнес-описания объектов DWH
описывает BI-дашборды
строит data lineage
объясняет SQL-логику понятным языком
обновляет описания по расписанию

На этой основе работает семантический поиск и ИИ-ассистент, позволяющий легко находить нужную информацию за минуты.

Сбор метаданных

Для масштабируемой работы в промышленной DWH-среде сбор метаданных реализован через обращение к системным таблицам СУБД. Для получения полной структуры источника (схемы, таблицы, представления, процедуры, функции, столбцы, параметры) используется всего 5 служебных SQL-запросов, что исключает нагрузку на продуктивные базы.

Метаданные загружаются во внутреннее хранилище на базе PostgreSQL, где поддерживается версионность объектов. При последующих обновлениях система анализирует изменения и повторно загружает только модифицированные объекты. Такой инкрементальный подход обеспечивает постоянную актуальность каталога и позволяет отслеживать эволюцию структуры данных во времени.

Автоматическое построение Data Lineage

Для устранения непрозрачности логики данных система автоматически строит data lineage на основе SQL-определений объектов.

Анализируется код представлений, процедур и функций, что позволяет восстановить движение данных между таблицами и на уровне отдельных столбцов.

Дополнительно поддерживается определение lineage через кеш запросов, что позволяет учитывать альтернативные механизмы загрузки данных (например, SSIS).

Lineage используется при генерации описаний, а также доступен пользователям для анализа влияния изменений, расследования инцидентов и понимания происхождения метрик.

Генерация описаний объектов

Система автоматически формирует человеко-читаемые описания таблиц, представлений, процедур и функций при помощи локально развёрнутых open-source LLM (через сервис Ollama).

Генерация выполняется в два этапа:

Описание формируется на основе SQL-скрипта объекта и его связей. Используется модель, обученная на коде (qwen2.5-coder:14b), что позволяет корректно интерпретировать SQL-логику, трансформации и структуру.
Для таблиц и представлений описание уточняется на основе реальных данных из источника. Используется модель mistral:7b, которая лучше выявляет сущности и смысловые связи в данных столбцов.

Такой двухэтапный подход позволяет учитывать как техническую логику, так и фактическое содержимое данных, повышая точность бизнес-описаний.

Работа с BI-сервисами

Решение интегрируется с BI-платформами через их внутренние API и собирает метаданные об отчётах, вкладках, визуализациях и метриках. Поддерживается отслеживание изменений отчётов во времени.

Дополнительно система автоматически получает изображения графиков и дашбордов. Генерация описаний BI-отчётов происходит поэтапно:

описываются отдельные визуализации
формируется описание вкладок
формируется описание отчёта целиком

Используется мультимодальная LLM (mistral-small3.1:24b), способная работать одновременно с текстом и изображениями.

ИИ-агент

Основной интерфейс работы пользователей — ИИ-ассистент, функционирующий по подходу RAG (Retrieval-Augmented Generation).

После генерации описаний система формирует семантические вектора (эмбеддинги) объектов при помощи модели qwen3-embedding:4b и сохраняет их во внутренней векторной базе с индексами для быстрого поиска.

ИИ-ассистент:

извлекает релевантный контекст из векторного хранилища
использует его для формирования ответа
сохраняет все взаимодействия пользователя с ассистентом, что позволяет сохранять контекст беседы и создавать цепочки связанных рассуждений.

В качестве модели генерации ответов используется open-source LLM gpt-oos:20b.

Такой подход обеспечивает доступ к актуальным данным, снижает риск галлюцинаций и позволяет пользователям находить объекты, связи и контекст в свободной форме.

Автоматизация при помощи Airflow

Работа системы автоматизирована при помощи Airflow, что позволяет минимизировать участие пользователя.

Пользователь задаёт только подключение к источнику и периодичность обновлений, после чего система самостоятельно поддерживает актуальность базы знаний без ручного вмешательства.

Результаты

Достигнуто:

рост доли объектов с актуальным бизнес-описанием
формирование единой и всегда актуальной базы знаний о данных
сокращение времени поиска информации о данных
наполнение каталога данных актуальными описаниями за несколько дней

Ожидается после полного внедрения ИИ-ассистента:

сокращение времени на документирование 1 объекта DWH с нескольких часов до 30 минут
повышение понимания данных бизнес-пользователями, сокращение числа обращений к аналитикам за объяснениями
сокращение времени поиска необходимой документации / причин ошибок (через графы связей объектов ХД) / ответственных сотрудников (разработчиков)
сокращение времени онбординга новых аналитиков

Почему это важно

Проект перевёл документирование и поиск информации из ручного процесса в автоматизированный. В результате повысилась прозрачность архитектуры данных, снизились риски ошибок и сократились издержки на сопровождение DWH и BI.

К списку статей