Наш сайт использует файлы cookie, чтобы улучшить работу сайта, повысить его эффективность и удобство
Настройки сookie
Файлы cookie, необходимые для правильной работы сайта, всегда разрешены.
Основные файлы cookie
Всегда Включено. Эти файлы cookie необходимы для использования веб-сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши запросы, такие как настройка параметров конфиденциальности, вход в систему или заполнение форм.
Аналитические файлы cookie
Disabled
Эти файлы cookie нужны чтобы помочь нам понять, на сколько вам удобен наш веб-сайт и насколько эффективны наши маркетологи:) Смотрите список аналитических файлов cookie, которые мы используем.
Рекламные файлы cookie
Disabled
Эти файлы cookie предоставляют информацию рекламным компаниям с целью предоставления или ограничения персонализированной рекламы. Эта информация может быть передана другим рекламным компаниям. Смотрите список рекламных файлов cookie, которые мы используем.
Выкладка товаров в магазине

Кейс DataDesc: как ИИ превращает технический каталог в инструмент для бизнеса

Большинство корпоративных каталогов данных остаются техническими реестрами: около 80% из них содержат только технические описания и не используются бизнесом как инструмент понимания данных.
Такая же ситуация сложилась и одного российского fashion-ритейлера. Каталог существовал, но выполнял роль формального хранилища метаданных и не помогал понимать структуру, логику и происхождение данных.

Проблема

Отсутствие понятных описаний приводило к большим трудозатратам, долгому поиску информации и ошибкам при работе аналитиков и разработчиков.
  • аналитики тратили 20−40% времени разработки отчёта на разбор ETL-кода
  • ручное описание объектов DWH занимало часы и часто не выполнялось из-за трудоемкости
  • поиск информации был долгим
  • знания о данных зависели от отдельных специалистов

Цель проекта

Создать систему знаний о корпоративных данных и наполнить каталог бизнес-описаниями.

Решение

Корпоративный каталог данных fashion-ритейлера был разработан внутренней командой на базе 1С. Каталог включает описания:
  • Серверов
  • Баз данных
  • Таблиц и представлений
  • ETL-процессов
  • Оркестраторов
  • Отчётов
Datadesc был внедрён как AI-слой поверх существующего каталога.
Система автоматически:
  • формирует бизнес-описания объектов DWH
  • описывает BI-дашборды
  • строит data lineage
  • объясняет SQL-логику понятным языком
  • обновляет описания по расписанию
На этой основе работает семантический поиск и ИИ-ассистент, позволяющий легко находить нужную информацию за минуты.

Сбор метаданных

Для масштабируемой работы в промышленной DWH-среде сбор метаданных реализован через обращение к системным таблицам СУБД. Для получения полной структуры источника (схемы, таблицы, представления, процедуры, функции, столбцы, параметры) используется всего 5 служебных SQL-запросов, что исключает нагрузку на продуктивные базы.
Метаданные загружаются во внутреннее хранилище на базе PostgreSQL, где поддерживается версионность объектов. При последующих обновлениях система анализирует изменения и повторно загружает только модифицированные объекты. Такой инкрементальный подход обеспечивает постоянную актуальность каталога и позволяет отслеживать эволюцию структуры данных во времени.

Автоматическое построение Data Lineage

Для устранения непрозрачности логики данных система автоматически строит data lineage на основе SQL-определений объектов.
Анализируется код представлений, процедур и функций, что позволяет восстановить движение данных между таблицами и на уровне отдельных столбцов.
Дополнительно поддерживается определение lineage через кеш запросов, что позволяет учитывать альтернативные механизмы загрузки данных (например, SSIS).
Lineage используется при генерации описаний, а также доступен пользователям для анализа влияния изменений, расследования инцидентов и понимания происхождения метрик.

Генерация описаний объектов

Система автоматически формирует человеко-читаемые описания таблиц, представлений, процедур и функций при помощи локально развёрнутых open-source LLM (через сервис Ollama).
Генерация выполняется в два этапа:
  • Описание формируется на основе SQL-скрипта объекта и его связей. Используется модель, обученная на коде (qwen2.5-coder:14b), что позволяет корректно интерпретировать SQL-логику, трансформации и структуру.
  • Для таблиц и представлений описание уточняется на основе реальных данных из источника. Используется модель mistral:7b, которая лучше выявляет сущности и смысловые связи в данных столбцов.
Такой двухэтапный подход позволяет учитывать как техническую логику, так и фактическое содержимое данных, повышая точность бизнес-описаний.

Работа с BI-сервисами

Решение интегрируется с BI-платформами через их внутренние API и собирает метаданные об отчётах, вкладках, визуализациях и метриках. Поддерживается отслеживание изменений отчётов во времени.
Дополнительно система автоматически получает изображения графиков и дашбордов. Генерация описаний BI-отчётов происходит поэтапно:
  • описываются отдельные визуализации
  • формируется описание вкладок
  • формируется описание отчёта целиком
Используется мультимодальная LLM (mistral-small3.1:24b), способная работать одновременно с текстом и изображениями.

ИИ-агент

Основной интерфейс работы пользователей — ИИ-ассистент, функционирующий по подходу RAG (Retrieval-Augmented Generation).
После генерации описаний система формирует семантические вектора (эмбеддинги) объектов при помощи модели qwen3-embedding:4b и сохраняет их во внутренней векторной базе с индексами для быстрого поиска.
ИИ-ассистент:
  • извлекает релевантный контекст из векторного хранилища
  • использует его для формирования ответа
  • сохраняет все взаимодействия пользователя с ассистентом, что позволяет сохранять контекст беседы и создавать цепочки связанных рассуждений.
В качестве модели генерации ответов используется open-source LLM gpt-oos:20b.
Такой подход обеспечивает доступ к актуальным данным, снижает риск галлюцинаций и позволяет пользователям находить объекты, связи и контекст в свободной форме.

Автоматизация при помощи Airflow

Работа системы автоматизирована при помощи Airflow, что позволяет минимизировать участие пользователя.
Пользователь задаёт только подключение к источнику и периодичность обновлений, после чего система самостоятельно поддерживает актуальность базы знаний без ручного вмешательства.

Результаты

Достигнуто:
  • рост доли объектов с актуальным бизнес-описанием
  • формирование единой и всегда актуальной базы знаний о данных
  • сокращение времени поиска информации о данных
  • наполнение каталога данных актуальными описаниями за несколько дней
Ожидается после полного внедрения ИИ-ассистента:
  • сокращение времени на документирование 1 объекта DWH с нескольких часов до 30 минут
  • повышение понимания данных бизнес-пользователями, сокращение числа обращений к аналитикам за объяснениями
  • сокращение времени поиска необходимой документации / причин ошибок (через графы связей объектов ХД) / ответственных сотрудников (разработчиков)
  • сокращение времени онбординга новых аналитиков

Почему это важно

Проект перевёл документирование и поиск информации из ручного процесса в автоматизированный. В результате повысилась прозрачность архитектуры данных, снизились риски ошибок и сократились издержки на сопровождение DWH и BI.