Наш сайт использует файлы cookie, чтобы улучшить работу сайта, повысить его эффективность и удобство
Настройки сookie
Файлы cookie, необходимые для правильной работы сайта, всегда разрешены.
Основные файлы cookie
Всегда Включено. Эти файлы cookie необходимы для использования веб-сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши запросы, такие как настройка параметров конфиденциальности, вход в систему или заполнение форм.
Аналитические файлы cookie
Disabled
Эти файлы cookie нужны чтобы помочь нам понять, на сколько вам удобен наш веб-сайт и насколько эффективны наши маркетологи:) Смотрите список аналитических файлов cookie, которые мы используем.
Рекламные файлы cookie
Disabled
Эти файлы cookie предоставляют информацию рекламным компаниям с целью предоставления или ограничения персонализированной рекламы. Эта информация может быть передана другим рекламным компаниям. Смотрите список рекламных файлов cookie, которые мы используем.
Выкладка товаров в магазине

Как ускорить поиск данных в DWH: роль документации и ИИ-ассистентов

Проблема отсутствия документации

Современные организации сталкиваются с парадоксом: объемы накапливаемых данных стремительно растут, но их реальная бизнес-ценность снижается из-за критических сложностей с доступом и интерпретацией. В условиях, когда данных становится всё больше, найти нужную информацию вовремя оказывается практически невозможно. Исследования показывают, что до 66% корпоративных данных превращаются в так называемые «темные данные» (dark data) — они существуют в хранилищах, но остаются необнаруженными, недокументированными и не приносят никакой пользы.
Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS
Основная сложность заключается в том, что процесс поиска данных часто превращается в хаотичное детективное расследование. Вместо того чтобы использовать централизованные инструменты, аналитики вынуждены тратить рабочее время на бесконечные переписки в корпоративных мессенджерах, пытаясь выяснить у коллег, какая таблица легла в основу конкретного отчета и почему цифры в нем перестали обновляться.
Даже если метаданные уже собираются и централизованно хранятся (к примеру, в Data catalog-ах), возникает проблема их понимания. Условно, есть таблица DW7_V3 и совершенно непонятно, что в ней находится. Без качественного контекста метаданные остаются «голыми» и бесполезными — Data Catalog превращается в кладбище пустых списков таблиц и столбцов, которым никто не доверяет и не пользуется.
Традиционные подходы к документированию данных в Excel или Confluence окончательно перестали работать из-за невозможности масштабирования. Когда счет идет на тысячи объектов, ручное описание становится невозможным.
Наконец, критическим фактором является отсутствие доверия к актуальности данных. Метаданные, обновляемые вручную или в пакетном режиме, быстро устаревают и перестают отражать реальное состояние конвейеров данных. Если пользователь не уверен в свежести и качестве найденной информации, он предпочитает игнорировать сложные системы и принимать решения на основе интуиции, что делает инвестиции в современную инфраструктуру данных бессмысленными.

Просто документации уже недостаточно

Ну вот есть у нас документация. Документация представляет собой описание баз данных, отчетов и BI-дашбордов в Conflunce. И, к сожалению, в текущий реалиях этого уже совсем недостаточно.
Проблема заключается в том, что даже идеально поддерживаемая документация в Confluence остается статичным артефактом, который неизбежно проигрывает в борьбе с динамичностью современного хранилища данных.
Вот основные причины, почему традиционной документации больше недостаточно:
  • Очень быстро становится неактуальной. Статическая документация не может ответить на критические вопросы о текущем состоянии данных: «Когда эта таблица обновлялась в последний раз?», «Являются ли эти данные качественными прямо сейчас?» или попросту описания неактуальны.
  • Нет lineage. Даже если в Confluence описан конкретный BI-дашборд, ручное отслеживание его связей с сотнями промежуточных таблиц и первичных источников превращается в ужас.
  • Разрыв между потребителем и производителем. То, как описывает таблицу инженер-разработчик (producer), часто кардинально отличается от того, как ее понимает бизнес-пользователь (consumer). Контекст в Confluence часто перекошен в сторону технической реализации, что совершенно непонятно аналитика, которым нужно найти метрики, такие как «выручка» или «прогноз доходов».
  • Ориентированность только на человека. Сейчас очень важно, чтобы метаданные были доступны не только людям через порталы, но и машинам через API. Статичные вики-страницы бесполезны для AI-агентов.

Каталогов данных тоже недостаточно

Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS
Многие компании видят в переходе от статичных вики-страниц Confluence к специализированным Data Catalog (решениям второго поколения, таким как Alation или OpenMetadata). Однако на практике даже наличие дорогостоящего каталога часто не решает проблему поиска и доверия к данным.
Почему же так происходит?
  • Проблема «голых» метаданных. Каталоги отлично справляются с автоматическим сбором технических метаданных (списков таблиц и столбцов), но они по-прежнему требуют ручного наполнения бизнес-контекстом. Если в организации насчитывается около 10 000 объектов, ручное описание становится невыполнимой задачей — эксперты просто не находят на это времени. Обычно просто выбирают самые критичные данные и работают с ними.
  • Быстрое устаревание. Даже если вы наполнили каталог, вам придется постоянно следить за его актуальностью. Данные что в системах-источниках, что в DWH видоизменяются постоянно, особенно если мы говорим про крупные компании с кучей данных и таблиц. За всем за этим весьма и весьма сложно уследить. Часто ответственные за наполнение сотрудники в какой-то момент просто перестают это делать.
  • Ориентированность только на человека. Традиционные каталоги создавались как порталы для поиска данных людьми, где API были лишь второстепенным дополнением. В современных архитектурах метаданные должны быть доступны машинам и AI-агентам в реальном времени для автоматизации процессов и проверок.

Без ИИ никуда

Все это время мы плавно подводили к тому, что на больших проектах, где много данных, не обойтись без искусственного интеллекта. Не обойтись, потому что не будете вы описывать десятки тысяч таблиц и держать их описание в актуальном состоянии.
Главное преимущество AI заключается в способности генерировать описания активов в промышленных масштабах. AI смотрит на метаданные, берет срез данных для примера и формирует описание этих данных. То есть, было у нас таблица DW7_V3, а оказывается это «Остатки на складах».
Также AI радикально меняет пользовательский опыт, внедряя разговорный. Вместо топорного поиска по ключевым словам, пользователи могут задавать вопросы на естественном языке, например: «Где лежат данные по выручке?». Система способна понимать синонимы и контекст, даже если в базе данных используется термин «доход», а не «выручка».
Дополнительно AI может провести инвентаризацию всех ваших данных, отчетов и метрик, а потом составить «карту» показателей, чтобы вы легко ориентировались в своей отчетности. К примеру, нужно вам посмотреть выполнение плана продаж, но вы, как бизнес-пользователь, не ориентируетесь в огромном наборе BI-отчетов, которые у вас есть. Самый стандартный сценарий — пойти спросить у коллеги, в каком отчете лежат требуемая информация. А можно спросить искусственный интеллект. Или посмотреть в реестр показателей, который AI автоматически сформировал.
Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS
Еще частый сценарий: аналитику нужно создать отчетную витрину. Сейчас он идет в confluence или также к своим коллегам и ищет источники, на основе которых он будет строить витрину. Тратит на анализ источников от 20% времени всей задачи. Современный сценарий следующий: спрашиваем ИИ-ассистента касательно того, в каких таблицах лежат нужные данные, далее смотрим data lineage этих таблиц, чтобы определить на основе каких источников они считаются и формируем SQL-запрос, документация к которому формируется затем автоматически. Совсем технологичный сценарий, когда за аналитика все перечисленное делает AI: сам идет анализировать источники, сам на основе требований пишет SQL. Такое пока редко встречается.
Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS
В итоге становится очевидно: одного каталога уже недостаточно — он не успевает за масштабом и сложностью данных. Чтобы AI действительно работал, нужна не просто витрина метаданных, а векторная база, позволяющая искать по смыслу и превращающая DWH из набора таблиц в понятную и доступную систему.
Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS

Реальный кейс

У нас было несколько тысяч таблиц. Примерно столько же SQL-скриптов и пара сотен дашбордов. Внедренный, но не заполненный data catalog. Было ясно, что своими силами мы не справимся.
Мы пошли по пути автоматизации и начали с самого базового — бизнес-описаний. AI начал анализировать метаданные, структуру таблиц и реальные данные, чтобы формировать понятные человеку описания. Что это за данные, откуда они, как используются. На практике это позволило закрыть до 90−95% объектов без ручной работы.
Дальше пошли глубже, в SQL. Потому что в реальности ценность часто зашита именно в логике преобразований, а не в самих таблицах. AI начал разбирать SQL-скрипты, используя уже описанные таблицы как контекст, и превращать сотни строк кода в пошаговое бизнес-объяснение: что считается, из каких источников и по какой логике.
Следующий слой — BI. Появилось описание метрик, логики расчетов и связи с источниками. Дашборды анализировались не только на основе метаданных, но и на основе картинок (то есть, что изображено на графике).
Система унификации процесса планирования и прогнозирования посредством куба обратной записи SSAS
Мы добавили AI-ассистента, который работает поверх всех этих описаний. Пользователь просто задает вопрос на естественном языке — «где данные по выручке» — и получает конкретные таблицы, поля и отчеты, даже если в системе используется другая терминология.
В итоге время на поиск данных сократилось с часов до минут, а сам каталог из «мертвого списка объектов» превратился в рабочий инструмент, которым реально пользуются.
Более подробно писали в нашей статье на Хабр.
А также записывайтесь на демонстрацию нашего решения Ласмарт.Автодокументация.