Настройки сookie

Файлы cookie, необходимые для правильной работы сайта, всегда разрешены.

Основные файлы cookie

Всегда Включено. Эти файлы cookie необходимы для использования веб-сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши запросы, такие как настройка параметров конфиденциальности, вход в систему или заполнение форм.

Аналитические файлы cookie

Disabled

Эти файлы cookie нужны чтобы помочь нам понять, на сколько вам удобен наш веб-сайт и насколько эффективны наши маркетологи:) Смотрите список аналитических файлов cookie, которые мы используем.

Рекламные файлы cookie

Disabled

Эти файлы cookie предоставляют информацию рекламным компаниям с целью предоставления или ограничения персонализированной рекламы. Эта информация может быть передана другим рекламным компаниям. Смотрите список рекламных файлов cookie, которые мы используем.

8 800 350 06 58 info@lasmart.ru

Как ускорить поиск данных в DWH: роль документации и ИИ-ассистентов

Проблема отсутствия документации

Современные организации сталкиваются с парадоксом: объемы накапливаемых данных стремительно растут, но их реальная бизнес-ценность снижается из-за критических сложностей с доступом и интерпретацией. В условиях, когда данных становится всё больше, найти нужную информацию вовремя оказывается практически невозможно. Исследования показывают, что до 66% корпоративных данных превращаются в так называемые «темные данные» (dark data) — они существуют в хранилищах, но остаются необнаруженными, недокументированными и не приносят никакой пользы.

Основная сложность заключается в том, что процесс поиска данных часто превращается в хаотичное детективное расследование. Вместо того чтобы использовать централизованные инструменты, аналитики вынуждены тратить рабочее время на бесконечные переписки в корпоративных мессенджерах, пытаясь выяснить у коллег, какая таблица легла в основу конкретного отчета и почему цифры в нем перестали обновляться.

Даже если метаданные уже собираются и централизованно хранятся (к примеру, в Data catalog-ах), возникает проблема их понимания. Условно, есть таблица DW₇_V3 и совершенно непонятно, что в ней находится. Без качественного контекста метаданные остаются «голыми» и бесполезными — Data Catalog превращается в кладбище пустых списков таблиц и столбцов, которым никто не доверяет и не пользуется.

Традиционные подходы к документированию данных в Excel или Confluence окончательно перестали работать из-за невозможности масштабирования. Когда счет идет на тысячи объектов, ручное описание становится невозможным.

Наконец, критическим фактором является отсутствие доверия к актуальности данных. Метаданные, обновляемые вручную или в пакетном режиме, быстро устаревают и перестают отражать реальное состояние конвейеров данных. Если пользователь не уверен в свежести и качестве найденной информации, он предпочитает игнорировать сложные системы и принимать решения на основе интуиции, что делает инвестиции в современную инфраструктуру данных бессмысленными.

Просто документации уже недостаточно

Ну вот есть у нас документация. Документация представляет собой описание баз данных, отчетов и BI-дашбордов в Conflunce. И, к сожалению, в текущий реалиях этого уже совсем недостаточно.

Проблема заключается в том, что даже идеально поддерживаемая документация в Confluence остается статичным артефактом, который неизбежно проигрывает в борьбе с динамичностью современного хранилища данных.

Вот основные причины, почему традиционной документации больше недостаточно:

Очень быстро становится неактуальной. Статическая документация не может ответить на критические вопросы о текущем состоянии данных: «Когда эта таблица обновлялась в последний раз?», «Являются ли эти данные качественными прямо сейчас?» или попросту описания неактуальны.
Нет lineage. Даже если в Confluence описан конкретный BI-дашборд, ручное отслеживание его связей с сотнями промежуточных таблиц и первичных источников превращается в ужас.
Разрыв между потребителем и производителем. То, как описывает таблицу инженер-разработчик (producer), часто кардинально отличается от того, как ее понимает бизнес-пользователь (consumer). Контекст в Confluence часто перекошен в сторону технической реализации, что совершенно непонятно аналитика, которым нужно найти метрики, такие как «выручка» или «прогноз доходов».
Ориентированность только на человека. Сейчас очень важно, чтобы метаданные были доступны не только людям через порталы, но и машинам через API. Статичные вики-страницы бесполезны для AI-агентов.

Каталогов данных тоже недостаточно

Многие компании видят в переходе от статичных вики-страниц Confluence к специализированным Data Catalog (решениям второго поколения, таким как Alation или OpenMetadata). Однако на практике даже наличие дорогостоящего каталога часто не решает проблему поиска и доверия к данным.

Почему же так происходит?

Проблема «голых» метаданных. Каталоги отлично справляются с автоматическим сбором технических метаданных (списков таблиц и столбцов), но они по-прежнему требуют ручного наполнения бизнес-контекстом. Если в организации насчитывается около 10 000 объектов, ручное описание становится невыполнимой задачей — эксперты просто не находят на это времени. Обычно просто выбирают самые критичные данные и работают с ними.
Быстрое устаревание. Даже если вы наполнили каталог, вам придется постоянно следить за его актуальностью. Данные что в системах-источниках, что в DWH видоизменяются постоянно, особенно если мы говорим про крупные компании с кучей данных и таблиц. За всем за этим весьма и весьма сложно уследить. Часто ответственные за наполнение сотрудники в какой-то момент просто перестают это делать.
Ориентированность только на человека. Традиционные каталоги создавались как порталы для поиска данных людьми, где API были лишь второстепенным дополнением. В современных архитектурах метаданные должны быть доступны машинам и AI-агентам в реальном времени для автоматизации процессов и проверок.

Без ИИ никуда

Все это время мы плавно подводили к тому, что на больших проектах, где много данных, не обойтись без искусственного интеллекта. Не обойтись, потому что не будете вы описывать десятки тысяч таблиц и держать их описание в актуальном состоянии.

Главное преимущество AI заключается в способности генерировать описания активов в промышленных масштабах. AI смотрит на метаданные, берет срез данных для примера и формирует описание этих данных. То есть, было у нас таблица DW₇_V3, а оказывается это «Остатки на складах».

Также AI радикально меняет пользовательский опыт, внедряя разговорный. Вместо топорного поиска по ключевым словам, пользователи могут задавать вопросы на естественном языке, например: «Где лежат данные по выручке?». Система способна понимать синонимы и контекст, даже если в базе данных используется термин «доход», а не «выручка».

Дополнительно AI может провести инвентаризацию всех ваших данных, отчетов и метрик, а потом составить «карту» показателей, чтобы вы легко ориентировались в своей отчетности. К примеру, нужно вам посмотреть выполнение плана продаж, но вы, как бизнес-пользователь, не ориентируетесь в огромном наборе BI-отчетов, которые у вас есть. Самый стандартный сценарий — пойти спросить у коллеги, в каком отчете лежат требуемая информация. А можно спросить искусственный интеллект. Или посмотреть в реестр показателей, который AI автоматически сформировал.

Еще частый сценарий: аналитику нужно создать отчетную витрину. Сейчас он идет в confluence или также к своим коллегам и ищет источники, на основе которых он будет строить витрину. Тратит на анализ источников от 20% времени всей задачи. Современный сценарий следующий: спрашиваем ИИ-ассистента касательно того, в каких таблицах лежат нужные данные, далее смотрим data lineage этих таблиц, чтобы определить на основе каких источников они считаются и формируем SQL-запрос, документация к которому формируется затем автоматически. Совсем технологичный сценарий, когда за аналитика все перечисленное делает AI: сам идет анализировать источники, сам на основе требований пишет SQL. Такое пока редко встречается.

В итоге становится очевидно: одного каталога уже недостаточно — он не успевает за масштабом и сложностью данных. Чтобы AI действительно работал, нужна не просто витрина метаданных, а векторная база, позволяющая искать по смыслу и превращающая DWH из набора таблиц в понятную и доступную систему.

Реальный кейс

У нас было несколько тысяч таблиц. Примерно столько же SQL-скриптов и пара сотен дашбордов. Внедренный, но не заполненный data catalog. Было ясно, что своими силами мы не справимся.

Мы пошли по пути автоматизации и начали с самого базового — бизнес-описаний. AI начал анализировать метаданные, структуру таблиц и реальные данные, чтобы формировать понятные человеку описания. Что это за данные, откуда они, как используются. На практике это позволило закрыть до 90−95% объектов без ручной работы.

Дальше пошли глубже, в SQL. Потому что в реальности ценность часто зашита именно в логике преобразований, а не в самих таблицах. AI начал разбирать SQL-скрипты, используя уже описанные таблицы как контекст, и превращать сотни строк кода в пошаговое бизнес-объяснение: что считается, из каких источников и по какой логике.

Следующий слой — BI. Появилось описание метрик, логики расчетов и связи с источниками. Дашборды анализировались не только на основе метаданных, но и на основе картинок (то есть, что изображено на графике).

Мы добавили AI-ассистента, который работает поверх всех этих описаний. Пользователь просто задает вопрос на естественном языке — «где данные по выручке» — и получает конкретные таблицы, поля и отчеты, даже если в системе используется другая терминология.

В итоге время на поиск данных сократилось с часов до минут, а сам каталог из «мертвого списка объектов» превратился в рабочий инструмент, которым реально пользуются.

Более подробно писали в нашей статье на Хабр.

А также записывайтесь на демонстрацию нашего решения Ласмарт.Автодокументация.

К списку статей