Данные, готовые к использованию ИИ: почему ИИ начинается не с модели

контур работы с большими языковыми моделями без качества данных превращается в ускоритель ошибок. Перед выбором модели руководителю нужно определить источники истины, владельцев данных, права доступа, версионность, корпуса проверенных источников для ответов модели и правила обработки чувствительной информации.

В большинстве проектов ИИ управленцы начинают с модели, поставщика или интерфейса. Но в промышленной эксплуатации результат определяется не тем, насколько эффектно модель отвечает на демонстрации, а тем, на какие данные она опирается. Если документы устарели, справочники расходятся, владелец данных не назначен, права доступа не описаны, а Excel-сводки противоречат официальной системе, большая языковая модель не исправит проблему. Она сделает ее быстрее, масштабнее и убедительнее на вид.

Данные, готовые к использованию ИИ — это не «идеальные данные». Это данные, у которых есть владелец, источник истины, класс чувствительности, правила доступа, качество, версионность, трассируемость и понятный контур обработки. Для сценариев поиска по проверенным источникам перед ответом модели это означает еще и управляемый корпус знаний: какие документы включены, кто их утвердил, как они обновляются, как пользователь видит источник ответа и что происходит с устаревшими версиями.

Краткие выводы для ЛПР

ИИ начинается не с модели, а с источников истины. Если организация не знает, где находится актуальный регламент, справочник, договор, карточка объекта или запись клиента, модель на базе больших языковых моделей будет строить ответ на слабом основании.
У каждого ключевого набора данных должен быть владелец. Владелец отвечает не за хранение файла, а за смысл, качество, актуальность, права доступа и допустимость использования в сценария применения ИИх.
Поиск по проверенным источникам перед ответом модели не равен поиску по всем документам. поиск по проверенным источникам перед ответом модели должен работать только по утвержденным источникам, с версионностью, правами доступа и ссылками на документы.
Классификация данных нужна до пилота. Открытые, внутренние, персональные, коммерческие, служебные, ГИС/КИИ и отраслевые данные требуют разных контуров и процедур проверки.
Excel и старый ИТ-контур — важные источники фактических данных. Но перед автоматизацией их нужно нормализовать, связать со справочниками и проверить с владельцами процесса.
Качество данных должно измеряться. Полнота, актуальность, дубли, расхождения, дата последней проверки, наличие владельца и доля данных с источником истины — управленческие метрики, а не технические детали.

1. Что означает готовые к использованию ИИ для руководителя

Данные, готовые к использованию ИИ — это данные, которые можно безопасно и проверяемо использовать в сценария применения ИИх. Управленчески это означает семь признаков: источник истины, владелец, классификация, права доступа, качество, версионность и трассируемость.

Источник истины отвечает на вопрос: где находится актуальная запись. Владелец отвечает за смысл и изменения. Классификация определяет допустимый контур обработки. Права доступа не дают модели стать способом обхода управление доступом. Качество показывает, насколько данные пригодны для решения. Версионность позволяет понять, какой документ действовал в момент ответа. Трассируемость показывает, откуда взят результат.

Модель не исправляет данные. Она масштабирует их качество — хорошее или плохое.

2. Матрица готовности данных

Уровни готовности данных к сценария применения ИИм
Уровень	Состояние данных	Что допустимо	Что нужно сделать
0. Хаос	Файлы, выгрузки, дубли, нет владельца, версии неясны.	Только инвентаризация и анализ риска.	Найти владельца, процесс, критичность, источник.
1. Описаны	Понятны источники, пользователи, назначение и периодичность.	Черновой анализ, выявление структуры, прототипирование.	Классифицировать данные, зафиксировать права и качество.
2. Классифицированы	Определены классы данных, чувствительность, ограничения.	Пилоты в допустимом контуре.	Назначить владельцев, очистить дубли, описать обновление.
3. Управляются	Есть владелец, правила изменения, контроль качества, журнал.	Производственные поиск по проверенным источникам перед ответом модели- и сценарии применения больших языковых моделей с проверкой.	Настроить мониторинг качества и приемку ответов ИИ.
4. Масштабируются	Данные включены в платформу, доступны через программные интерфейсы, версионируются.	Масштабирование на подразделения и отраслевые контуры.	Регулярный пересмотр, аудит, развитие моделей доступа.

3. корпус проверенных источников для ответов модели как управленческий актив

Поиск по проверенным источникам перед ответом модели — это не техническая надстройка, а управляемый корпус знаний. Для руководителя важны пять вопросов: какие документы включены; кто их утвердил; какие версии действуют; какие пользователи имеют доступ; как система показывает источник ответа.

Корпус проверенных источников для ответов модели должен быть отделен от файлового хаоса. В него нельзя автоматически загружать все документы из СЭД, сетевого диска или архива. Сначала нужна редакционная и регламентная чистка: убрать устаревшие версии, отметить действующие документы, назначить владельцев, определить даты пересмотра, связать документы с процессами и ролями.

4. Что делать руководителю

Утвердить перечень 20–50 критичных наборов данных: клиенты, объекты, услуги, договоры, активы, заявки, обращения, документы, справочники.
Назначить владельцев данных и владельцев процесса для каждого набора.
Разделить данные по классам чувствительности и допустимым контурам обработки.
Выбрать 3–5 корпусов проверенных источников для ответов модели для первого этапа: регламенты, база знаний, инструкции, договорные шаблоны, проектная документация.
Ввести метрики качества: дубли, полнота, актуальность, расхождения, дата проверки, доля данных с владельцем.
Запретить промышленный сценарий применения ИИ без источника истины, владельца и критериев приемки.