Kiberry C. Подсистема получения данных из внешних источников

Kiberry C

Подсистема получения данных из внешних источников

– часть платформы Kiberry C, предназначенная для настройки и применения алгоритмов получения данных из различных внешних источников информации. В качестве таких источников могут использоваться сторонние сайты и другие web-ресурсы, базы данных «чужих» информационных систем, потоки данных, поступающие по протоколам промышленного обмена, файловые ресурсы во внутренней сети организации.

“

Оптимизм —
это недостаток информации.

— Фаина Георгиевна Раневская

В современном мире организацию окружает огромное количество различной информации, расположенной в самых разных местах. Умение получать и использовать эту информацию вместе с той, которая порождается деятельностью организации, отличает современную информационную систему от устаревших конструкций.

Для выполнения этой задачи платформа Kiberry С имеет в своем составе подсистему получения данных из внешних источников. За счет настроек этой подсистемы можно спроектировать и разработать механизмы получения данных, их разбора и помещения в информационное пространство систем на основе платформы Kiberry С. При этом нет необходимости менять код системы, что позволяет быстро и гибко реагировать на изменение форматов данных, мест их расположения, а также быстро и качественно расширять возможности получения внешних данных.

Источники информации

Подсистема получения данных из внешних источников «умеет» работать со следующими типами источников информации:

Сайты в сети Internet и других сетях

Информация может быть извлечена из html-страниц, а также из файлов, доступных на сайтах.

1
Серверы электронной почты

Информация может быть взята из текстового или html-сообщения и из вложений в электронные письма.

2
Базы данных

Возможно получение любой доступной информации. В базовом варианте подсистема работает с базами данных под управлением СУБД PostgreSQL, Oracle SQL Server, Microsoft SQL Server, MySQL.

3
Протоколы промышленного обмена информацией

Поток данных, поступающих по протоколам, также может быть получен и сохранен в информационном пространстве систем на основе платформы. В базовом варианте подсистема работает с протоколом МЭК 60870-5-104 (IEC 60870-5-104), а также с OPC.

4
Файловые ресурсы

Могут быть использованы любые доступные файловые ресурсы, расположенные как внутри организации, так и за ее виртуальными и реальными пределами.

5
Информация на бумажных носителях

За счет использования внешних сервисов распознавания символов (OCR) и внутренних механизмов подсистемы, основанных на современных технологиях семантического анализа текста с применением нейронных сетей, информация может быть получена и из документов в "твердом" формате.

6

Настройка источников

В подсистеме может быть настроено произвольное количество источников информации любого вышеуказанного типа. Для каждого из них (там, где это уместно) может быть указано его местоположение, способы подключения, информация, необходимая для подключения (например, логин и пароль), информация о составе данных, которые подлежат загрузке, другие особенности использования.

В рамках подсистемы реализованы механизмы контроля наличия источника информации и возможности доступа к нему. Информация, полученная в результате работы этих механизмов, доступна администраторам систем на основе платформы в рамках использования подсистемы администрирования. В этой же подсистеме за счет использования механизма назначенных заданий может быть настроена стратегия использования источника данных – от ручного запроса информации до автоматического получения данных по расписанию. Все эти возможности в совокупности позволяют настроить получение информации из внешних источников максимально гибко и быстро.

Файловое хранилище

При использовании большинства источников информация поступает в систему в виде файлов (это не относится к базам данных и протоколам промышленного обмена). Полученные файлы могут быть помещены в файловое хранилище, входящее в состав информационного пространства систем на основе платформы Kiberry С (за счет использования подсистемы управления файловым

хранилищем). Для этого могут использоваться файлы любого формата. Правила помещения файлов в файловое хранилище и последующего их применения устанавливаются за счет настроек подсистемы управления файловым хранилищем. В частности, имеются возможности архивирования/разархивирования файлов, ведения версионности файлов, выгрузки файлов для внешнего применения (в том числе публикация, т.е. размещение файла в определенном месте внутренней сети организации), показа файлов определенных форматов в рамках интерфейса информационной системы, поиска файлов и др.

Извлечение информации

Помимо загрузки и сохранения файлов подсистема получения данных из внешних источников предлагает обширные возможности по настройке и выполнению алгоритмов извлечения из файлов структурированной информации. В платформе Kiberry С такие действия называются «разбором» файлов. В базовом варианте разбор может быть применен к файлам текстового формата, csv-файлам, xml-файлам определенной структуры, xls-файлам, doc-файлам, html-файлам. Алгоритм разбора описывается в виде скрипта на языке groovy (скриптовый аналог Java). Для упрощения разработки скрипта в подсистеме имеется развитый API, содержащий все необходимые функции для решения задачи извлечения структурируемых данных. Скрипты хранятся в виде метаданных подсистемы визуализации оперативной информации, подсистемы управления документами и регистрами, подсистемы администрирования. Помимо скриптов, указанные подсистемы содержат настройки, указывающие соответствие структурированной информации из файлов, с одной стороны, и сущностей с атрибутами информационного пространства систем – с другой. Это позволяет сократить размер скриптов и увеличить скорость их создания.

Получение структурированных данных

При получении информации из баз данных или по протоколам промышленного обмена данные поступают сразу в структурированном виде, поэтому в дополнительном разборе нет необходимости. Правила получения данных для таких типов источников также описываются в виде скриптов на языке groovy и других метаданных, которые хранятся в специальных сущностях подсистемы управления нормативно-справочной и вспомогательной информацией и подсистемы управления документами и регистрами. Для баз данных основной частью скрипта являются SQL-конструкции по получению, преобразованию и сохранению данных. Для протоколов промышленного обмена в скрипте содержится только вызов основного механизма получения данных. Для этого типа источника данных главными настройками являются описания соответствия ключей поступающих данных с сущностями и атрибутами информационного пространства систем на основе платформы Kiberry С.

Механизмы разбора файлов и получения структурированных данных, также как и механизмы загрузки файлов, имеют встроенные средства контроля. Результат работы этих механизмов доступен администраторам систем на основе платформы Kiberry С в рамках использования подсистемы администрирования. Процессы разбора, также как и процессы загрузки, могут быть настроены на использование различных стратегий их выполнения. Например, для уменьшения нагрузки на системы, разбор особо сложных документов может производиться в ночное или иное нерабочее время.

Для извлечения структурированной информации из неструктурированных данных в подсистему в расширенном варианте включены механизмы семантического анализа текста, использующие нейронную сеть, «обученную» с помощью технологий Deep Learning. Например, в решении Kiberry.Аудит выполняется анализ, классификация и извлечение атрибутов из договоров и сопутствующих им документов, изначально представленных в бумажном виде. Для целей проверки правильности заключения договоров документы сканируются, распознаются и загружаются в информационную систему.

Механизм семантического анализа выделяет из текстовой информации документа различные характеристики, необходимые для принятия решения о его корректности. Модель нейронной сети выполняет данные функции, благодаря предварительному обучению на большом количестве подобных договоров с ручной разметкой (Deep Learning). С помощью механизма семантического анализа текста можно решать задачи обработки неструктурированной информации, не решаемые традиционными способами, с высокой точностью и значительно быстрее, чем это делал бы пользователь.

Использование подсистемы

Вся совокупность возможностей, предоставляемых подсистемой получения данных из внешних источников, позволяет проектировать и разрабатывать системы на основе платформы Kiberry С, не «замыкающиеся» на своих внутренних данных, которые созданы в процессе осуществления той или иной деятельности организации. Системы могут активно использовать практически любую внешнюю информацию, что позволяет существенно улучшить возможности управления оперативными данными, а также расширить объем данных для анализа. Современные возможности системы в расширенном варианте позволяют автоматически извлекать структурированную информацию даже из неструктурированных данных, что раньше требовало обязательного участия пользователей.

Подсистема получения данных из внешних источников в своем базовом варианте используется в решениях: Kiberry.Энерготрейдинг 2, Kiberry.МУЗА, Kiberry.Управление договорной деятельностью, созданных на основе платформы Kiberry С. В расширенном варианте с использованием
механизма семантического анализа текста
подсистема используется в решении
Kiberry.Аудит. Подсистема готова к
расширению своих функциональных
возможностей, если это необходимо.