Самарские айтишники разработали систему понимания и генерации текста

25 января, 2023

Самарская IT-компания «Открытый код» разработала библиотеку подпрограмм для понимания и генерации текста на основе технологий машинного обучения (SDK). Сейчас она дает подсказки, создает шаблоны при составлении документов, генерирует и анализирует их. На реализацию проекта ушло около пяти лет.

Работу SDK определяют сложные программно-аппаратные комплексы, в основе которых лежат отечественные платформы. В частности, система управления цифровым контентом «ECM-Интеллект». В нее входят функции: накопление информации, анализ «больших данных», получение сведений из некорректных запросов, акцентная визуализация (отметки и пояснения для привлечения внимания), динамически настраиваемые экраны и поддержка принятия решений.

«ЕСМ» ведет журнал и обрабатывает входящие и исходящие документы (рецензирование, подписание, направление), ищет их по реквизитам, настраивает уведомления.

По выкладкам «Открытого кода» «ЕСМ» повышает точность планирования работы на 25%, на 40% сокращает время анализа, а скорость обработки документов — на 300%.

Интеллектуальная технология не ограничена количеством пользователей, серверных станций и временем работы. Сейчас основу SDK используют в муниципальном архиве Самары, единой цифровой платформе областного правительства, системах документооборота ФБУ «Нижегородский ЦСМ» и ОАО «Мосводоканал».

«Открытый код» потому так и называется, что мы изначально реализовали все наши решения на отечественном софте. Это наша принципиальная позиция, которая сейчас особенно показала свою актуальность. Другие наши фишки – это широкое использование искусственного интеллекта, работа со сложными неструктурированными данными, как текстовыми, так и графическими, дополненная и виртуальная реальность и высокая степень защиты информации», – раскрывает о принципах работы руководитель «Открытого кода» Олег Сурнин.

Библиотеки подпрограмм понимания и генерации текстов делятся на три уровня реализации: инфраструктурный (обработка сведений, база знаний), семантический (поиск параметров, сопоставление информации, семантико-статистический анализ), а также поддержка принятия решений (подсказки, шаблоны и генерация документов).

SDK отличается высокой скоростью обработки данных. По сведениям разработчиков, это связано с применением списка алгоритмов машинного обучения и возможностью извлечения информации из корпоративной документации.

«Сложные системы невозможно собрать на коленке за месяц или два. Это многофакторный процесс и работа, как правило, большого коллектива. В компании «Открытый код» в среднем работает около 250 человек. И поверьте, среди них нет ни одного лишнего», – говорит Олег Сурнин.

Он добавил, что количество и стоимость поставки библиотек подпрограмм понимания и генерации текстов зависит от заданных целей и условий заказчика.

«Каждая IT-компания развивает свои компетенции. И каждый из названных мной компонентов входит в инструментарий передовых вендоров рынка. Другой вопрос – как они их применяют? Как увязывают логические и производственные цепочки? Насколько хватает фантазии и смелости по внедрению? В этом же все дело. Так, в проекте с корпорацией «Вертолеты России» мы объединили технологии текстопонимания, семантического анализа и онтологий динамического планирования», – приводит пример внедрения SDK Олег Сурнин.

При этом SDK создает собственные словари синонимов на основе нейронных сетей, исправляет частые ошибки распознавания (например, «и» вместо «й»).

Еще один элемент библиотеки подпрограмм – семантический поиск. В нем сочетается поисковой механизм, распознавание текста, отображение и оценка релевантности результатов и извлечение знаний. «Это явление многофакторное, обрабатывающее сложные логически обоснованные запросы, которые невозможно решить за счет традиционных видов поиска информации», – отметили в презентации проекта представители «Открытого кода».

По мнению Олега Сурнина, западные санкции только «актуализировали» разработку подобных технологий. Он уверяет, отечественные решения способны обойти по качеству зарубежные аналоги.

«Насчет сравнения наших решений с западными хочу сказать следующее: я не ставлю перед нашей компанией задачи по импортозамещению. Считаю, что мы владеем всеми навыками, технологиями и научными подходами, чтобы превзойти стандартные западные системы. Наше ключевое отличие от иностранцев, которые в свое время заполонили российский рынок «коробочными решениями», – в индивидуальной настройке систем. Не допиливание готовой системы под проблемы заказчика, а изначальная, буквально камертонная, настройка под заявленные задачи», – выделяет конкурентное преимущество управляющий «Открытого кода».

По данным Российского фонда развития информационных технологий, который поддержал проект, «Открытый код» вложил в разработку SDK 39,6 млн руб., еще 19,8 млн руб. составила сумма гранта. Там добавили, что выручка от внедрения разработанных компонентов системы составляет 55,4 млн рублей. Сейчас проект завершен и готовится к включению в Единый реестр российских программ для ЭВМ и баз данных.

— Артем Элекин