Однако удобство пользования таким каналом, как выясняется, обоюдное. В середине июля с некоторыми постоянными клиентами Amazon, владельцами Kindle, произошел вопиющий случай. Несколько оплаченных ими книг загадочным образом вдруг исчезли из памяти «читалок», куда были загружены. Позже выяснилось, что мистики не было: техническая служба Amazon через постоянно поддерживаемое 3G-соединение удалила вполне легитимно приобретенные файлы с этими книгами. Деньги за них, разумеется, были незамедлительно возвращены на счета покупателей. Дело в том, что на Amazon предлагались оцифрованные версии печатных книг, выпуск которых (именно в печатном варианте) не был когда-то согласован с правообладателями. Когда те обнаружили, что книги доступны в онлайновом магазине, их адвокаты связались с адвокатами Amazon – в результате и было принято решение скоренько замять инцидент, произведя откат к состоянию до начала продаж. Возмущение клиентов компании, которые расценили этот шаг как грубое вторжение в их частную жизнь, привело к тому, что Amazon официально пообещала: если в будущем подобная неразбериха с правами повторится, удаления книг с устройств клиентов не произойдет. Однако удовольствие от пользования плодами современных технологий владельцам Kindle, безусловно, подпортили. Ирония же заключается в том, какие именно книги оказались вовлеченными в Kindle-скандал. Это два наиболее известных романа Джорджа Оруэлла. Да-да, так и есть: «Скотный двор» и «1984». Добро пожаловать в дивный, новый мир, где некоторые пользователи высоких технологий более равны, чем другие.
Робот заменяет секретаршу
Компания Cognitive Technologies разработала подсистему «Понимание документов» для комплекса автоматизации документооборота «ЕВФРАТ-Документооборот». Несмотря на развитие цифровых технологий управления документами, самым узким местом в организации документооборота по-прежнему остается ввод данных. Глобальной системы электронной отчетности еще не построено, и организации обмениваются отчетами, справками, актами и т. д. в бумажном виде.
Казалось бы – ну и что? Технологии оптического распознавания сегодня почти достигли совершенства, у той же Cognitive Technologies имеется OCR собственной разработки (CuneiForm). Но есть один нюанс. Бумажный документ – так сказать, плоский, его структуру или атрибуты можно выделить разве что оформлением.
После цикла «печать на бумаге – ввод со сканера» содержимое документа и его атрибуты, как правило, приходится вводить руками, вовлекая в процесс человека – а это компонент, как известно, ненадежный и не слишком производительный (разумеется, если сравнивать его с автоматизированной системой).
«ЕВФРАТ-Документооборот» решает проблему. По словам разработчиков, это первая в России система электронного документооборота, где реализованы принципы смыслового анализа документов.
«ЕВФРАТ-Документооборот» способен самостоятельно, без участия человека, разбирать содержание документа и понимать его (под термином «понимание» подразумевается автоматическое распознавание смысловых частей, например, что это – название компании, дата, исходящий номер, список контрагентов или что-то иное?). Понятая таким образом информация автоматически заносится в регистрационную карточку документа для дальнейшей работы с ним в СЭД.
В основу подсистемы «Понимание документов» легли результаты НИОКР компании в области анализа информации (синтаксический разбор, структурная модель представления знаний о языке, описание структурных связей). Кроме этого был учтен опыт, полученный в ходе создания информационных систем с модулями понимания документов для Пенсионного фонда РФ и ОАО «ММК». Специалистами Cognitive Technologies создано XML-представление делового документа, на базе которого осуществляется обучение системы «пониманию».
Подсистема «Понимание документов» может обрабатывать электронные документы текстового и графического (после распознавания) форматов или поступившие в бумажном виде (после сканирования и распознавания). В настоящее время система обучена пониманию тех видов документов, которые требуют массовой регистрации и учета в организациях – входящей корреспонденции и договоров по различным видам деятельности.
Например, для договоров подсистема «Понимание документов» автоматически, с листа, заносит в «ЕВФРАТ-Документооборот» дату оформления, названия компаний, заключающих соглашение, предмет договора, срок его действия, количество страниц; кроме этого автоматически определяется наличие приложений и дополнительных соглашений и сответствующие файлы прикрепляются к карточке документа. Для входящей корреспонденции в карточку заносятся дата, информация о корреспонденте (название учреждения,