Необычные применения технологий OCR

Арам Пахчанян

Технологии OCR (оптического распознавания текстов) считаются зрелыми, и кажется, что все, что в этой области можно было сделать, уже сделано. Но работая в компании, которая делает такие технологии, я время от времени сталкиваюсь с довольно неожиданными их применениями, и хочу вам поведать о некоторых из них.

Есть применения более или менее очевидные. Например, OCR используется в корпоративных системах фильтрации спама для случаев, когда спам рассылается в виде картинок. Но вот мало кто знает, что есть применение и для контроля обратного потока: предотвращение утечек секретной информации из организаций (leak prevention). Очевидно, что такая информация очень часто представлена в виде изображений (раздобыл бумажку, тихо отсканировал, пытаюсь послать по почте). Пытаясь заполучить электронную копию документа намного легче наследить и, в результате, попасть на крючок.

Целый класс применений связан с незрячими или слабовидящими людьми. Качество современных систем синтеза речи уже таково, что можно слушать подолгу такую речь без особого утомления. Они даже умеют делать какой-никакой синтаксический разбор и выстраивать артикуляцию на основе синтаксиса. При этом незрячим людям оказывается проще пользоваться бумажными изданиями, а не электронными по очень простой причине: для общения с миром электронных книг им потребуется регулярная помощь посторонних людей. В физическом мире им много проще ориентироваться. Например, они сами, без посторонней помощи могут достать книги из шкафа, уточнить название книги (отсканировав и отслушав титульный лист) и дальше слушать книгу страницу за страницей, просто перелистывая ее, и укладывая на сканер. Специальные программы делают все автоматически и не требуют сложного управления компьютером. Есть очень похожее, хотя и менее очевидное, применение: помощь людям, страдающим дислексией. Хотя, конечно же, им удобнее пользоваться электронными и аудио-книгами, но нужные книги не всегда доступны в электронном виде.

В последнее время популярна идея использования мобильных устройств для сбора информации об окружающей нас действительности. Так как в этой действительности часто встречаются тексты, то без OCR не обойтись. Еще одна аналогичная задача - это максимальное насыщение метаинформацией медийного контента (фотографий и видеопотоков).

Степень доступности и полезности медиа-информации напрямую определяется тем, насколько хорошо в ней можно находить нужные объекты в случае необходимости. OCR значительно облегчает эту задачу, позволяя выделять на картинке и сохранять в виде тегов к кадрам любые текстовые объекты. Этот же подход используется службами мониторинга, которые отслеживают медийный контент в интересах своих клиентов.

Похожая идея, правда, с совсем другой целью, используется на производстве для автоматизации контроля качества. Там тоже используются всевозможные технологии распознавания. OCR в таких случаях применяют, чтобы, например, проверить, упаковку и всевозможные шильдики, соответствие документации продукту и т.д. Еще одно применение при контроле качества: автоматическая проверка пользовательского интерфейса программных продуктов. При прогонах автоматических тестов можно проверять, что выдаются ожидаемые сообщения, нет ошибок правописания и т.д.

Рассказывать про все возможные применения OCR можно долго. Но интереснее пытаться угадать, что будет дальше и какие еще применения могут возникнуть. Дело в том, что сейчас происходит небывалая революция: качественные устройства для получения статических изображений и видео становятся повсеместными. Мобильными устройствами дело не ограничивается: кому-то пришло в голову использовать обычную оптическую мышь для сканирования текста.

Множество мозгов в мире одновременно думают, как оседлать феномен массового распространения устройств ввода. Какие-то идеи лежат на поверхности (например, перевод меню в ресторане), а до каких-то нужно еще докопаться. Но совершенно достоверно можно сказать, что технологии OCR будут все чаще и чаще существовать в отрыве от бумаги и документов, потому что люди пишут везде, а не только на бумаге. А это, несомненно, поставит новые, интересные задачи перед разработчиками этих технологий.


Страница сайта http://www.interface.ru
Оригинал находится по адресу http://www.interface.ru/home.asp?artId=25370