ABBYY Recognition Server на службе у ботаников Её Величества

Елена Агафонова

Королевский ботанический сад Эдинбурга (КБСЭ) вполне можно назвать флористической MI6 - его сотрудники выращивают и изучают растения со всего света. За 300 лет внешней "растительной" разведки КБСЭ изучил две трети мировой флоры и составил поистине уникальную ботаническую коллекцию, с которой ученые-флористы иботаники-энтузиасты могли работать только в Эдинбурге. 

Недавно руководство ботанического сада решило оцифровать и выложить в Интернет разведданные о 3 миллионах растений. Ботаникам потребовалось автоматизированное решение для потокового ввода документов и создания электронного архива, которое легко масштабируется и отличается высокой производительностью. По рекомендациям Национальной библиотеки Великобритании выбор был сделан в пользу ABBYY Recognition Server. 


"Вы гербарий собирать любите? А обрабатывать?" 

Поставленная задача осложнялась разнообразием шрифтов, наличием штрихкодов и рукописного текста на устаревших вариантах нескольких языков - некоторые записи датируются 1690 годом и трудны для распознавания. Карточки с разведданными о каждом растении пестрят цифрами, именами-фамилиями и сокращениями - вот как здесь:

image

Кроме этого, у КБСЭ есть собственная система управления изображениями, где хранятся TIFF-файлы всех карточек и записок. Так что кроме качества оцифрованного материала и автоматизации процесса обработки текстов руководству сада хотелось, чтобы Recognition Server гармонично сработался с этой системой. 

Проект "Гербарий онлайн"

И они сработались. 
А в чёрном-чёрном ящике происходит следующее:
У Recognition Server"а есть доступ ко всем TIFF, которые хранятся в одной из папок системы управления изображениями. После их обработки программа создаёт два файла - PDF с возможностью поиска (на всякий пожарный случай) и простой текстовый файл. Последний отправляется в специальную папку, лежащую на сервере КБСЭ, и там его ловит их собственная программа - она добавляет этот файл в базу данных MySQL. 

Таким образом, оцифрованный гербарий теперь доступен через веб-сайт КБСЭ в разделе Herbarium Catalogue с возможностью поиска по нескольким параметрам. 

Выглядит это так:

Ищем, например, самый обыкновенный лютик. Словарь Lingvo подскажет, что искать надо Ranunculus gen. 

image

Сервис выдаст большой список карточек по всем образцам лютиков, завезённым в Великобританию из разных стран разными экспедициями. Картинки засушенных образцов прилагаются. Это небольшая часть списка. Выберем карточку растения из Израиля с изображением.

image

Картинку можно увеличить. Для интереса посмотрим сопроводительный текст:

image

Теперь ученые-флористы и ботаники-энтузиасты могут найти нужный им материал из любой точки мира.

Елена Агафонова,
переводчик


Страница сайта http://www.interface.ru
Оригинал находится по адресу http://www.interface.ru/home.asp?artId=25403