Нет ничего необычного в том, что в наше время практически все крупнейшие мировые библиотеки и архивы осуществляют оцифровку хранящихся в них бумажных документов, представляющих культурную или историческую ценность. Бумага, знаете ли, со временем портится, да и вообще — превосходно горит при случае. Некоторые учреждения используют для этой цели автоматизированные высокотехнологичные устройства, а кто победнее, те применяют обычные оптические сканеры в тандеме с одним из сотрудников.
Как бы там ни было, в случае с книгами этот процесс подразумевает перелистывание страниц сканируемого издания, что не всегда допустимо. Дело в том, что если необходимо, скажем, перевести в цифровой формат какую-то редчайшую древнюю книгу, существующую в единственном экземпляре, и в силу возраста, пребывающую в плачевном состоянии, то её перелистывание является крайне опасным мероприятием. А поскольку таких раритетов становится с каждым годом всё больше, учёные уже давно задумались о создании более щадящего инструмента оцифровки.
Похоже, первыми успех будут праздновать специалисты из Массачусетского технологического института, недавно разработавшие сканирующее устройство, способное оцифровывать даже закрытые книги!
Аппарат использует в своей работе ряд физических и технологических «хитростей», а также осуществляющие обработку полученных данных сложные программные алгоритмы. Давайте-ка узнаем обо всём этом подробней.
Поверхностно о принципе действия
Итак, в основе принципа действия новой сканирующей системы лежат проникающие свойства излучения терагерцового диапазона — это такой диапазон, расположенный между инфракрасным светом и микроволновым излучением.
По большому счёту, с той же целью можно прибегнуть к помощи и других видов проникающего излучения, скажем, рентгеновского. Но не стоит забывать, что мы имеем дело с чувствительными и нежными объектами, по отношению к которым терагерцовое излучение является более щадящим, безопасным и удобным. Кроме всего прочего, применение именно терагерцового излучения делает возможным более точную дифференциацию чистых участков бумаги, и областей, покрытых текстом. Секрет кроется в свойстве различных химических веществ по-разному поглощать такой вид излучения. Чтобы было понятней, возьмём пример из повседневной, а не «библиотечной» жизни: заправка лазерного картриджа HP CF218A осуществляется тонером, а вот в Epson L805 заливаются чернила. Естественно, свойства этих красителей совершенно разные.
Этап распознавания
После осуществления терагерцового сканирования полученные данные подлежат сложной математической обработке, дающей возможность выделить изображение с каждой отдельной страницы. Также на этом этапе задействуются сложные программные алгоритмы, повышающие чёткость каждого символа до максимально возможных пределов. Следует отметить, что эти алгоритмы специально разрабатывались учёными из Технологического института Джорджии, и с их помощью можно восстановить исходные очертания даже сильно искажённых букв и цифр.
Что говорят сами разработчики
«В спектре поглощения терагерцового излучения есть огромное различие между чистой бумажной поверхностью, и материалом чернил» — объясняет Бармак Хешмат, один из ведущих участников проекта New Atlas, — «Созданная нами система умеет автоматически настраиваться на такой спектральный контраст, который постоянно меняется в зависимости от состава бумажного носителя и нанесённых на него чернил. Такой подход даёт нам возможность получить на выходе весьма качественные изображения с просканированных страниц, которые обычно без проблем распознаются традиционными программами оптического распознавания».
Как система «листает» страницы
Терагерцовый источник излучения, используемый в новой системе, генерирует короткие вспышки излучения. Испускаемые импульсы отражаются от присутствующих между страницами микроскопических воздушных слоев, после чего это отраженное излучение попадает в поле зрения специальной камеры. Последняя демонстрирует максимальную чувствительность именно в требуемом нам терагерцовом диапазоне. Полученные камерой сведения пропускаются через очередной алгоритм, с высокой точностью определяющий расстояние до каждой из страниц, руководствуясь разницей во времени, имеющей место между началом излучения импульса и моментом улавливания камерой отражённого сигнала. Информация о расстоянии до страницы передаётся в следующий алгоритм, который отфильтровывает шумы и сведения, полученные с других страниц. После осуществления такой фильтрации на выходе получается картина поверхности лишь соответствующей страницы, на которой уже указаны участки с отличающимися химическими составами.
Текущие возможности системы и планы её будущего совершенствования
Не стоит заранее радоваться, ведь пока что общественности представлен лишь опытный образец революционного терагерцового сканера, возможности которого в данный момент ограничены сканированием на глубину не более 10 страниц. При попытке проникнуть глубже сигналы излучения практически целиком перебиваются шумами и помехами, делающими процесс считывания невозможным. Тем не менее, уже совсем скоро учёные из Массачусетского технологического института обещают заметно увеличить глубину эффективного действия сканера благодаря наращиванию мощности источника излучения терагерцовых волн, точности, разрешающей способности и скорости улавливающей камеры, а также совершенствованию программных алгоритмов.