"ДЕЖА ВЮ" - ЭТО ФОРМАТ, А НЕ ДИАГНОЗ
Денис КИМ
Как сейчас решается вопрос с переводом информации из бумажного вида в электронный? Понятно, что первым делом книга, журнал, газета, не суть важно что – сканируется. Что можно сделать потом? Очевидно, дальше имеет смысл распознать отсканированный текст. Конечно, это самое грамотное решение, позволяющее использовать все преимущества цифрового представления информации. Основная проблема в этом случае заключается в том, что невозможно поставить распознавание на поток. Распознавание большого количества материалов – крайне трудоемкий процесс.
Поэтому для перевода в цифру большого количества
материалов, как правило, их просто сохраняют в виде картинки.
Но и тут есть целый ряд трудностей. Дело в том, что сейчас
распространены только два компрессирующих формата
представления цифровых изображений – GIF и JPEG, говорить о
некомпрессирующих форматах, по большому счету, бессмысленно.
Ведь основная задача представления информации в цифре – это
возможность передавать ее через Сеть, а если одна журнальная
страница будет весить тридцать мегабайт, например, в TIFF, то
кому она вообще будет нужна?
При этом у двух существующих компрессирующих форматов существуют серьезные недостатки. GIF, к примеру, не может содержать больше 256 цветов. Для текста, конечно, этого более чем достаточно, но что делать, если на странице напечатаны красивые цветные фотографии? Для представления фотографий обычно используют формат JPEG, и свои задачи, в подавляющем большинстве случаев, он реализует "на ура". Но в то же время, сохранять в JPEG текст или, скажем, чертежи (lineart) – полнейший абсурд: JPEG "размоет" и испортит их. Разделять же представляемую информацию на разные форматы не менее трудоемко, чем распознавать тексты, но при этом еще и страшно неудобно в дальнейшем использовании.
Очевидно, что идеальным выходом из сложившейся ситуации стало бы либо появление крайне умных систем распознавания, не делающих ошибок, либо создание нового графического формата, умеющего компрессировать и объединяющего все преимущества существующих форматов – качественное представление текста, как в GIF, и качественное представление фотоизображений, как в JPEG.
Оказывается, такой формат уже
придуман. При чем придуман по умному, хотя и не без недочетов.
Называется он DjVu ("дежа вю"). Работает примерно следующим
образом. Сначала выделяет на странице весь текст и lineart,
после чего отдельно отображает картинки. При чем и то и другое
– качественно. Да и объем файла, представляющего обычную
страницу A4 с текстом и фотографиями в разрешении 300 DPI
получается примерно 45-50 килобайт, что, по последним
исследованиям, равно усредненному весу web-странички.
Для того чтобы иметь возможность просматривать подобные картинки, необходимо установить специальный plug-in, который весит немногим меньше девятисот килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах. Да и демонстрировать эти картинки он может постепенно – по мере скачивания. Скажем, после того как вы зашли на дежавюшную страничку, в течении пары секунд вы можете полностью увидеть макет страницы. Еще через пару секунд сможете прочитать текст, а подождав еще буквально чуть-чуть – видите картинки. Конечно, web-сёрфер и так имеет то же самое – сначала текст, потом постепенно картинки. Но не забывайте – то, что вы видите с помощью DjVu – это полностью графика, а не комбинация распознанного текста и картинок.