Как вырезать текст из djvu?

3 ноября 2014 г. Просмотров: 1662 Инструкции
Книги в формате djvu встречаются в электронных библиотеках достаточно часто. Как правило, они занимают небольшой объем, в них сохранены шрифты и иллюстрации оригинала. Главным недостатком этого формата является тот, что текст страницы копируется в буфер как изображение. Для того, чтобы его редактировать, необходимо использовать другие приложения.

Вам понадобится

  • - компьютер с программами Djvu OCR, Djvu Solo, Djvu Viewer;
  • - ABBYY FineReader:
  • - Adobe Photoshop.

Инструкция

  • Скопировать отдельную страницу из книги в формате djvu позволяет практически любая программа, которая читает файлы данного вида. Все они имеют похожий интерфейс и примерно одинаковые функции. Зайдите в верхнее меню и найдите вкладку Selection. Там вы увидите строчку Select Region. Выберите ее.
  • Найдите нужную страницу Это можно сделать в окошке верхнего меню. Если страница находится недалеко от начала или конца книги, можно воспользоваться стрелками. Выделите на ней нужный фрагмент с помощью рамки, которая появилась перед вами. Щелкните правой клавишей мыши. Перед вами появится выпадающее меню, которое предлагает либо сохранить страницу, либо скопировать. Выберите второе.
  • Откройте Adobe Photoshop или, например, просмотровщик изображений, имеющий функцию создания нового файла. Создайте файл и вставьте в него то, что у вас в буфере. Сохраните изображение как jpg или tiff. При необходимости обработайте его. В формате djvu нередко сохраняют очень старые книги, с необычными и не всегда четкими шрифтами. Кроме того, там сохраняются все пометки, которые были в оригинале. Они могут помешать распознанию текста. Уберите лишний мусор. Переведите изображение в черно-белое и установите баланс яркости и контрастности. В некоторых случаях требуется увеличить разрешение одновременно с размерами.
  • Откройте изображение в ABBYY FineReader. Чем более поздняя версия этой программы у вас стоит - тем лучше. Найдите функцию "Распознать". Когда программа это сделает, сохраните файл в нужном вам формате - например, в doc.
  • Программа Djvu OCR позволяет разделить на страницы сразу всю книгу. Откройте программу и выберите в меню опцию Djvu Decoder. Перед вами появится окошко. Найдите функцию Djvu File List. Нажмите кнопку Add. Укажите, где находится книга в данном формате, которую вы хотите преобразовать. Выберите пункт Output Directory. Найдите кнопку Browse. Выберите папку для сохраненных страниц. Название папки напишите латиницей. Нажмите Process.
  • Запустите ABBYY FineReader. Можно открыть как одну страницу, так и все сразу - это значительно сократит время. Нажмите кнопку "Распознать". Сохраните страницы отдельными файлами или выделите все и сделайте из них один документ.
  • Оцените статью!