nabbla (nabbla1) wrote,
nabbla
nabbla1

Category:

На пыльных тропинках далёких планет...

останутся наши отпечатки пальцев.
Fingerprints.png

С прошедшим днём космонавтики!

Я весь день не выходил на связь, надеялся выложить книгу "История космических полётов" Д. Спэрроу, это здоровенная книга форматом 26,5 см х 31 см (крупнее, чем А4), 320 страниц, не считая обложек и предисловий, отличная полиграфия и огромное количество картинок.


Когда-то я её выкладывал, но в формате "экранки" (http://nabbla1.livejournal.com/49712.html) - у меня не было сканера А3, поэтому я просто фотографировал каждый разворот и надеялся их хоть сколько-нибудь обработать. Вышла именно что экранка.

С тех пор у меня появился сканер А3, самый дешевый из них, Mustek A3 1200s, я с ним наверное год боролся, и вот в ближайшие выходные отсканировал-таки всю книгу, а также цветовую мишень IT8.7/2, после чего построил цветовой профиль в собственноручно написанной программе, внедрил его во все сканы (в ней же), запустил в фотошопе преобразование в sRGB, и примерно во вторник вечером оставалось за малым - исправить ориентацию страниц, разметить их границы, бинаризовать текст и запустить Finereader, чтобы он под картинку "подложил" распознанный текст, давая возможность поиска и copy-paste, ну и для кучи собрал бы все эти сканы (общий объем 40 ГБ) в один pdf.

Провозился до утра, перед уходом на работу запустил FineReader, только чтобы обнаружить, что через полчаса компьютер ушёл в ждущий режим, ничего толком не сделав. Потом уже при мне завис намертво, уж не знаю почему, пришлось запускать по-новой - и вот, к 12 ночи он "родил" pdf-файл, на первый взгляд весьма недурственный и весом всего 180 МБ. Но когда я добавил в него интерактивное оглавление и стал его проверять, то обнаружил - трёх страниц не хватает, надо их отсканировать отдельно и "задним числом" включить в проект. Кроме того, я где-то не отключил мозги файнридеру, и он весьма вольно распорядился картинками - найдя на одной из них слово Discovery, всю картинку повернул градусов на 15, чтобы слово шло горизонтально. Картинки с гигантскими ракетами посерёдке он делил пополам, считая что это не ракета, а переплёт - ну похожи ведь!

Ну и черные области меня раздражают, на них проявляются все косяки мои и сканера. Глянцевый черный - нехорошая вещь, он умудряется бликовать, и у меня такое подозрение, что в этих бликах он неким образом "проявляет" неоднородности фотоприемной линейки сканера - именно здесь вдруг возникают очень ощутимые полосы, хотя ещё на предыдущей странице ничего такого не было. Ну и отпечатки пальцев он подчеркивает с каким-то особенным упоением. Хорошо хоть, они замазаны прилично, иначе это вообще был бы Security breach.

В ScanTailor'e можно всю область справа (белые буквы на черном фоне) пометить как текст и бинаризовать, но в большинстве случаев это надо делать ручками. И как же долго он открывает каждую страницу, секунд по 10 как минимум, а страниц 320 у нас, то есть час я буду только дожидаться открытия всех страниц. Ещё вдвое дольше он будет обрабатывать каждую из них после разметки, это дополнительно 2 часа. Но больше хочется ещё год потерять и потом за 5 минут долететь на своём новом ScanCombine.

А пока выложить на днях худо-бедно качественную версию этой книги и ещё одной, которую я только начал сканировать.
Tags: Книги, книги о космосе
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 7 comments