Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день
DGOBLEK RE:Прошу переформатировать, распознать, etc... 6 дней akorish RE:Регистрация 1 неделя Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя konst1 RE:Ух, как я не люблю спамеров! 1 неделя tvv RE:DNS 4 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 4 недели larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах
Stager про Демина: Невеста по спецзаказу, или Моя свекровь и другие животные [СИ] (Любовная фантастика, Самиздат, сетевая литература)
10 05 Ну вот язык хороший, и фантазия есть... Но культуры и образования нет, и это портит всё. Оценка: неплохо
udrees про Яу   : Теория струн и скрытые измерения Вселенной [The shape of inner space. String Theory and the Geometry of the Universe's Hidden Dimensions ru] (Физика, Астрономия и Космос)
10 05 Я могу только процитировать одного ученого из этой книги, чтобы описать свое отношение к этой книге: «…Я обнаружил статью Яу в библиотеке и мало что из нее понял, но из того немногого, что мне удалось понять, я сделал однозначный ……… Оценка: хорошо
udrees про Вальтер: Мешок. Библия вселенной [справочник] (Боевая фантастика, Приключения: прочее, Самиздат, сетевая литература)
10 05 Очень короткое описание, буквально на 5-6 страниц, по сути не произведение, а глоссарий терминов из Вселенной Мешка. Написано просто, без всяких заумных терминов. Я правда не понял, это опечатка или что («Но камни с тварей ……… Оценка: неплохо
udrees про Вальтер: Я её нашёл, но... (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
10 05 В общем-то нормальное продолжение, главный герой действительно нашел свою невесту, я правда ожидал, что это «но…» будет длиться всю 3-ю книгу, но автор видимо не стал растягивать драму и воссоединил возлюбленных для новых ……… Оценка: хорошо
udrees про Вальтер: Браконьер 6 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
10 05 Отличное завершение серии про приключения Брака. Написано с душой, описания красочные, много крови, стрельбы и трупов. Язык главного героя грубый, раздраженный, повелевающий. Ну и плюс надо учитывать, что 6-я книга – это как ……… Оценка: отлично!
udrees про Вейр: Антигипоксант [Antihypoxiant ru] (Научная фантастика)
10 05 Еще один коротенький рассказ про возникновение зомби-апокалипсиса. Как говорится, благими намерениями вымощена дорога в ад, и научные открытия всегда несут в себе свою долю опасностей. Читать интересно. Оценка: неплохо
udrees про Вейр: Яйцо [The Egg ru] (Научная фантастика)
10 05 Коротенький рассказик со своей концепцией о жизни после смерти, смысле существования и Боге) мне понравилось. Оценка: неплохо
udrees про Емельянов: Первый игрок [litres] (Боевая фантастика, Фэнтези, Попаданцы)
10 05 Давно не читал такой книги, тем более в жанре литРПГ, попаданцев, чтобы сюжет был сильно усложнен внутренней борьбой и интригами. Сам автор метко написал об этом в одной главе: «Очевидно, что каждый вокруг ведет свою игру, ……… Оценка: хорошо
Никос Костакис про Вязовский: Восход Красной Звезды [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
09 05 Мы первые, придумали снимать телевизионное сопровождение, для наших песен. Никто на Западе, такого не делает. ___________________ Кто может пояснить необходимость хотя бы одной запятой?
mysevra про Филатов: Про Федота-стрельца, удалого молодца [ёфицировано] (Юмористические стихи)
09 05 Ну, это уже классика. Что ни фраза, то шедевр. На все случаи жизни. Оценка: отлично!
mysevra про Прошкин: Смертники (Боевая фантастика)
09 05 О, да. Возможно, не канон, но это было замечательно. Обязательно прочту продолжение. Оценка: отлично!
mysevra про Уайт: Мост Дьявола (Полицейский детектив, Триллер, Детективы: прочее)
09 05 То ли это пресыщение, то ли плохо подано, но история вызывает скуку и недоумение. Любое убийство – бесспорно трагедия, но зачем об этом целую книгу писать, да ещё и так невыразительно? Оценка: плохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.