Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Прошу переформатировать, распознать, etc... 3 дня
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 неделя konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 неделя fixel RE:Пропал абонемент 1 неделя sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 3 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 4 недели sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:абонемент не обновлен 2 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 2 месяца sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 месяца Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца tvv RE:DNS 2 месяца Впечатления о книгах
udrees про Даймонд: Почему нам так нравится секс [Why Is Sex Fun? The Evolution of Human Sexuality ru] (Эротика, Секс, Научпоп, Секс и семейная психология)
28 03 Небольшая научно-популярная книга про проблемы размножения, сексуальности у людей и животных. Читать интересно, автор описывает странности поведения в этой области, почему люди связаны с животными и в то же время так сильно ……… Оценка: хорошо
udrees про Каку: Будущее человечества. Колонизация Марса, путешествия к звездам и обретение бессмертия [The Future of Humanity. Terraforming Mars, Interstellar Travel, Immortality, and Our Destiny Beyond Earth ru] (Философия, Астрономия и Космос)
28 03 Рекомендую прочитать эту книгу всем любителям астрономии, квантовой физики, кто еще мечтает о космических путешествиях, колонизации других планет, и даже рассуждает о будущей смерти Вселенной. Книга написана простым и доступным ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 12 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
28 03 Опять глупая детская сказка про прожигающего свою жизнь телепата, который сожительствует с 4-мя женами, богатеет каждую секунду и постоянно истребляет всех своих врагов. Как ни странно, любое появление этого типа на балу или ……… Оценка: неплохо
valeryma про Савицкий: Идеальный танк для «попаданцев» (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
27 03 Очередной поток бессознательного от знаменитого на весь жанр альтернативной истории ресурса "В вихре говна". Редкостное убожество, которому до шедевров Поселягина - как до Луны пешком. Оценка: нечитаемо
Barbud про Шопперт: Польская карта [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
25 03 Автора отличает какая-то лютая, пещерная полонофобия. Создается впечатление, что над ним в детстве-юности поляки надругались, вот он теперь и мстит им всем таким образом) Оценка: нечитаемо
Александр Лагода про Амлинский: Тучи над городом встали (Советская классическая проза)
24 03 В числе того, что следует прочесть из военной прозы -- эта повесть. Читая, дышите глубже.
nik_ol про Полякова: Племя Майи (Детективы: прочее)
24 03 На Флибусте уже давно лежит новая книга, а тут почему нет? Правда, я уже прочитала, и рада, что дело Татьяны продолжает Анна, люблю Полякову и очень оггорчилась, когда та скончалась. Оценка: отлично!
mysevra про Нэйлер: Гора в море [litres] (Научная фантастика)
23 03 Как по мне, маловато триллера и слишком много размышлений о природе сознания и экологии. Вот всё то же самое, только поживее – было бы интереснее. Оценка: неплохо
mysevra про Карризи: Воспитание бабочек [L'educazione delle farfalle ru] (Триллер, Детективы: прочее)
23 03 Пока всё, что читала у этого автора, на уровне. Замечательный полёт фантазии и умение плести интригу. Оценка: отлично!
mysevra про Иванов: Вегетация (Киберпанк, Постапокалипсис)
23 03 Приятный язык, и события присутствуют. Но до чего же унылый и угнетающий мир описан в книге. Конечно же, понравилось, но хотелось бы больше драйва и лёгкости. Оценка: отлично!
udrees про Джадсон: Каждой твари – по паре: Секс ради выживания (Биология, Научпоп)
21 03 Очень интересная научно-популярная книга, давно такой не читал, посвященная теме размножения и секса в дикой природе. Написана в живом и юморном стиле, в каждой главе начало показано как обращение какого-нибудь живого существа ……… Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня на памяти только 3 часто встречающихся варианта с "ф":
фоб -гроб
неф - негр
фаната - граната
Отв: Типичные ошибки распознавания - собираем статистику ...
фазу - сразу
Отв: Типичные ошибки распознавания - собираем статистику ...
А если рядом получаются Ь или Ы и любая специфическая буква кириллицы - то тоже крах. : типа -ьф, -шь, -ьш, итд..
Отв: Типичные ошибки распознавания - собираем статистику ...
угу, бьш и бьша у меня просто фавориты из последнего скана.... (был и была)
Отв: Типичные ошибки распознавания - собираем статистику ...
Самая безнадега в распознавании дореформенной орфографии. А Файны всё хвалятся...
Отв: Типичные ошибки распознавания - собираем статистику ...
Как раз сейчас делаю книжку с дореформенной орфографией. Ошибок не больше, чем при обычном скане. Все ошибки типичны и исправляются обычным "Изменить на...".
Отв: Типичные ошибки распознавания - собираем статистику ...
Вам повезло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не сказал бы, что все так страшно. Дореформенные книги FR9 распознаются вполне на уровне. Яти, фиты, еры и прочее распознаются на ура.
С дореформенными сложность скорее возникает в правке орфографии. Впрочем от скрипта чистящего старую орфографию я бы тоже не отказался бы.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипту совершенно по барабану правила любого языка. Что напишут - то и будет искать
Так что набрасывайте примеров косяков из старой орфографии и пользуйтесь )
Отв: Типичные ошибки распознавания - собираем статистику ...
есть такакая прога ocr pad
статистика там большая вроде
но как её взять не знаю
Отв: Типичные ошибки распознавания - собираем статистику ...
. 1/1 -> . И
Отв: Типичные ошибки распознавания - собираем статистику ...
пропустил своп, (хотя это свои) пропустил па (на) , пропустил слово просплп ( просили)
малень– кой ( маленькой) Поляиовке ( Поляновке ) Дем?нтий (Дементий) M це иске ( Mценске ) поляновски? (поляновские) до– черьми (дочерьми) Лйя (Лия) втот (этот) втот (этот) ваписка (записка) втот (этот) стоа (стон ) Ht (ж) їдейственная (единственная) обрывкн (обрывки) маркиэка (маркизка)
Отв: Типичные ошибки распознавания - собираем статистику ...
В каждой книжке есть свои заморочки.
"Малень- кой", "до- черьми" - не распознан знак переноса.
"Дем?нтий" - скорей всего буква вместо вопросительного знака стояла под ударением.
Надо ли всё это включать в общий скрипт?
Отв: Типичные ошибки распознавания - собираем статистику ...
Стоит включить "- ".
"?" в середине слова ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
"- " вроде тоже ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Часто встречаю: "ведено" вместо "велено", "юнкере" вместо "юнкерс" (второй, вероятно, родственник "Тайме").
Отв: Типичные ошибки распознавания - собираем статистику ...
Внесены добавки в скрипт, согласно многим вашим комментам...
На всякий случай уточняю, что скрипт только ищет подозрительные места, и ничего автоматом не заменяет, во избежание...
Любую строчку можно поправить или отключить, (стерев полностью или закомментировав ее с помощью // )
Не получается запостить корректно все строки скрипта, поэтому просто дам ссылку на обновленную версию:
http://narod.ru/disk/3209760001/Poisk_po_naboru_regexpov_TaKir_2_6.rar.html
Если какие-то еще явные косяки кто вспомнит-придумает - прошу отзываться.
Также прошу комментировать неправильную работу поиска, если такая проявится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сегодня опять "дошлифовала" твоим скриптом новый файл. И это снова повод сказать - огромное спасибо.

Твой скрипт вошёл в число обязательных.
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь. Прицепил этот скрипт на F4. Теперь это одна из «любимых» клавиш.
Отв: Типичные ошибки распознавания - собираем статистику ...
Решил попробовать...
Сразу же несколько вопросов:
Скрипт действует только до первого сомнительного места? Чтобы продолжать, его надо снова включать?
Застрял на слове "хозяин". Сочетание "яи" оказалось слишком частым, и меня это стало раздражать.
Почему-то скрипт останавливается на кавычках - «. Они что, тоже записаны в сомнительные символы?
Частица "б" в текстах используется часто. Надо ли ее включать в скрипт?
А вот что еще можно включить, так это однобуквенные предлоги и частицы с последующей запятой, типа: "в," "б," "о,".
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоже показывает только «, яи и ). Щелкаю минут пять уже и ничего пока другого. :)
Чуть позже:
Находит, кое что, все-таки. Можно пользоваться.:)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я пользуюсь предыдущей версией. Никаких "яи" и прочего упомянутого не заметила.
Может, дело в этом?
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласен, остановки на словах типа «хозяин» несколько раздражают, но никто ведь не мешает убрать из скрипта соответствующую строчку.
А вот если бы он еще и обучался по ходу дела, вообще бы цены не было.
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипте надо поправить соответствующие строки:
1) чтобы не искало кавычку в начале строки, строку:
addRegExp("^[\]».,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
заменить на:
addRegExp("^[-\\]».,:;!\?·)(]","","Найдено:знаки препинания в начале строки");
2) поправить "хозяина", чтобы не мешал ))
tagRegExp("(яи)[а-м,о-я]","i","Найдено: часть слова \"яи\" (\"ян\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Чтобы не экранировать кавычки (т.е. не ставить рядом с ними слэш), можно снаружи аргумента функции написать одинарные кавычки:
tagRegExp("(?<![а-яё])ке(?![а-яё])","i",'Найдено: слово "ке" ("не" с опечаткой).');
Так исходник скрипта, наверное, будет читаться приятней.
Отв: Типичные ошибки распознавания - собираем статистику ...
Sclex:
Ага, спасибо!
А как все же задать начало или конец слова при поиске в ФБЕ?
стандартные варианты типа >, <, \b что-то не хотят у меня работать...
Отв: Типичные ошибки распознавания - собираем статистику ...
\b работает, но только для английских букв. Ничего лучше, чем (?<![а-яёa-z]), предложить не могу.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Где можно взять Ваш скрипт? И как его использовать? Извините, я с такими вещами не сталкивался и проверял проверкой правописания.
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще ФР часто разрывает аббревиатуры типа "ССС Р"
Отв: Типичные ошибки распознавания - собираем статистику ...
В последнее время книжках в трех с обилием курсива массово встречалось распознавание "рк" вместо "уж"...
Не придумал, как массово контролировать.:(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отличный скрипт! Сам все собирался написать что-то вроде этого, но...
TaKir-у респектище!!! Человек-гигант!
По скрипту: я себе добавил еще вот это:
tagRegExp("(?<![а-яё])мыс(?![а-яё])","i","Найдено: слово \"мыс\" (\"мы с\" с опечаткой).");
tagRegExp("(?<![а-яё])ноты(?![а-яё])","i","Найдено: слово \"ноты\" (\"но ты\" с опечаткой).");
tagRegExp("(?<![а-яё])нотам(?![а-яё])","i","Найдено: слово \"нотам\" (\"но там\" с опечаткой).");
tagRegExp("(?<![а-яё])ода(?![а-яё])","i","Найдено: слово \"ода\" (\"о да\" с опечаткой).");
tagRegExp("(?<![а-яё])яс(?![а-яё])","i","Найдено: слово \"яс\" (\"я с\" с опечаткой).");
tagRegExp("(?<![а-яё])яв(?![а-яё])","i","Найдено: слово \"яв\" (\"я в\" с опечаткой).");
tagRegExp("(?<![а-яё])атак(?![а-яё])","i","Найдено: слово \"атак\" (\"а так\" с опечаткой).");
tagRegExp("(?<![а-яё])итак(?![а-яё])","i","Найдено: слово \"итак\" (\"и так\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё])гак(?![а-яё])","i","Найдено: слово \"гак\" (\"так\" с опечаткой).");
tagRegExp("(?<![а-яё])гут(?![а-яё])","i","Найдено: слово \"гут\" (\"тут\" с опечаткой).");
tagRegExp("(?<![а-яё])тог(?![а-яё])","i","Найдено: слово \"тог\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])гот(?![а-яё])","i","Найдено: слово \"гот\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])еше(?![а-яё])","i","Найдено: слово \"еше\" (\"еще\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Обычно прилипшие тире чистятся скриптом "генуборка", но не все варианты (спасибо shokons за подсказку).
Добавка в скрипт "Поиск по набору регэкспов", автор Sclex для тех случаев, которые генуборка не исправляет:
прилипшие тире:
addRegExp("[A-Za-zА-яЁё][—]","","Найдено: прилипшее тире в конце и середине слова");
addRegExp("[—][A-Za-zА-яЁё]","","Найдено: прилипшее тире в начале и середине слова");
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно.
Грецию -> Грешно
Польши -> Полыни
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно - это только у меня при OCR окончание сти превращется в трейд марк на конце - вместо "сущности" получаем "сущностм
а что есть за tagRegExp? Это в каком редакторе? Я пользуюсь FBE 2.6
Отв: Типичные ошибки распознавания - собираем статистику ...
Я думаю, что это скорее всего, сущности
У меня тоже бывает, когда некоторые буквы распознаются как будто бы они были в верхнем индексе, хотя на самом деле на скане ничего подобного не было. Возможно, тут виноват перекос скана.(Сканировщик сканировал страницу под углом, который FR не смог распознать). Иногда из-за перекоса текст становится курсивным.
Отв: Типичные ошибки распознавания - собираем статистику ...
В принципе можно добавить
tagRegExp("[а-яёa-z]< sup>[а-яёa-z]+?< /sup>|< sup>[а-яёa-z]+?< /sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]< sup>[а-яё]+?< /sup>|< sup>[а-яё]+?< /sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("< sup>[а-яёa-z]+?< /sup>[а-яёa-z]|[а-яёa-z]< sup>[а-яёa-z]+?< /sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< sub>[а-яёa-z]+?< /sub>|< sub>[а-яёa-z]+?< /sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]< sub>[а-яё]+?< /sub>|< sub>[а-яё]+?< /sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("< sub>[а-яёa-z]+?< /sub>[а-яёa-z]|[а-яёa-z]< sub>[а-яёa-z]+?< /sub>","","Найдено: нижний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< strong>[а-яёa-z]+?< /strong>|< strong>[а-яёa-z]+?< /strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]< strong>[а-яё]+?< /strong>|< strong>[а-яё]+?< /strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("< strong>[а-яёa-z]+?< /strong>[а-яёa-z]|[а-яёa-z]< strong>[а-яёa-z]+?< /strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("(ыи)","i","Найдено: часть слова \"ыи\" (\"ьш\" с опечаткой).");
--------------------------------
Вот только не знаю - будет ли скрипт тормозить из-за увеличения кол-ва выражений?
Я себе поставил - вроде изменения скорости визуально не заметил, а специально мерить неохота )))
Кстати - по поводу тире.
А где-нибудь нужно, чтобы тире "прилипало" к слову? (текст— текст )
Если нет ( а я так и не вспомнил - где нужно ) то можно регеспом массово: (текст — текст )
([а-яё\d"».,)])([—])(\s)
в замену: $1 — $3
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет это именн превращение в тм!
оставлености получилось оставленное™
захваченности получилось захваченное™
Отв: Типичные ошибки распознавания - собираем статистику ...
Неоднократно тоже встречал такое в ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
А где теперь дополнение? У меня поход по ссылека приводит к
SearchWithRegexpSet_v21.rar (3.2 КБ)
Файл удален.
Отв: Типичные ошибки распознавания - собираем статистику ...
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384/e200b7b6f319c4c8
Актуальная на сегодня версия - 2.7.
Скрипт "Поиск по набору регэкспов v2.7":
Скачать:
http://rghost.ru/3955874
или
http://scripts.fictionbook.org/files/SearchWithRegexpSet_v27.rar
Напоминаю, что исходный скрипт не содержит поисковых строк. Их надо скопировать из старой версии, которой вы сейчас пользуетесь и закомментарить следующую строку:
addRegExp("","i","Задайте список регэкспов, отредактировав скрипт в текстовом редакторе (кодировка UTF-8). Инструкция – в скрипте.");
Ускорена работа скрипта.
Теперь у функций addRegExp и tagRegExp появился пятый параметр:
ограничение на длину строки, которую могут находить конструкции просмотра назад, т.е. (?<= ...) и (?
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, почему-то не отражаются теги. Поставлю пробел после угловой скобки
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это мой вариант ( со всеми здешними дополнениями) http://ifolder.ru/upload/?session=e304e600145a5b151f77b967e9ab7b2a
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо..
Страницы