Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
aldan RE:Подайте бедному копеечку на книжку с литреса... 15 часов
sd RE:Доступ 27 15 часов kopak RE:Беженцы с Флибусты 2 дня Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 3 дня Isais RE:Семейственность в литературе 6 дней Isais RE:Древний Рим. Подборка книг 6 дней Саша из Киева RE:"Экс" и "нео": разноликие правые 1 неделя medved RE:Предупреждение: "зеркала" флибусты 2 недели Isais RE:Соседи 3 недели babajga RE:Как сова отправилась в отпуск 3 недели Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 месяц commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 2 месяца Саша из Киева RE:Книги на латышском языке 2 месяца stevecepera RE:Список современных французских писателей? 2 месяца etorus2008 RE:Отв: Помогите найти книгу по описанию 2 месяца Впечатления о книгах
дядя_Андрей про Дивов: Ночной смотрящий (Фэнтези)
20 07 Девочкам пензчке (пензючке?) aljasonja и ОмОмар (неизвестно откуда) не понравилось что, что кровососы не гламурные томно-бледные красавчеги, а вполне себе кровососы. Довольно нелицеприятные. Можно подумать они тащутся от ……… Оценка: отлично!
dolle про Иванов: Вегетация (Киберпанк, Постапокалипсис)
20 07 Отличная социальная фантастика в антураже роуд-муви с детективным налётом. Оценка: отлично!
mysevra про Престон: Золотой город [Thunderhead ru] (Приключения: прочее)
19 07 Очень интересно, совсем как в детстве – история о приключениях! Но, матерь котья, слишком неторопливо и размерено. Оценка: хорошо
mysevra про Бородин: Молниеносный Баязет (Историческая проза)
19 07 Редко когда получаешь такое удовольствие от чтения исторического романа - браво! всей трилогии. Оценка: отлично!
mysevra про Миронов: Двенадцатая дочь (Юмористическая фантастика, Фэнтези, Попаданцы)
19 07 На мой вкус, с сюжетом и фольклором всё штатно, а вот с юмором немного (много! много!) перебор. Оценка: неплохо
udrees про Вальтер: Симбиоз [СИ litres] (Боевая фантастика, Научная фантастика, Постапокалипсис, Самиздат, сетевая литература)
19 07 Книга конечно не для широкого чтения, написана в очень вульгарном стиле про похождения четверки полных отморозков – наркоманов, алкоголиков, шлюх, дегенератов – в мире пост-апокалипсиса. Но единственное они обладают сверх-способностями, ……… Оценка: неплохо
udrees про Циммер: Планета вирусов (Биология, Научпоп)
19 07 Может это особенность присущая вирусам или сама книга получилась такая, но мне больше понравилась книга Циммера про паразитов, там он развернулся достаточно широко. Про вирусов конечно он тоже в книге описал достаточно популярно ……… Оценка: хорошо
udrees про Циммер: Паразит – царь природы [Тайный мир самых опасных существ на Земле] [litres] (Медицина, Научная литература: прочее)
19 07 Очень познавательная книга про паразитов. При всем своем отвращении к этим животным, прочел книгу со смесью удовольствия и ужаса. В общем-то полезно было узнать про их роль в природе и их способности к выживанию. Была отсылка ……… Оценка: отлично!
udrees про Лей: Инвазия (Космическая фантастика, Самиздат, сетевая литература)
19 07 Интересные приключения наемника в космосе. Можете считать, что это тот же сюжет про Чужого или Чужих в космосе, где доблестный космодесантник вступает с ними в борьбу практически в одиночку. Так что сюжет понятен. Даже созвучно ……… Оценка: хорошо
udrees про @asya.knows: Неприглядная история. Как жили, любили и болели в разные эпохи [litres] (История, Медицина)
19 07 высер это просто. Проходная книжонка, написанная наверное по вольным переводам других книг или источникам, надерганным как попало из интернета или других похожих книг, и периодических изданий. Посвящена в основном жизни ……… Оценка: плохо
udrees про Вальтер: Жажда. Max Pro [СИ] (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
19 07 Повествование продолжается от лица «сына» Морзе – Макса. Стиль сохраняется все тот же. Интриги все так же плетутся вокруг него, добавляется новых забот. Разговоры тоже описаны максимально просто, сленг дворовый у всех поголовно ……… Оценка: хорошо
udrees про Вальтер: Жажда. Max [СИ] (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
19 07 Автор решил видимо поменять героев в серии. Если первые три книги героем был Морзе, ставший главнокомандующим, то теперь в 4-й книге повествование уже идет от лица его «сына» Макса, который занят его поисками. Всю книгу он ……… Оценка: хорошо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".
Отв: Типичные ошибки распознавания - собираем статистику ...
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");
Отв: Типичные ошибки распознавания - собираем статистику ...
Понял. Прикольно. )))
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо! :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!
Отв: Типичные ошибки распознавания - собираем статистику ...
А какие именно, не могли бы подсказать? ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки
Отв: Типичные ошибки распознавания - собираем статистику ...
Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, TaKir!
Отв: Типичные ошибки распознавания - собираем статистику ...
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
То-есть вставляет пробел между последней буквой и тире
Так, что наверное вы просто ошиблись ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?
Отв: Типичные ошибки распознавания - собираем статистику ...
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?
Отв: Типичные ошибки распознавания - собираем статистику ...
< p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p>
< p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p>
Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.
Отв: Типичные ошибки распознавания - собираем статистику ...
И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((
Отв: Типичные ошибки распознавания - собираем статистику ...
Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Какие исходники? Дока после ФР?
Отв: Типичные ошибки распознавания - собираем статистику ...
его самого, если сохранились, конечно.
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.
http://www.multiupload.com/TPF5MG47VW
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad
Отв: Типичные ошибки распознавания - собираем статистику ...
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).
Отв: Типичные ошибки распознавания - собираем статистику ...
Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение
Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом
Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ
Отв: Типичные ошибки распознавания - собираем статистику ...
По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.
Отв: Типичные ошибки распознавания - собираем статистику ...
Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Твои варианты лечатся банальной генуборкой и данным скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/
Страницы