Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
logusss RE:Прошу переформатировать, распознать, etc... 7 часов
нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 день akorish RE:Регистрация 1 неделя Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя konst1 RE:Ух, как я не люблю спамеров! 1 неделя tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах
akorish про Роман Юрьевич Прокофьев
12 05 Стеллар оставил положительные чувства, хотя последняя книга была нудноватой лично для меня. Но это не отменяет, того, что время потрачено не зря.
akorish про Прокофьев: Архив Стеллара (Фантастика: прочее, Самиздат, сетевая литература)
12 05 Ну такое, как сноски почитать. Мне было уже не интересно. Оценка: неплохо
akorish про Прокофьев: Прометей [СИ] (Боевая фантастика, Героическая фантастика, Постапокалипсис, ЛитРПГ, Самиздат, сетевая литература)
12 05 Самопожертвование, и отвага, нудновато, но дочитано. Думаю, что эта книга была уже лишней, много затянутого. Сария стоящая, почитайте. Оценка: хорошо
akorish про Прокофьев: Сфирот [СИ] (Героическая фантастика, Фантастика: прочее, ЛитРПГ, Самиздат, сетевая литература)
12 05 Переносимся в космос, все еще интересно? Ну тако-то да, но уже нудновато.
akorish про Прокофьев: Эфемер [СИ] (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
12 05 Даат - как бы и нельзя договариваться, но и не договариваться нельзя ))) Что же за Дар? Сыр в мышеловке.
akorish про Прокофьев: Легат [СИ] (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
12 05 Оценка все еще Хорошо! Не так интересно как 1я и 2я, но еще интересно, новые союзники и новые враги. Читаем дальше. Оценка: хорошо
akorish про Прокофьев: Архонт [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
12 05 Неожиданно интересно, новый уровень и новый замут. Читаем дальше.
akorish про Прокофьев: Мятежник [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
12 05 Мысль такая, идет прокачка персонажа, уже не так захватывает, как предыдущие, но читается на интересе.
akorish про Прокофьев: Заклинатель [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
12 05 3я книга сдает позиции по отношению к предыдущим, но читать не надоедает. Оценка: хорошо
akorish про Прокофьев: Трибут [СИ] (Боевая фантастика, Героическая фантастика, Постапокалипсис, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
12 05 Вторая книга не подкачала, легкое чтиво на сон грядущий. Хоть немного и не дотянула до первой, но читать стоит. Оценка: отлично!
akorish про Прокофьев: Инкарнатор [СИ] (ЛитРПГ, Самиздат, сетевая литература)
12 05 Первая книга залетела на ура! Прочитал как новый жанр, как игра в тексте. Ждал последующие книги. Однозначно рекомендую. Оценка: отлично!
akorish про Джордж Оруэлл
12 05 1984 лучший перевод - это Леонид Бершидский. Сильная книга в отличном современном переводе. Почему так легко читается по сравнению с другими переводчиками? Да по тому, что современно адаптировано. Очень рекомендую именно в его переводе. |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Сайт группы по улучшению ФБЕ http://groups.google.com/group/fiction-book-editor
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Раньше пробовал его подключать на кнопку в панели инструментов - у меня почему-то пропали все подсказки в нижней области окна... - это я один такой не счастливый? Да, Вы забыли сказать - чтоб поместить любой скрипт в панель инструментов - нужно создать иконку с именем скрипта и поместить ее рядом со скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Насчёт иконки - вы правы, это нужно подчеркнуть.
Но скрипт можно и "подвесить" на hotkey. Я с этим именно так и сделала. Подсказки слева внизу - ОК.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ну на многие скрипты есть штатные иконки, но таки да.
я пользуюсь версией ФБЕ 2.5 (2.6 у меня на ХР почему-то дико тормозит) А фича подсказки внизу экрана предусмотрена, ЕМНИП, только начиная с 2.6. Но я как-то привык уже без подсказок обходится )))
УПД. На кнопку в панели инструментов или панели скриптов?
Отв: Типичные ошибки распознавания - собираем статистику ...
Ошибся, да ставил на панель скриптов.
Так на работе стоит FBE 2.6 (Win XP) и если помещаю на панель, то подсказки пропадают... да ладно, эт не существенно.
Дома вынужден пользоваться FBE 2.5, т.к. в FBE 2.6 были проблемы с сохранением.
А на панель инструментов можно добавить допустим "Сохранить как" и "Заменить"?
Панель для редактирования доступна, но слева пусто...
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет. В перечне доступных их нет.
Но снова рекомендую Вам "горячие клавиши". Тем более, что для "заменить" есть уже по дефолту - Ctrl+H.
Для "Сохранить как..." тоже есть, но я, например, изменила на удобную для себя комбинацию.
Кстати, все комбинации можно увидеть рядом с пунктами меню. А изменить их можно, как уже писал Wotti, через "Сервис -- Настройки -- Клавиши". Там есть и "навигация", и "просмотр", и "редактировать".
Отв: Типичные ошибки распознавания - собираем статистику ...
golma1 Про комбинации клавиш в курсе, хоть я и старой закалки, мышка меня разбаловала ;) А что мешает увеличить список доступных команд в следующей версии?.. но это так, мысли вслух.
Отв: Типичные ошибки распознавания - собираем статистику ...
К сожалению SeNS очень занят в реале и развитие ФБЕ остановилось на v2.6. Улучшения сейчас происходят за счёт новых скриптов Sclex-а (и модернизации старых скриптов) и большой работы по наполнению и улучшению функции проверки орфографии, которую проводит Shaman.
Но задумки по улучшению самой программы, его функционала - есть. SeNS обещал, как минимум, сделать панель работы с иллюстрациями.
Как он сам сказал - Так что, еще раз: *пробуем найти программиста!*
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Ясно. Жаль, а ведь как все начиналось...
TaKir А когда будет готова Ваша версия скрипта "Поиск по набору регэкспов"? Спрашиваю не из праздного любопытства - собираю книжную серию и прогоняю скриптами...
Отв: Типичные ошибки распознавания - собираем статистику ...
А там Выше Roxana выложила - это и есть сборка всего появившегося в последнее время на основе регэкспов Такира.
Отв: Типичные ошибки распознавания - собираем статистику ...
golma1 Так это версия не от Такира, а от Roxana, а я спрашиваю Такира, где можно скачать его последнюю версию после "Скрипт__TaKir_24_01_2011.zip", если она есть конечно...
Отв: Типичные ошибки распознавания - собираем статистику ...
Хэх... Даже не знаю, что Вам ответить. В-)
Ну да ладно, Такир сам ответит, если сочтёт нужным. ;-)
Отв: Типичные ошибки распознавания - собираем статистику ...
Дело в том, что Такир и сделал этот блог, для возможности обсуждения и добавления скрипта.
Этот скрипт, ув отличии от остальных - имеет возможность индивидуальной настройки.
Версия Такира входит в первоначально выложенную версию скрипта. Она минимальна и послужила основой этой темы, обсуждения и добавления . Т/е версия Роксаны, Голмы, wotti, и др. являются просто расширенной версией Такира. Для некоторых книг, в зависимости от особенностей я добавляю пару строчек, для других - закрываю слэшами пару-тройку ненужных в данной книге регэспов.
в общем этот скрипт может меняться не только у каждого юзера, но и у каждого файла. Скрипт Такира - базовый. Остальное - надстройки.
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Все это понятно и я не спорю - у каждого пользователя свои настройки... Просто хотелось начать плясать от "расписной" печки, а не от "буржуйки". Вы можете выложить свои настройки?
Отв: Типичные ошибки распознавания - собираем статистику ...
Они у меня без пояснений, так как у меня стоит 2.5-версия в которой они не показываются, а выкладывать их я не планировал.
Вы скажите какие именно вам нужны регеспы и, многие из отметившихся здесь, с удовольствием вам помогут их написать. А как вставить их в свой скрипт я уже описал))
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще в копилку:
иди -> или
узе -> уж
пули -> пути
гам -> там
далее -> даже
Отв: Типичные ошибки распознавания - собираем статистику ...
фация - грация
узе -> уж
- отлично, можно сразу вставлять:
tagRegExp("(?<![а-яё])фация(?![а-яё])","i","Найдено: слово "фация" ("грация" с опечаткой).");tagRegExp("(?<![а-яё])узе(?![а-яё])","i","Найдено: слово "узе" ("уж" с опечаткой).");гам -> там тоже неплохо ( с некоторым допуском на ложные срабатывания)
tagRegExp("(?<![а-яё])гам(?![а-яё])","i","Найдено: слово "гам" ("там" с опечаткой).");А вот
далее -> даже
пули -> пути
имхо создадут кучу холостых выстрелов)))
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласна, но это как раз те случаи, которые можно отключать в зависимости от книги.
Отв: Типичные ошибки распознавания - собираем статистику ...
wotti Пояснения не актуально для меня - главное сочетания символов... - выложите, а там я разберусь и допишу подсказки... ;) Есть задумка свести данный топик воедино (может у Вас есть еще что добавить) и выложить здесь - для использования желающими...
Может кто в курсе - как реализовать поиск "... Слово" в начале параграфа?
(многоточие пробел Слово)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я обычно ищу в режиме source, без регэкспов:
"<p>... "Отв: Типичные ошибки распознавания - собираем статистику ...
RegExp
addRegExp("^[…] [а-я]","i","Найдено:многоточие в начале строки");Отв: Типичные ошибки распознавания - собираем статистику ...
s_Sergius Если их много, да лучше удалить их все с помощью "Поиск и замена" в текстовом режиме... Но зачастую таких косяков очень мало, как и авторов любящих начинать абзац с многоточия. И часто я просто забываю проверить многоточие в начале абзаца.
golma1 Спасибо, завтра попробую подключить эту напоминалку...
Отв: Типичные ошибки распознавания - собираем статистику ...
В первой же книге нашел много ошибок, оказывается мало кто проверяет знаки препинания:
[collapsed title=открыть]
addRegExp("[!?.,:;][…]","i","Найдено:троеточие после знаков препинания...");
addRegExp("[.,:;][,]","i","Найдено:возможно ошибка синтаксиса");
addRegExp("[,:;][.]","i","Найдено:возможно ошибка синтаксиса");
addRegExp("[а-яё!-?»] […]","i","Найдено:троеточие пытается убежать");
addRegExp("[…][!-?]","i","Найдено:знаки препинания... после троеточия");
addRegExp("[а-яё] но ","i","Найдено: НО после слова без запятой, либо нужно ПО");
[/collapsed]
Поправьте, если что не правильно, или можно что еще добавить...
Еще в скрипт от Roxana можно добавить:
[collapsed title=открыть]
tagRegExp("(?<![а-яё])тою(?![а-яё])","i","Найдено: слово "тою" ("того" с опечаткой).","",1);tagRegExp("(?<![а-яё])го(?![а-яё])","i","Найдено: слово "го" ("по или то" с опечаткой).","",1);tagRegExp("(?<![а-яё])ои(?![а-яё])","i","Найдено: слово "ои" ("он" с опечаткой).","",1);[/collapsed]
Отв: Типичные ошибки распознавания - собираем статистику ...
"гобой" --> "тобой"
tagRegExp("(?<![а-яё])гобой(?![а-яё])","i","Найдено: слово "гобой" ("тобой" с опечаткой).","",1);Из "найдено буквы в пробелах" убрала "б" - слишком часто встречается в тексте.
addRegExp("[\\x20\\xA0\\t\\n\\r\\f][г,д,е,ё,з,й,л,м,н,п,р,т,ф,х,ц,ч,ш,щ,ъ,ы,ь,э,ю][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено:буквы в пробелах");Отв: Типичные ошибки распознавания - собираем статистику ...
"Б" действительно часто находилось, я как раз сегодня это обнаружил. Только запятые в регэкспе не нужны (а то будет находить запятую наравне с буквами), лучше просто:
addRegExp("[\\x20\\xA0\\t\\n\\r\\f][гдеёзйлмнпртфхцчшщъыьэю][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква между пробелами");
Отв: Типичные ошибки распознавания - собираем статистику ...
Ага, спасибо. :)
Отв: Типичные ошибки распознавания - собираем статистику ...
А чего он не ищет всякие "ххх- " (слово+дефис+пробел)?
Отв: Типичные ошибки распознавания - собираем статистику ...
??? У меня прекрасно ищет:
Отв: Типичные ошибки распознавания - собираем статистику ...
После OCR вместо И, П и Н часто появляется II. Записал в виде:
tagRegExp("(?![а-яё])II(?![а-яё])","i","Найдено: слово \"II\" (\"И\" с опечаткой).");
Правильно? Или возможен другой вариант?
Между знаками ? и ! должен стоять символ "<". Я убрал его, т.к. иначе строка не отображалась полностью. Почему-то.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вообще-то это должно искаться другими регеспами
Отв: Типичные ошибки распознавания - собираем статистику ...
Ищется, когда имеется смесь латиницы с кириллицей. А если отдельно стоящий союз "И" - нет.
Отв: Типичные ошибки распознавания - собираем статистику ...
11 → Н
Отв: Типичные ошибки распознавания - собираем статистику ...
Поиск слов с двумя дефисами типа: как-ни-будь
tagRegExp("([a-zа-яё]-[a-zа-яё]*?-[a-zа-яё])","i","Найдено: слово в двумя дефисами).","",1);
у меня частенько заглавная буква \Л\ превращается в \JI\ (особенно в инициалах):
tagRegExp("(?<%![a-zа-яё])JI(?![a-zа-яё])","i","Найдено: \"JI\" (\"Л\" с опечаткой).");
УБРАТЬ ЗНАК %
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо, очень полезные добавления.
Отв: Типичные ошибки распознавания - собираем статистику ...
Могу предложить для поиска слов с двумя дефисами и замены вот такой отдельный регесп:
([a-zа-яё])-([a-zа-яё]*?)-
в поле замены:
$1$2
Но нужно проверять - замена убирает дефисы вообще, так, что "ЗАМЕНИТЬ ВСЁ" здесь не пройдёт. Но мне удобно :))
Отв: Типичные ошибки распознавания - собираем статистику ...
А почему так сложно? И "i", по-моему, тут лишнее. Мы же только о верхнем регистре говорим, или?
У меня
tagRegExp("(JI)","","Найдено: ,буквы "JI" (возможно, Л).","",1);тоже работает.
Я что-то упустила?
Отв: Типичные ошибки распознавания - собираем статистику ...
Ты права
Наверное нужно таки вставить впереди кириллицу и пробел
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, пробел не надо, а то в начале строки не выловит. Или?
А если кириллица, то сработает регэксп на "смесь кириллицы и латиницы".
Отв: Типичные ошибки распознавания - собираем статистику ...
Дело в том. что этот косяк у меня проявляется ТОЛЬКО в начале слова или в инициалах
Да бог с ним - я бывает и просто заменой меняю, если латинского нет в тексте
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу, у меня тоже. Я именно для инициалов сделала. Но инициалы бывают и в начале строки. ;)
Отв: Типичные ошибки распознавания - собираем статистику ...
Заметил что в ФР11 при сохранении в ФИ2 картинки часто оформляются тегом table
А если картинок много - руками править не комфортно.
в режиме кода сделать масс-замену регеспом
найти:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)заменить на: ( ничего)
Удобно когда изображений много и идут блоками. как в сериях ЖЗЛ или в "Повседневная жизнь"
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А то я их каждую массовой заменой удаляла. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А то я их каждую массовой заменой удаляла. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Cгорел комп и "всё, шо нажито непосильным трудом, — всё погибло"(с).
Программки нужные уже установил, но не хватает актуальных скриптов. Поделитесь, пожалуйста.
Отв: Типичные ошибки распознавания - собираем статистику ...
Поиск по набору регэкспов
http://minus.com/m74y1WFI0
Отв: Типичные ошибки распознавания - собираем статистику ...
Скачалось - «Ярлык для 17_Поиск по набору регэкспов.lnk» - 943 байт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри ступил:
http://www.multiupload.com/L2KTM7AE47
Отв: Типичные ошибки распознавания - собираем статистику ...
таки да. не скрипты это.
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Перестал работать скрипт "Латиница в Кириллице". Подскажите в чем может быть проблема, плз.
Страницы