Вы здесьМетаграммы
Опубликовано пн, 10/09/2012 - 03:04 пользователем golma1
Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет. А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? Примеры: "грех - трех", "свечка - овечка", "липа - лица".
Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют). К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 5 дней
Nicout RE:Прошу переформатировать, распознать, etc... 2 недели akorish RE:Регистрация 3 недели Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 3 недели konst1 RE:Ух, как я не люблю спамеров! 4 недели tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 2 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 месяца fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 3 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 4 месяца tvv RE:faq brainstorm =) 4 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 4 месяца Впечатления о книгах
Анни-Мари про Нельсон: Нетрадиционная медицина (Фэнтези, Самиздат, сетевая литература)
27 05 Можно сколько угодно твердить, что главный герой мужчина, но поверить в это все равно не получается.
Larisa_F про Ткаченко: Зимняя сказка и другие новогодние истории (Сказка)
27 05 http://lib.rus.ec/b/815953 - здесь все страницы
virtcatty про Горъ: Ухорез - 3 (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
27 05 Для tvv: Перейди на Флибу прямо сейчас, там есть и без картинок.
francuzik про Яманов: Питбуль и Митрофанушка [СИ] (Боевая фантастика, Фэнтези, Современная проза, Попаданцы, Самиздат, сетевая литература)
25 05 На удивление хорошая книга. Не ожидал даже. Оценка: хорошо
Barbud про Смолин: Дело №1979 (Альтернативная история, Детективы: прочее, Самиздат, сетевая литература)
24 05 Начал читать, через несколько минут закралось нехорошее подозрение, что этот стиль мне знаком, и называется он "нейросетевое творчество". Что-то сразу выдает - то ли короткие рубленые предложения, то ли повторы идентичных ………
Dead_Space про Гэддис: Распознавания (Классическая проза, Историческая проза)
24 05 Огромное спасибо, давно ждал, только вчера проверял на флибусте наличие, а её оказывается тут выложили. Оценка: отлично!
mysevra про Сабин: Викка для начинающих. Основы философии и практики [Wicca for Beginners: Fundamentals of Philosophy & Practice ru] (Религия, Эзотерика)
24 05 На мой дилетантский взгляд, просто замечательно: чётко, ясно, по существу и без нагнетания эзотерической зауми. Кто заинтересовался, тот будет искать дальше. Оценка: отлично!
mysevra про Иванов: Вегетация (Киберпанк, Постапокалипсис)
24 05 Хорошо пишет, и идея отличная, почти злободневная. Но слишком тягостно-упадническое ощущение, безнадёжные персонажи (все эти бабёшки, работяги, озабоченные 20 летние пубертаты), беспросветная грязь и бытовой цинизм – знать ……… Оценка: неплохо
mysevra про Огнев: Тихое [litres] (Ужасы)
24 05 Дивная история! Это даже больше относится к жанру НФ. Оригинально, динамично, увлекательно, присутствует редкий зверь «обоснуй». Я буду фанатом этого автора. Оценка: отлично!
Lan2292 про Сухов: Реабилитант [СИ] (Боевая фантастика, Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
23 05 Очень понравилось, всем рекомендую. Оценка: отлично!
Sello про Филдинг: История приключений Джозефа Эндруса и его друга Абраама Адамса (Классическая проза)
21 05 Литература того времени: черное - это черное, белое - это белое, никаких оттенков. Если любовь - то возвышенная, если мошенник - так закоренелый негодяй. Обязательный, как календарь, счастливый конец для хороших людей. Для ………
Дей про Эльфийский бык
20 05 Вот вроде бы грамотно пишет автор, и занимательно, но из-за дичайшего изобилия троеточий кажется, будто все герои умственно неполноценные. Сколько ни берусь, не могу читать. |
Комментарии
Отв: Метаграммы
Я обработала почти 70%, но если Вы продвинулись дальше, то уступлю.
Отв: Метаграммы
А еще нужно учесть формы слова (падежи и т.п.), если очевидно, что ошибка будет "срабатывать" на всех или нескольких, то нужно добавлять и их.
Например, ворона - борона (нужно добавлять все падежи).
Врага - врата (только так, лишнего не надо).
Врата - брага (аналогично).
Врага - брага (здесь нужно перебрать падежи, на которых "сработает": враги - браги; враге - браге (-брате); врагу - брагу (-брату). Все перебрали, на других формах сработать не должно).
Отв: Метаграммы
Извините меня, ради Бога, я не знала, что вы делаете, иначе бы не стала браться. Очень сожалею, что так получилось. Я по алфавиту расставила, проверила в FBE орфографией и набором регэкспов, сейчас начала перебирать все падежные формы. После этого занятия с огромной, нет, с огромнейшей радостью отдам все в хорошие руки. Как вы решите. Если продвинулись дальше, или хотите сами сделать, я не буду настаивать. Могу выложить результаты, чтобы можно было сравнить.
Отв: Метаграммы
Я действительно очень сожалею, это неприятно, когда делаешь работу и кто-то переходит дорогу. Еще раз прошу прощения. Просто хотела побыстрее этот скрипт попробовать.
Отв: Метаграммы
Ничего страшного не произошло. Скорей я виновата, не известила о том, что начала делать. Но я придерживаюсь такого правила - не сообщать о недоделках.
Успехов Вам в работе.
Отв: Метаграммы
Тааак...
Не получится ли теперь, что никто теперь не будет делать? :(
Отв: Метаграммы
Я продолжаю. Но очень много вариантов. А нельзя по неизменяемой основе искать. Например, волевой - болевой, искать по — волев - болев. Без:
волевой - болевой
волевая - болевая
волевые - болевые
волевое - болевое
волевым - болевым
волевого - болевого
волевому - болевому
волевом - болевом
Если что, я не специалист и имею право на глупость :).
При перечислении всех вариантов количество слов увеличится в разы.
Отв: Метаграммы
Полагаю, что можно aka в словарях, типа:
волев~ - болев~
Авось, товарисчь, который возмётся варганить скрипт, с пониманием отнесётся к данной промблеме. :)
Отв: Метаграммы
Болдом выделены слова как они были предложены в теме. Курсивом выделена основа для поиска. Если все-таки нужно будет сделать все варианты, без проблем, только завтра.
Отв: Метаграммы
Водной - в одной
Водном - в одном (где там скрипт "слипшиеся слова" или как его там, может быть в подобных случаях он поможет?).
Отв: Метаграммы
Не, скрипт Слипшиеся слова ругнулся только на один случай отсутствия пробела перед дефисом, все остальное его устроило. И вообще я думала, что в скрипт будут входить только выловленные оригинальные "метаграммы", иначе бы тихо сидела себе в уголке. У меня вчера голова вспухла, я давно забыла, что такое спряжения, падежи и подобное.
Отв: Метаграммы
Ну вот это как раз реально выловленные:
Водной - в одной
Водном - в одном
и бороны - вороны тоже...
Отв: Метаграммы
Класс! Спасибо большое.
Уведомлю нашего уважаемого скриптописальщика. ;)
Отв: Метаграммы
Я подумала, может быть, зная, на каких буквах спотыкается FR, пособирать теоретически возможные случаи. Разумеется, не впадая в крайность. Например:
калан - калач
капитель - канитель
казак - казан
кадета - надета
кабак - кабан
платью - платно
лестью - лестно
голой - юлой
рыбкой - рыбной
Любимая FR замена буквы с на е в конце слова вполне может сработать в слове каперс — капере.
Или это лишнее?
Отв: Метаграммы
На мой взгляд, отличная идея. :)
Отв: Метаграммы
Тогда я сначала выложу варианты сюда, если возражений не будет, внесу в список.
Отв: Метаграммы
Водной - в одной
Водном - в одном
есть в списке, а
Борона - ворона
я добавлю, не заметила, что этого слова нет в списке, приняла только как пример, в предыдущих постах его не было. Извините, что не поняла вас.
Отв: Метаграммы
Вот, встретилось: полетать - под стать.
Редкость, наверное.
Отв: Метаграммы
Ну, метограммы все можно перебором из словаря выбрать программно... Не понимаю смысла составления этого Метограмматона... Вариантов подмены букв очень много и зависят они от качества скана, ШРИФТА!, программы распознающей и тп. Я уж не говорю про многоязычные книги или книги, где язык сознательно исковеркан (например, для передачи картавости, заикания...)
А по опыту, действительно - Файнридер порой такие перлы выдает, - кажется он неисчерпаем, как атом - без бутылки не разберешь, куда там регэкспами вылавливать)))
Отв: Метаграммы
Если по какой-то причине книга не вычитывается, этот скрипт позволит выловить хотя бы часть "метаграмм". И совесть успокоит. А сложные книги лучше вычитывать, здесь скрипт не понадобится. ИМХО.
То есть вариантов, естественно, было больше. Решите, что нужно оставить, или может быть добавить?
Отв: Метаграммы
Только что нарвался в новой книге Фоллетта
войны- воины
Отв: Метаграммы
Кстати, это встречается часто. И с падежами.
Отв: Метаграммы
Может быть, и даже скорее всего, уже было:
стальные / стильные - и все морфологические варианты;
мечты / менты - заглавие "Роковые менты" меня сильно порадовало :))
Отв: Метаграммы
Хотелось бы узнать: кто-нибудь что-нибудь делает по решению данного вопроса? Или...
Отв: Метаграммы
Да, собственно скрипт готов. Осталось его всесторонне потестировать и можно "выдавать". Если автор даст добро, можно выложить для массового тестирования.
Уточню.
Отв: Метаграммы
Я "вручную" пополняю Ваш, Голма, справочник. Мне кажется, нужно только в предложенном списке (может это уже реализовано) вначале ставить неправильный или "любимый ФР" вариант слов, а затем правильный. К примеру, в книгах издательства МГ, ФР№ 11 категорически не замечает букву "щ". Поэтому при варианте чаше-чаще я бы поставила, как ошибку "чаше".
Сейчас попалось: мешанина - мещанина. То есть у данного скрипта будет возможность "под себя" подстроить?
Отв: Метаграммы
Этим скриптом занимается Evernet, поэтому у меня нет ответов на Ваши вопросы.
Знаю только, что словарь для скрипта может пополняться пользователем. Давайте подождём ответа автора.
Отв: Метаграммы
Скрипт скоро будет представлен публике. Наполнением списка давно занимается Evernet. По этому вопросу лучше обратиться к ней. Замечу, что как располагать "правильный - неправильный" значения не имеет. Для этого используется символ $. Т.е. в вашем случае конкретно так: чаше-чаще$ и мешанина - мещанина$
Как видите - полная подстройка под нужды пользователя.
Отв: Метаграммы
Хорошо, буду ждать. А то очень сложно бывает выловить ошибки, которые подчас и смысл текста меняют
Отв: Метаграммы
FR11, в основном на гарнитуре таймс и неплохих по качеству сканах
Отв: Метаграммы
Архив со скриптом и необходимыми файлами выложен здесь: http://ge.tt/5fl904b/v/0 и здесь: http://rusfolder.com/35464421
Инструкция пользователя внутри архива.
Часть метаграмм УМЫШЛЕННО не обозначена символом $ — как априори верные.
В иных случаях возможно обсуждение необходимости простановки, перемещения либо удаления знака $.
Подготовкой xml-файла метаграмм и составлением инструкции пользователя занималась Evernet при участии Alex2L.
Она же занималась тестированием, за что ей отдельное спасибо!
Отв: Метаграммы
Можно уточнить по интрукции
У меня на диск "H", когда я нажимаю, пишет "вставьте диск"?
Отв: Метаграммы
Да куда захотите! Любой диск с правами на чтение-запись. Например, D:
Кстати в инструкции маленькая неточность:
вместо 'H://Metagramma//4OTHER//' следует понимать как 'H://4OTHER//'
В вашем случае, скажем, 'D://4OTHER//'
(4OTHER - можите ПЕРЕОБОЗВАТЬ)
Отв: Метаграммы
Поняла.Следующий вопрос
Как точно файл называется? У меня нет названия "Метаграмма-контекст.js" С окончанием "js" есть 5 файлов в папке "js"
Отв: Метаграммы
В файле инструкции "Метаграмма-контекст.rtf" написано:
т.е. в папка 4FBE - Метаграмма-контекст.js. В нём "D://XML//Metagramma//" - меняем на тот, куда распаковали!
Сам фвйл переносим в FB-скриптам.
Отв: Метаграммы
Вопрос: прописала 'D://4OTHER//'

2. Файл "Метаграмма-контекст.js" поместила в подпапку "Scripts"
3.Открыла FBE. В разделе скрипты появился раздел: метаграмма-контест. Нажимаю: пишет-
Отв: Метаграммы
Что прописано в 21-й сверху строке "Метаграмма-контекст.js" ? Так: var MetagrammaPath = 'D://4OTHER//'; ?!
А файл "metagramma.xml" гиде лежит? Тут: 'D:\4OTHER' ?!
Отв: Метаграммы
Спасибо, заработало. Я одну палочку в адресе не поставила.
Отв: Метаграммы
Антонина82, вы говорили, что пополняете словарик. Можете выложить ваши метаграммы, чтобы можно было добавить в свой?
Может быть у кого-нибудь еще появились новые, неплохо было бы писать сюда. А желающие уже будут добавлять в свой словарь.
Отв: Метаграммы
Слова, которые я добавляю в скрипт регэспов (кто придумал такое дурацкое словцо), практически перечислены выше.
Опробовала новый скрипт. Для меня он не очень подходит. Объясню почему. Дело в том, что все книги я прочитываю, сравнивая с бумажным экземпляром. Расценивайте это, как чудачество, при наличии сканов, но это так. Поэтому проверять повторно с помощью метаграмм, мне не очень хочется. Вчера потеряла несколько часов, проверяя с помощью этой программы, ранее сделанную книгу. Ни одной ошибки! Это не значит, что я вычитываю безошибочно. Наверняка, спустя год, прочитав ранее сделанную книгу, их обнаружу. Но, уверена, их количество не будет критичным.
Для себя вывела способ, как сократить количество ошибок. Надо брать одну-две-три серии книг одного издательства и сними работать. Примерно на 5-6-7 книге, вы будете знать "родовые" проблемы ФР при распознавании текста данного издания. К примеру, книги серии ЖЗЛ,как я писала выше, приобретают после работы ФР,"белорусский" акцент, т.е. букву "щ" превращают в в "ш". И получается "мешанина" вместо "мещанина" (: В книгах, серии "Живая история", обязательно надо проверить, если в конце предложения стоит буква "к" наличие точки. И 6 (шестерка) постоянно заменяется буквой "б". Я думаю, что Голма может привести значительно больше подобных примеров из практики. Ну, конечно, зацикливаться на книгах одной серии я не собираюсь, а то у меня в мозгах "сумбур биографий классиков".
Поэтому программа "метаграмм" будет хорошо работать и помогать тем книгоделам, кто не читает текстов. ФР покажет ошибки распознавания, а "метаграммы" покажут ошибки ФР.
Отв: Метаграммы
Это я ставил вопрос про спелчекер и вычитку. Поставил. Сделал даже под него иконку. Кого заинтересует здесь http://yadi.sk/d/vN5f9PtO3ITwL . Попробовал работать. По моему получается довольно параноидально. При проверке обнаружилось больше 500!!! слов. Только слово «более» имеет 105 вхождений. Проверка всех слов займет времени больше, чем вычитка. А по мере увеличения словаря будет еще хуже. Это первое впечатление. Посмотрим, что будет дальше.
Отв: Метаграммы
Что параноидально, эт точно! Сам когда увидел первые рез-ты - офигел, сколько слов оказывается в метаграммных связях замечены.
Насчет "более" - кто-то написал, что так у него "боже" распозналось. Наверное, так и было. С "далее" - та же, похоже, история. Тут два выхода - или переделать словарь "под себя", выкинув лишнее. Либо при прверке протокола не обращать на часть слов внимания в принципе, особенно тех, где кол-во повторений много. Кстати Это кол-во не вхождений данного слова в текст в целом, а кол-во параграфов, где встретилось это слово. Т.е. на самом деле их может быть больше. Уменьшение размеров словаря - путь к ускорению обработки. Оставить только типа "негр - неф" и т.п. Скрипт по большому счету для отпетых педантов. А что делать?! На джаваскриптах искусственные интелект не соорудить. ИМХО.
Отв: Метаграммы
Всего скрипт насчитал больше 4800 вхождений. Если, на просмотр каждого потратить 5 сек, то получится 24000 сек= 400 мин= 6,6 часов. Я эту книгу 400 стр. прочту за 8.
Страницы