Вы здесьУдаление дублей из архивов по 1000 книг.
Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear
Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
konst1 RE:Подайте бедному копеечку на книжку с литреса... 1 день
sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 4 дня sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 недели larin RE:Пропал абонемент 4 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 5 дней larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Впечатления о книгах
Isais про Голотвина: Домашний учитель для чудовища [СИ] (Боевая фантастика, Социальная фантастика, Самиздат, сетевая литература)
08 03 «Домашний учитель для чудовища» — то же, что и «Педагогическая баллада» этих же авторов, сюжет и фабула совпадают. Но за счет добавления деталей, их переакцентировки, более прописанного социального фона именно этот вариант ……… Оценка: хорошо
Barbud про Смолин: Ван Ван из Чайны 4 (Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
08 03 Первые три части были более-менее читабельны, на четвертой я сломался. Смрадным потоком попёрло политиканство, рассуждения о патриотизме, охаивание тех, кто не разделяет идеи этого самого китайского патриотизма и т.д. Читать дальше не вижу смысла. Оценка: нечитаемо
Isais про Аренев: Порох из драконьих костей (Детская фантастика, Городское фэнтези, Самиздат, сетевая литература)
08 03 Просто поражает, как в 2015-м году писатель точно, хоть и метафорично, но в деталях описал весь бытовой уклад, который сложился в России 2024-2026 гг., многое, что происходит в сегодняшней России и что, по прогнозам, еще будет ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 8 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
08 03 Продолжение бандитской жизни в бандитской стране – какой-то России будущего, где всеми заправляют феодалы-дворяне в стране. Любые проблемы решают чисто по-гангстерски, Чикаго 30-х годов отдыхает, и 90-е годы в России тоже. ……… Оценка: неплохо
udrees про Володин: Похождения египетского бога в типично фэнтезийном мире [СИ] (Фэнтези, Эротика, Самиздат, сетевая литература)
08 03 Порнографический опус, ценности почти никакой, написано примитивно, все разговоры такие же простые, практически на каждой странице описания сцен секса, в том числе извращенных, все женщины любят анальный секс и минет, вот ……… Оценка: плохо
udrees про Некрасов: Cut Shot 18+ [СИ] (Эротика, Юмор: прочее, Самиздат, сетевая литература)
08 03 Порнографический высер озабоченного подростка. Никакого сюжета, описаний мало-мальски серьезных, разумных разговоров – просто безостановочный трах на каждой странице, по любому поводу, с любой особой женского пола, в любую ……… Оценка: плохо
udrees про Вальтер: Браконьер 1 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
08 03 Параллельная книга-история по вселенной Жажды, про войну вампиров и людей. Еще одна история выживальщика в новом мире, начиная с самого начала катастрофы. Описания хорошие, даром что герой не супермен, а обычный автослесарь, ……… Оценка: хорошо
mysevra про Шацкая: Настольная книга стервы (Психология)
06 03 О, это нечто, товарищи. Хотя я лично знакома с барышней неопределенного возраста, для которой эта книга, а ещё «Как влюбить в себя любого» Лаундес и биография принцессы Дианы являются действительно настольными, и всё у неё ……… Оценка: неплохо
mysevra про Лондон: Время-не-ждет [= День пламенеет] [Burning Daylight ru] (Приключения: прочее, Классическая проза ХX века)
06 03 У этого автора все работы замечательные, но некоторые особо выделяются на общем фоне. Эта книга – одна из таких, её не забудешь и ни с чем не спутаешь. Оценка: отлично!
mysevra про Эстес: Бегущая с волками. Женский архетип в мифах и сказаниях [Women Who Run with the Wolves. Myths and Stories of the Wild Woman Archetype ru] (Мифы. Легенды. Эпос, Психология, Самосовершенствование)
06 03 Кто-то очень метко высказался: «Женская энергия – это не про соответствие каким-то шаблонам. Не про жертвенность, не про покорность и уж точно не про вечную улыбку. Это про способность быть мягкой без слабости, гибкой без ……… Оценка: отлично!
Chernovol про Ефимович: Майя Плисецкая (Биографии и Мемуары)
05 03 Хорошая книга, но ни одной иллюстрации-фотографии. Оценка: хорошо
nightrunner про Пехов: Птицелов (Фэнтези, Самиздат, сетевая литература)
03 03 Хуже предыдущей. Опять поди с бабой своей писал Оценка: неплохо |
Комментарии
Отв: kop-librusec-dedead - очень новая версия.
Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть?
Убедил. Как руки дойдут - сделаю.
Отв: kop-librusec-dedead - очень новая версия.
Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать.

Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее.
Отв: kop-librusec-dedead - очень новая версия.
Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить.
Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;)
Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну.
Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу.
Отв: Удаление дублей из архивов по 1000 книг.
Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р
Тоесть косяк в единственном фильтре или именно в фильтре по языку?
*обиженным голосом* Но ты не добавлял "... что в скрипте нет бага" :Р
Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;)
Отв: Удаление дублей из архивов по 1000 книг.
Баг в скрипте есть всегда. Это аксиома.
kop-librusec-dedead - 0.4.3
kop-librusec-dedead верисия 0.4.3 - прицеплена к посту.
Изменения:
1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову!
2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов.
3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals.
Отв: kop-librusec-dedead - 0.4.3
Спасибо, щас потестим :)
Отв: kop-librusec-dedead - 0.4.3
Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта.
Wanted total 96695
Books total 123760
to be squeezed 27065
Или он просто повторно обьединичивает единички? Тогда все в порядке.
Из замеченного: быстрее стали грузится таблицы, это гуд :)
А вот еще что.
WARNING: Bad member name: "Ketrin_A_List_Etika_bl**stva.fb2" zipf="16988-117987"
C этими файлами можно что-то сделать?
Отв: kop-librusec-dedead - 0.4.3
Повторно объединичивает.
Это тебе показалось :) там ничего не делалось.
АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать.
Отв: kop-librusec-dedead - 0.4.3
Странно. Тем не менее факт. Тогда одно из трех:
- Я сонный, поэтому думаю медленнее :)
- Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался.
- Что третье? Говорю же - сонный я :Р
Отв: kop-librusec-dedead - 0.4.3
Можно экранировать переменную - /^\Q$membername\E$/
А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G;
Отв: kop-librusec-dedead - 0.4.3
Спасибо! Перловковар из меня тот ещё...
Страницы