Вы здесьЗнатоки Perl-а, помогите плз: нужен автономный код для конвертации utf-8 -> windows-1251
Опубликовано пт, 08/08/2008 - 11:27 пользователем pkn
Знатоки Perl-а, помогите плз: нужен автономный код для конвертации строки utf-8 -> windows-1251 В идеале - на Perl-е, но сгодится и C или ещё что-нибудь, что можно переписать на Perl-е. Главное, чтобы код был автономный, а не ссылался на библиотеки или модули. Потому что перловый модуль Unicode::Map8 я никак не могу заставить работать на своей системе... :((
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 6 часов
nezhit RE:Подайте бедному копеечку на книжку с литреса... 1 день larin RE:Пропал абонемент 1 неделя Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 3 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 4 недели tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 1 месяц MrMansur RE:<НРЗБ> 1 месяц Stager RE:Беженцы с Флибусты 1 месяц Tramell RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц Впечатления о книгах
udrees про Саган: Голубая точка. Космическое будущее человечества [Pale Blue Dot: A Vision of the Human Future in Space [A non fiction book] ru] (Физика, Научная литература: прочее)
22 02 Хорошая книга известного ученого астронома про освоение ближнего космоса, по большей части ближнего конечно, хотя про отдаленный он тоже пишет в конце. Сама книга конечно немного подустарела, в 1994 году писалась, уже 30 лет ……… Оценка: хорошо
udrees про Михайлов: Инфер-11 [СИ] (Боевая фантастика, Киберпанк, Постапокалипсис, Самиздат, сетевая литература)
22 02 Продолжение серии про гоблина Оди. Слог все такой же – жесткий, резкий, безжалостный. Диалоги то отрывистые как команды, то растекаются как баллады менестрелей. Описания постапокалиптического мира такие же суровые. В общем-то ……… Оценка: отлично!
udrees про Мантикор: Город, которого нет 7 [СИ] (Фэнтези, ЛитРПГ, Самиздат, сетевая литература)
22 02 Очередная хорошая книга в серии про Город. Неторопливое повествование длиной в 6 лет как бы заканчивается и вроде начинается действие. Описания в книге нормальные и диалоги тоже, нет мата, обилия сленгов, каких-то детских ……… Оценка: хорошо
francuzik про Шимуро: Знахарь I (Фэнтези, ЛитРПГ, Самиздат, сетевая литература)
21 02 Книга написана в чёрно-серых тонах, в стиле мы все умрём. Похоже это такая манера написания данного автора. В топку. Оценка: плохо
mysevra про Колосов: Выжившие хотят спать (Социальная фантастика, Научная фантастика, Триллер, Любовные детективы, Самиздат, сетевая литература)
21 02 Сложно было ожидать чего-то динамичного и нового. В принципе, достойно. Оценка: хорошо
mysevra про Корсакова: Лисье золото [СИ litres] (Ужасы, Триллер, Самиздат, сетевая литература)
21 02 Дамский роман в плохом смысле этого слова: событий мало, зато склоки на каждом шагу. Оценка: неплохо
mysevra про Торн: Диавола [litres] [Diavola ru] (Ужасы, Триллер)
21 02 Такой милый, домашний, приятно щекочущий воображение ужастик. Наверное, рассчитано на читательниц – семейной драмы больше, чем призраков. А семья там, конечно, потрясающая, узнаю брата Колю. Оценка: отлично!
vladimir1098 про Сафронов: Блокадник [litres] (Современная проза, О войне)
19 02 Не хочу обидеть автора, но ему лучше больше ничего не писать. Очень конъюнктурно, художественная ценность чуть более единицы, документальная - может быть, двойка. Зря потраченное время.
xZiminxx про Старый: Наставникъ (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
18 02 такого бреда я еще не читал. учебник Мединского отдыхает . чистая чернуха заказуха. Оценка: нечитаемо
vladimir1098 про Иван Лукьянович Солоневич
17 02 Пожалуй, лучшая из прочитанных мою книг о временах Сталина. Чувствуется здоровый, ясный и твёрдый ум спортсмена. Очень впечатляет что написано языком и понятиями современными, в то время так никто не писал.
Paul von Sokolovski про Сергей Борисович Рюмин
16 02 Отлично! Хороший фэнтезийный сериал о русской глубинке, насыщенной жизни юного новообращенного мага и о чудесах, ими творимых. Память о жизни в Союзе у автора сохранилась и помогает сделать повествование реалистичным, ну - ………
mysevra про Арабов: Чудо (Современная проза, Мистика)
16 02 Вроде как описывается легендарное «Стояние Зои». И язык хорош, но такая безысходность и тоска во всём этом. Понятно, что никто нам не объяснит суть этого наказании (или благословения), и почему именно она, но хоть бы у священника ……… Оценка: хорошо |
Комментарии
Отв: Знатоки Perl-а, помогите
Text::Iconv?
Отв: Знатоки Perl-а, помогите
Он, ЕЯПП, просто интерфейс к библиотеке iconv, а я очень сомневаюсь что она у меня есть. Да я даже сам этот Text::Iconv инсталлировать вряд ли смогу. Если б мог - добился бы работы от Unicode::Map8 :((
На всяк слу, вот конфигурация моего перла:
E:\>perl -V
Summary of my perl5 (revision 5 version 8 subversion 7) configuration:
Platform:
osname=MSWin32, osvers=5.0, archname=MSWin32-x86-multi-thread
uname=''
config_args='undef'
hint=recommended, useposix=true, d_sigaction=undef
usethreads=define use5005threads=undef useithreads=define usemultiplicity=define
useperlio=define d_sfio=undef uselargefiles=define usesocks=undef
use64bitint=undef use64bitall=undef uselongdouble=undef
usemymalloc=n, bincompat5005=undef
Compiler:
cc='cl', ccflags ='-nologo -Gf -W3 -MD -Zi -DNDEBUG -O1 -DWIN32 -D_CONSOLE -DNO_STRICT -DHAVE_DES_FCRYPT -DBUILT_BY_ACTIVESTATE -DNO_HASH_SEED -DUSE_SITECUSTOMIZE -DPERL_IMPLICIT_CONTEXT -DPERL_IMPLICIT_SYS -DUSE_PERLIO -DPERL_MSVCRT_READFIX',
optimize='-MD -Zi -DNDEBUG -O1',
cppflags='-DWIN32'
ccversion='12.00.8804', gccversion='', gccosandvers=''
intsize=4, longsize=4, ptrsize=4, doublesize=8, byteorder=1234
d_longlong=undef, longlongsize=8, d_longdbl=define, longdblsize=10
ivtype='long', ivsize=4, nvtype='double', nvsize=8, Off_t='__int64', lseeksize=8
alignbytes=8, prototype=define
Linker and Libraries:
ld='link', ldflags ='-nologo -nodefaultlib -debug -opt:ref,icf -libpath:"C:\Perl\lib\CORE" -machine:x86'
libpth=\lib
libs= oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib comdlg32.lib advapi32.lib shell32.lib ole32.lib oleaut32.lib netapi32.lib uuid.lib ws2_32.lib mpr.lib winmm.lib version.lib odbc32.lib odbccp32.lib msvcrt.lib
perllibs= oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib comdlg32.lib advapi32.lib shell32.lib ole32.lib oleaut32.lib netapi32.lib uuid.lib ws2_32.lib mpr.lib winmm.lib version.lib odbc32.lib odbccp32.lib msvcrt.lib
libc=msvcrt.lib, so=dll, useshrplib=yes, libperl=perl58.lib
gnulibc_version='undef'
Dynamic Linking:
dlsrc=dl_win32.xs, dlext=dll, d_dlsymun=undef, ccdlflags=' '
cccdlflags=' ', lddlflags='-dll -nologo -nodefaultlib -debug -opt:ref,icf -libpath:"C:\Perl\lib\CORE" -machine:x86'
Characteristics of this binary (from libperl):
Compile-time options: MULTIPLICITY USE_ITHREADS USE_LARGE_FILES
USE_SITECUSTOMIZE PERL_IMPLICIT_CONTEXT
PERL_IMPLICIT_SYS
Locally applied patches:
ActivePerl Build 813 [148120]
Iin_load_module moved for compatibility with build 806
PerlEx hacks for CGI::Carp
Less verbose ExtUtils::Install and Pod::Find
instmodsh upgraded from ExtUtils-MakeMaker-6.25
24699 ICMP_UNREACHABLE handling in Net::Ping
21540 Fix backward-compatibility issues in if.pm
Built under MSWin32
Compiled at Jun 6 2005 13:36:37
@INC:
C:/Perl/lib
C:/Perl/site/lib
.
E:\>
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Если речь идет о *nix и надо сделать быстро, то может быть попробовать выполнить из perl recode(1)? А потом, на досуге, повоевать с Unicode::Map8...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Машина - винбокс (Win XP Pro), причем не девелоперская, на ней даже make нету и я не все смогу инсталлировать (комп не мой, компании).
И задача - конвертить строку, не файл... хотя если бы был на машине recode, можно было бы сплюнуть строку в файл и напустить на него recode... но его нет.
Собственно, задача - вынуть (перловым скриптом) из ~140,000 fb2-файлов (кодировки windows-1251, windows-1252, utf-8, koi8-r, iso-8559-1) строку с названием книги и сравнить. Я могу управиться с windows-1251, windows-1252, koi8-r, iso-8559-1, но вот на utf-8 произошел затык, чтоб его...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Мейби так:
#!/usr/bin/perluse open IN => ':utf8', OUT => ':encoding(cp1251)';
use open ':std';
print while(<>);
?
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
А ноги у этой хрени растут из модуля Encode.pm.
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Так... кажется, в моем перле есть модуль Encode::Encoder -- Object Oriented Encoder... изучаю...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
да-да-да
можно конвертнуть двумя способами:
use Encode qw(from_to encode decode);$str = "привет";
from_to($str, "utf8", "cp1251");
print $str;
$str = "привет";
print encode("cp1251", decode("utf8", $str));
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Кажись, заработало. Именно с использованием модуля Encode - спасибо, ground0!
Не обошлось без метода тыка и странностей, но вроде работает - кроме некоторых экзотических fb2-файлов, в которых указана кодировка iso-8859-1 или windows-1252, но буквы на самом деле содержатся в какой-то странной форме, типа HTML-символов, вот так:
Курс на
Если кому интересно - работает вот примерно такой код:
# NO!!! use encoding 'windows-1251';
# NO!!! use encoding 'utf-8';
use Encode;
...
my $tit = &sub_fb2_get_booktitle($des);
my $enc = &sub_fb2_get_encoding($des);
# nope... binmode(STDOUT,":utf8");
if( uc($enc) eq "WINDOWS-1252")
{
$tit = decode("iso-8859-2",$tit);
}elsif( uc($enc) eq "WINDOWS-1251" ){
$tit = decode("windows-1251",$tit);
}elsif( uc($enc) eq "ISO-8859-1" ){
$tit = decode("iso-8859-1",$tit);
}elsif( uc($enc) eq "KOI8-R" ){
$tit = decode("koi8-r",$tit);
}elsif( uc($enc) eq "UTF-8" ){
$tit = decode("utf-8",$tit); # yes, it's necessary!
}else{
printf("[%6d of %6d] Bad enc="%s" $fullfname_G\n",$curnum_G,$listsize_G,$enc);
}; # iffelse
###
# Works!!!
$tit = encode("windows-1251",$tit);
# Now tit is in win-1251
Отв: Знатоки Perl-а, помогите плз:
А можно на php? В прошлом веке я с такими проблемами часто сталкивался
тупое сопоставление
острое сопоставление
Отв: Знатоки Perl-а, помогите плз:
Ааагромадное спасибо! Переделал под Перл Ваше "острое сопоставление" - работает, саб-бака! :)) По крайней мере на тестовых двадцати файликах - работает как лялечка.
У меня, конечно, есть подозрение что где-то может и сбойнуть (я правильно понимаю, что код предполагает все utf-8 буквы двухбайтными?) но это уже поодиночке разбираться будем. Ща я его на все 100+ тысяч напущу, пусть поурчит и посмотрим что скажет...
Отв: Знатоки Perl-а, помогите плз:
Так... "острое сопоставление" все-таки слишком часто сбивается, если я правильно понимаю - на тире, кавычках, скобках и тому подобном.
Зато модуль Encode, кажется, работает.
Отв: нужен автономный код для конвертации utf-8 -> windows-1251
Питоновый код я тут где-то уже приводил