ベストアンサー

guess_encoding()の挙動が意味不明

2009/06/14 01:00

以下のプログラムを作成しました。　　#! /usr/bin/perl - 　　# 　　#文字コードが分からない文字列を、　　#文字コードを判別した上で、UTF-8に変換して表示　　# 　　# 　　#テストを行うファイル　　my $fh="shift-JIS.txt"; 　　use strict; 　　use CGI; 　　use CGI::Carp qw(fatalsToBrowser); 　　use Encode; 　　use Encode::Guess; 　　my @all_encodings=Encode->encodings(":all");　・・・Ａ　　open IN,$fh; 　　our @data=<IN>; 　　close IN; 　　my $q= new CGI; 　　print $q->header(-charset=>'utf8'), 　　 $q->start_html(-title=>'Encode::Guessの使い方', 　　 -lang=>'ja-JP', 　　 -charset=>'utf8'), 　　 $q->p('Encodeモジュールがサポートしている文字コード形式を対象に、 　　　　　　　テストファイルの文字コードを判別した上で、UTF-8に変換してUTF-8のHTMLファイル中で表示するCGIです。'); 　　our ($check,$decoder); 　　foreach my $i (@all_encodings) {　・・・Ｂ　　 if($i ne "UCS-2BE" and $i ne "UTF-16" and $i ne "UTF-16BE" and $i ne "UTF-32") {　・・・Ｃ　　　 $check=1; 　　　 foreach my $j (@data) { 　　　 $decoder=guess_encoding($j,$i);　・・・Ｄ　　　 $check=0 unless ref($decoder); 　　　 } 　　　 print "$check   $i \n"; 　　　 if($check==1) { 　　　 foreach my $j (@data) { 　　　 $j=$decoder->decode($j); 　　　 $j=encode('utf-8', $j); 　　　 print "$j \n"; 　　　 } 　　　 } 　　　} 　　} 　　print $q->end_html; Ｄ式の$iを"shiftjis"、"euc-jp"でハードコードしてテストをすると、前者ではファイルの中身が書き出され、後者ではタイトル以外表示されませんでした。意図された通りの動作です。次に、Ａ式でEncodeがサポートしている文字コードを全て@all_encodingsに格納し、その一つ一つをＢ式のforeach文でＤ式に代入しています。想定した挙動は $i="shiftjis"の時のみ　　　　$check=1で文字列を表示し、　それ以外では　　　　$check=0で文字列は表示されないというものです。ところが結果は、　　0 7bit-jis 　　0 AdobeStandardEncoding 　　0 AdobeSymbol 　　0 AdobeZdingbat 　　0 ascii 　　0 ascii-ctrl 　　0 big5-eten 　　0 big5-hkscs 　　0 cp1006 　　1 cp1026 　　b￡b2boE[NAE CnebEnK±ib§b\b§b¨aa 　　0 cp1047 　　1 cp1250 　　b￡b2boE[NAE CnebEnK±ib§b\b§b¨aa 　　0 cp1251 　　0 cp1252 　　1 cp1253 　　b￡b2boE[NAE CnebEnK±ib§b\b§b¨aa 　　（続く）というように$check=1を取る文字コードが幾つかあり、不思議なことには表示された文字列が全て全く同じ文字化けをおこしています。$i="shiftjis"の時でも同じです。ハードコートしていた時には、"shiftjis"の時には正しい表示が行われていました。ましてや、Ｃ式ではじいた２種の文字コードに至っては、他の文字コードと同様に処理を行うとエラーが出てプログラムが止まるから、はじかざるを得ませんでした。ちなみにそのエラーメッセージを表示すると、 UTF-16:Unrecognised BOM 62c2 at O:/usr/lib/Encode/Guess.pm line 139. といった感じです。どうしてこうなるのでしょう。というか、どうすればキチンときどうするようになるでしょう。お手数をおかけします。

makoji
お礼率39% (76/193)

Perl
回答数8
ありがとう数7

Wernerの回答

Werner
ベストアンサー率53% (395/735)

2009/06/19 01:04 回答No.6

> foreach文で全ての文字コードを検証したのですから、@dataはutf8に書き換えられているのだし、 > 全ての文字コードでutf8がヒットしてしまい、$check=0となることは最初のヒット以降ないはずです。あれ？ | print ref($decoder) ? $decoder->name : $decoder; の出力結果をみて気づかなかったですか？ @dataがutf8に書き換えられた後は、実際に「全ての文字コードでutf8がヒット」しているはずですよ。そして、 $check=1 となるのは「utf8だけがヒット」したときで、それ以外の時は $check=0 になります。なぜなら、guess_encodingは複数の候補にヒットしたときに "cp1026 or utf8" のような文字列を返すからです。

質問者

お礼 2009/06/20 17:44

永らくどうもありがとうございました。本当に助かりました。お二方にはとても丁寧にご教授いただいたので、「良回答」をどちらに差し上げるか困ってしまいます。でもお一人にしか差し上げられないので、鉛筆転がしで決定させていただきました。ありがとうございます。

質問者

補足 2009/06/19 02:04

私の文法が拙かったんですね　print "decoder: $decoder->name \n"; と書いたら　decoder: Encode::XS=SCALAR(0x3111af4)->name 　decoder: Encode::utf8=HASH(0x30ffea4)->name 　decoder: Encode::utf8=HASH(0x30ffea4)->name 　(続く）となって、文法が間違えているのは分かったんですけど、確かに最初以外はutf8になっているから、それ以上追及しませんでした。 Wernerさんの書かれている通り　print ref($decoder) ? $decoder->name : $decoder; 　print "\n"; とやるとこんな感じです。　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　No appropriate encodings found! 　cp1006 　cp1026 or utf8 　cp1047 or utf8 　utf8 　cp1251 or utf8 　utf8 　utf8 　(続く) Wernerさんがprint文を二つに分けたのには意味があるのだろう、というかこの場合は最初のprint文は三項式になっているからコードを二つに分けざるを得ないのですが、それだけが理由ではないのだろうと思いまして、私のprint文も分けてみました。　print "decoder: "; print $decoder->name; print " \n"; めでたく参照は出なくなりました。でも表示内容がWernerさんと違う・・・このprint文は$check=1の文字コードだけ表示したのですが、なるほど$check=1の場合は、本来の文字コードがヒットせず、結果utf8に一意に確定したから$check=1なんですね。本来の文字コードがヒットすると文字コードが一意に決まらずエラーが出て$check=0となってしまう。すると私の記述法では表示されない。 print文の位置を動かして、$checkの値に関係なく全ての文字コードを表示させてみました。すると$check=0ではエラーが出てしまいました。　Can't locate object method "name" via package "No appropriate encodings found!" (perhaps you forgot to load "No appropriate encodings found!"?) at O:\public_html\test\encode\test.cgi line 48. なるほど。Wernerさんが三項式を用いた理由が分かりました。勉強になります。ところでcp936に対してでたエラーメッセージとこのエラーメッセージは似てますね・・・

この回答がついた質問に戻る

回答全件

ベストアンサー

まず、Encode::Guess を含む「文字コードの推測」というのは…

- zxcv0000
2009/06/14 03:20

遅くなりましたが、No.5 補足の前半についてです。 > 今後の…

- zxcv0000
2009/06/20 10:17

No.5 です。 > ところで、文字コード判定のコードを > …

- zxcv0000
2009/06/19 06:53

No.4への補足を読みましたが、そういう話の展開になると言うのは、テキ…

- zxcv0000
2009/06/16 23:59

No.2 です。なるほど。 CGIとしての使用専用で、しかも入…

- zxcv0000
2009/06/16 06:52

> 毎回同じ文字化けを起こしてしまうのは何故なのでしょう。「if(…

- Werner
2009/06/15 21:46

○うまくいかない直接の原因 > foreach my $j (@da…

- Werner
2009/06/14 03:07

関連するQ&A

デコード処理について
いつもお世話になっております。 Perlのデコード処理で分からない事があります。大変申し訳ございませんが、ご存知の方がいらっしゃれば、教えて頂けますでしょうか。以下のプログラムを実施すると以下のエラーが発生しまい正しくデコードされた結果が表示されません。この場合、どのようにして$sの文字をUTF-8と判断させて shiftjisに変換すればよいのでしょうか？ (プログラム) #!/usr/local/bin/perl use Encode qw/from_to/; use Encode::Guess; Encode::Guess->set_suspects(qw/shift-jis euc-jp 7bit-jis/); $s = '%E7%A7%BB%E8%BB%A2'; # UTF-8 $s =~ tr/+/ /; $s =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("H2", $1)/eg; my $decoder = Encode::Guess->guess($s); die $decoder unless (ref($decoder)); &from_to( $s, $decoder->name, "shiftjis" ); print $s; (エラー内容) shiftjis or euc-jp or utf8 at test.pl line 12.
- 締切済み
- Perl
WWW::Mechanizeの文字コードについて質問
WWW::Mechanizeの文字コードについて質問以下のようなソースコードを書いて実行してみたのですがどのサイトを取得しても、すべて文字コードがUTF8だと認識されます。 ------------------------------------------------------- #!/usr/bin/perl #WWW:MechanizeでHTMLの取得 use WWW::Mechanize; $w = WWW::Mechanize->new(); $w->get("URL"); $html=$w->content; #文字コードの判別 use Encode; use Encode::Guess qw/ascii utf8 euc-jp shiftjis 7bit-jis/; my $dec = Encode::Guess->guess($html); print$dec->name; ------------------------------------------------------- 例えば以下のサイトは文字コードがEUC-JPですがこれもprintされるのはUTF8となってしまいます。 http://barukanlog.blog31.fc2.com/blog-entry-541.html WWW:Mechanizeでサイトを取得し、サイトの文字コードを調べてすべてsjisにするということがしたいのですが、すべてutf8に判断されて先へ進めないんです。何か設定やメソッドを追加しなくてはいけないのでしょうか？わかりにくい質問かとは思いますがご回答お願いします。
- 締切済み
- Perl
Perl 文字コードについて
From: $from To: $mailto CC: $mailcc Subject: $subject Mime-Version: 1.0 Content-type: text/plain;charset=\"UTF-8\" Content-Transfer-Encoding: 8bit この時点で、UTF-8を指定しました。 use Encode; use Encode::Guess; Encode::Guess->set_suspects( qw/ euc-jp shiftjis 7bit-jis / ); $name = encode('UTF-8', decode('Guess', $name)); で本文を、UTF-8に変換して送るようなコードを書きました。これで一応、パソコン、スマホ共に「本文」は文字化けせず送れるのですが、今度、別の問題が発生してしまったようで、「件名」が文字化けしてしまうようになりました。 $subject = encode('UTF-8', decode('cp932', $subject)); 件名も、本文と同じように変換コードをしてみたところ、パソコンでは文字化けしませんでしたが「件名」で文字化けしてしまいます。調べたところ本文と件名では、内容が違い MIMEエンコードを使用するとのことだったのですが、実際どのように使うのかわからないです。 $subject = encode('ISO-2022-JP', decode('cp932', $subject)); encode('MIME-Header-ISO_2022_JP', $subject) このように記述するとスマホでは文字化けしないのですがパソコンで文字化けしてしまいます。そこで、件名がパソコンとスマホで文字化けしないようにし、本文はUTF-8で送るようにするにはどのようにすればいいのでしょうか？
- ベストアンサー
- Perl
JcodeモジュールとEncodeモジュール
以下、Perl5.8でJcodeモジュールを使った場合とEncodeモジュールを使った場合の違いについて、知りたいです。 ※そもそもこのモジュールは同時に使ったらだめなのでしょうか？ use strict; use utf8; use Jcode; use Encode; my $dat1 = "あイ卯(1)Iⅰ"; Jcode::convert(\$dat1, "utf8"); my $dat2 = "あイ卯(1)Iⅰ"; $dat2 = Encode::encode("utf8", $dat2); 文字コード変換の正しい使い方が知りたいです。
- ベストアンサー
- Perl
Encode と encoding の同時使用で ISO-2022-JP に encode できない
CentOS を 5.1 から 5.2 にアップデートした頃から PerlCGI からのメール送信が出来なくなって、調べていたら「ISO-2022-JP への encode がおかいぞ問題」に辿り着きました。以下のコードで、euc-jp が吐かれてしまいます。 #! /usr/bin/perl -w use encoding('UTF8'); use Encode; binmode(STDOUT); my $text = "＜全角文字ですよぉ。＞"; print encode('ISO-2022-JP', $text), "\n"; 以下のいずれかで正常に jisコードを吐く様になるのですが、こんなものなんでしょうか？ 1 「use encoding('UTF8');」を「use utf8;」に替える 2 print の直前に "no encoding;" を入れる CentOS 5.1 では多分正常に ISO-2022-JP への変換ができていたのだと思います。私の使用するバージョンの Cygwin の Perl でも正常です。問題のある CentOS5.2 と問題の無い Cygwin版で、関係しそうなバージョンの違いはありません。 CentOS 5.2: Perl 5.008008 Encode 2.12 Encode::JP 2.01 encoding 2.02 Cygwin: CYGWIN_NT-5.1 **** 1.5.25(0.156/4/2) 2008-04-17 12:11 i686 Cygwin Perl 5.008008 Encode 2.12 Encode::JP 2.01 encoding 2.02 できれば、すでに動いているCGIの use encoding('UTF8'); を直す事なく動く様にしたいのです。
- 締切済み
- Perl
文字コードの変換（Shift-JISからUTF8)
文字コードがShift-JISのCSVファイルを読み込み、UTF-8のテキストファイルに出力するのにプログラムの中で変更しようとしているのですが、うまくいきません。出力ファイルの文字コードを確認するとShift-JISのままです。どなたか教えていただけないでしょうか？ ActivePerl v5.16.0を使用し、Encodeモジュールのfrom_toを使用しています。 #!/usr/bin/perl use strict; use warnings; use utf8; use Encode; my $input_file="input.csv"; my $output_file="output.txt"; open (IN, $input_file) or die "$!"; open (OUT, ">$output_file") or die "$!"; while (<IN>){ chomp ($_); my @data=split(/,/,$_); for(my $i=0;$i<@data;$i++){ $data[$i]=Encode::from_to($data[$i],'shiftjis','utf8'); #Shift-JISからUTF-8に変換 $data[$i]=~s/\s+//g; print OUT $_; } print OUT "\n"; } close (IN); close (OUT);
- ベストアンサー
- Perl
Perlの文字コード変換についての質問です。
Perlの文字コード変換についての質問です。ホームページ全体は、UTF-8で作成されています。そのため、$qsは、どうも、S-JISのようなので、UTF-8に変換して URLデコードさせたいのですがうまくいきません。文字化けしないで、UTF-8で作成されたページに表示させたいのですがどうすればよいでしょうか？宜しくお願い致します。 ------------------------------------ $qs = $ENV{'QUERY_STRING'}; use Encode::Guess qw/ shiftjis /; use Encode qw/ decode /; $enc = guess_encoding ( $qs ); if ( ref $enc ) { $utf8 = decode ( $enc->name , $qs ); } $qs =~ tr/+/ /; $qs =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg; print "$qs";
- ベストアンサー
- Perl
Encodeについて
いつもお世話になっております。下記の構文で分からないところがございます。 use Encode; use Encode::Guess qw/euc-jp shiftjis 7bit-jis/; use Encode qw/decode/; $enc=guess_encoding($x); if(ref $enc){$x=decode($enc->name,$x);} 実はあるテキストに載っていたコードなのですが、解説には文字データのコードが分からない場合は、Encode::Guessを使いますとしか書いてありません。２行目は、文字コードのリストをqwで囲んであると分かりますが３行目は、なぜdecodeをqwで囲む必要があるのでしょうか。 decodeメソッドを使うと意味だとすると、必要ないように思ってしまいました。大きな勘違いをしているかもしれません。最後の２行は、文字コードを推測して、そのあとが分かりません。いつも初心者質問で申し訳ありませんが、よろしくお願いいたします。
- 締切済み
- Perl
[Perl]Shift-JISのXMLを解析する場
行き詰まってしまったので教えて下さい。＜やりたいこと＞とあるAPIからXMLファイルを取得し、解析して出力する、ということをやっているのですが、元のXMLがShift-JISでエンコーディングされており、これをUTF-8に変換して出力しようとしています。＜問題＞ XMLを取得して解析、取り出したいパラメータが出力できるようにはなったのですが、文字のエンコーディングが上手く行っていないためか、文字化けしてしまいます。＜元のXML＞ <?xml version="1.0" encoding="Shift_JIS"?> 　<test> 　　<prod count=3> 　　　<record> 　　　　<code>アイウエ</code> 　　　</record> 　　　<record> 　　　　<code>カキクケ-</code> 　　　</record> 　　　<record> 　　　　<code>ABC</code> 　　　</record> 　　</prod> 　</test> ＜XML解析用のコード＞ #!usr/bin/perl use utf8; use Encode qw/ from_to encode decode /; use Encode::Guess qw/ euc-jp shiftjis 7bit-jis /; use LWP::UserAgent; use XML::Simple; use Data::Dumper; #--XML取得部分省略 #--XMLはgetで$xmlに格納 $from = guess_encoding($xml)->name; &from_to($xml,$from,"utf8"); $XML::Simple::PREFFERRED_PARSER = 'XML::SAX::PurePerl'; $xs = new XML::Simple(); $ref = $xs->XMLin($xml); $xml =~ s/<\?.*\?>//; for($i=0;$i<=$#{$ref->{'test'}->{'prod'}->{'record'}};$i++){ 　$name = $ref->{'test'}->{'prod'}->{'record'}[$i]->{'code'}; $name = encode('utf-8',$name); print "$i : $name\n"; } ＜結果＞黒ダイヤに？文字で文字化けして出力される。どなたか原因がお分かりになりますでしょうか。よろしくお願いいたします。
- 締切済み
- Perl
UTF-8で書かれたHTMLファイルをShift-JISのファイルに変換できない
#!/usr/bin/perl -w =begin comment OS: Windows XP Perl: Active Perl v5.8.8 スクリプトは「Shift-JIS」で書いています。日本語処理関係で参考にしているのはもっぱらオライリージャパンの「Spidering Hacks」の付録の翻訳者による日本語処理の解説です。 http://oshiete1.goo.ne.jp/qa3716434.html の回答に従い、use encoding 'shiftjis';　から　use encoding 'cp932';　へ変更している以外はそこに書かれているやり方に従っていると思います。 UTF-8で書かれたHTMLファイルを「LWP::UserAgent」で取得し、それを Shift-JISコードで出力したいと思い以下のコードを実行したのですが、以下のエラーが出てしまいました。 Parsing of undecoded UTF-8 will give garbage when decoding entities at C:/usr/local/site/lib/LWP/Protocol.pm line 114. このエラーは何が原因なのでしょうか？ =end comment =cut use strict; use LWP 5.64; use Encode; use encoding 'cp932'; # http://oshiete1.goo.ne.jp/qa3716434.html の回答に従い、'shiftjis'から'cp932'へ変更。 #use encoding 'shiftjis'; binmode(STDERR, ':raw :encoding(shiftjis)'); my $url = "http://www.audiounion.jp/bin/products/used/A0/-/-/"; my $browser = LWP::UserAgent->new; my $response = $browser->get( $url ); die "cannot get $url:", $response->status_line unless $response->is_success; my $content = Encode::decode('utf8', $response->content); print $content;
- 締切済み
- Perl

guess_encoding()の挙動が意味不明

Wernerの回答

お礼 2009/06/20 17:44

補足 2009/06/19 02:04

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

guess_encoding()の挙動が意味不明

Wernerの回答

お礼 2009/06/20 17:44

補足 2009/06/19 02:04

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

カテゴリ
一覧

専門家に質問してみよう
専門家登録