CGIで受け取った日本語文字列を正規表現で数字を抽出する方法

2023/09/06 23:18

このQ&Aのポイント

CGIで受け取った日本語文字列から正規表現を使って数字を抽出する方法を教えてください。
組んだ正規表現で半角英数の「USA」のような文字列はマッチしますが、「アメリカ」や「ドル」はマッチしません。どのように解決できるでしょうか。
質問者はCGIで受け取ったテキストボックスの文字列から数字を抽出したいと考えていますが、現在の正規表現では「USA」の数字はマッチしますが、「アメリカ」や「ドル」はマッチしません。解決方法を教えてください。

ベストアンサー

CGIで受け取った日本語文字列を正規表現で

2018/11/20 07:53

perlでcgiを作っています。テキストボックスに入れてもらった文字列から正規表現で数字を抽出します。以下のように、組むと "USA"のような半角英数はただしくマッチしますが、 "アメリカ"や"ドル"などはマッチしません。簡単に解決する方法をお教えください。 my $text = $in_data{'data_text'}; $text =~ tr/+/ /; $text =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("H2", $1)/eg; $text =~ s/[<>"'&\r\n]//g; $text =~ s/&/&/g; $text =~ s/</</g; $text =~ s/>/>/g; $text =~ s/"/"/g; $text =~ s/'/'/g; $text =~ s/\r\n/ /g; $text =~ s/\n/ /g; $text =~ s/\r/ /g; if ($text =~ /USA (\d+) dollars/){ print "USA $1\n"; } if ($text =~ /アメリカ (\d+\.\d+) ドル/){ print "アメリカ $1\n"; } exit;

nagaon
お礼率68% (293/427)

Perl
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

tkf-
ベストアンサー率58% (821/1396)

2018/11/20 20:55 回答No.1

https://teratail.com/questions/73756 index関数を使うといいみたい。 "perl 日本語正規表現" で探しましょう。

質問者

お礼 2018/11/21 03:35

ありがとうございます。正規表現で $1で切り出すにはどうすればよいのでしょうか。 quotemetaって、なんでしょう。

質問者

補足 2018/11/21 03:49

cgiファイルをUTF8で保存したらうまくいきました。ありがとうございました。

関連するQ&A

perl cgiで正規表現が無限にマッチする
perl でcgiを作っています。フォームから受け取ったテキストから、正規表現を用いて、データを切り出そうと思っています。以下のようなコードを書くと、マッチするのは一か所だけのはずなのに、無限回数マッチしてprintしつづけます。なにが間違っているのでしょうか。ご指導ください。 my $text = $in_data{'data_text'}; #フォームから受け取る $text =~ tr/+/ /; $text =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("H2", $1)/eg; # invalidation $text =~ s/[<>"'&\r\n]//g; $text =~ s/&/&/g; $text =~ s/</</g; $text =~ s/>/>/g; $text =~ s/"/"/g; $text =~ s/'/'/g; $text =~ s/\r\n/ /g; $text =~ s/\n/ /g; $text =~ s/\r/ /g; while ( $text =~ /Line(\d{1}):長さ:(\S+) km/){ print "Line$1: $2 "; }
- ベストアンサー
- Perl
cgiで文字列操作
文字列$FILENAME1から★★より右側だけ取り出したいのですが、★★がない場合もあるので、以下のようにしてみました。 -------------------- $FILENAME1 = "*****★★****"; print "文字列は「$FILENAME1」 \n"; $DIR = "★★"; $MOJISUU = length $DIR; print "探す文字列は「$DIR」 \n"; $position = index $FILENAME1,$DIR; print "$DIRの文字位置は「$position」 \n"; if ($position > 0){ $FILENAME = substr($FILENAME1,$position+$MOJISUU); print "$FILENAME \n"; } else { print "$FILENAME \n"; } -------------------- ★★が入ってる場合はうまくいくのですが、入っていない場合うまくいきません。（結果が表示されない）どこを直したらいいのでしょうか？
- 締切済み
- Perl
Perl文字列置き換えについて
今日は、PerlとCGIについて、お聞きしたいことがあります。 ~s///;で、文字列の置き換えが出来ますよね？実行しても、変な数字しか出てこないのです。^^; つまずいてしまいました。以下、コードです。（プロバイダはぷららです）実行URL http://www9.plala.or.jp/mura001/form2.html =============================================== #!/usr/local/bin/perl -w require "jcode.pl"; require "cgi-lib.pl"; $host=$ENV{'REMOTE_HOST'}; #IP取得 $addr=$ENV{'REMOTE_ADDR'}; $bo=$ENV{'HTTP_UER_AGENT'}; $http=$ENV{'HTTP_HOST'}; #アクセス元URL $access=$ENV{'HTTP_REFERER'}; &ReadParse; #秒、分、時、日、年、月、曜日 ($sec,$min,$hour,$mday,$mon,$year,$wday)=localtime; $mon++; $year += 1900; #曜日を日本語化 @week=('日','月','火','水','木','金','土'); $wday=$week[$wday]; #<input type>のnameを読み込む。 $name = $in{'han'}; $text = $in{'text'}; #日本語レコード &jcode'convert(*name,'euc'); &jcode'convert(*text,'euc'); #文字列置換 $name = ~s/</555/; #改行二つ書かないといけないみたい。 print "Content-type: text/html\n\n"; print "<html>\n"; print "<head>\n"; print "<title>テスト</title>\n"; print "</head>\n"; print "<body>\n"; print "テストです。 \n\n"; if($in{'han'} eq ''){ print "何も入力されていません。 \n"; exit(); } print "貴方が入力した名前は $name ですね。 \n\n"; print "$text \n\n"; print $ENV{'PATH'}," \n\n"; &file2(); print "書き込みリスト \n\n"; &file(); print "</body>\n"; print "</html>\n"; sub file{ open(IN,"test.txt"); while(<IN>){ print; } close(IN); } sub file2{ open(IN,">>test.txt"); print IN "<hr>訪問者：$name $year年$mon月$mday日（$wday）$hour:$min:$sec \n\n"; print IN $text," "; print IN "IPアドレス：$addr \n\n"; print IN "アクセス元：<a href=\"$access\">$access</a> <hr>\n\n"; close(IN); } ========================== $name = ~s/</555/; が、 4294967295 にどうしてもなります。＾＾；（置き換え後の文字列を他のに変更しても必ず、 4294967295 になります！）分かる方、いらっしゃいますか？あと、日本語の変換が出来ません。（汗）それと、ぷららのサーバがかなり重たいのですが、どうすれば宜しいでしょうか？ご迷惑をおかけいたしますが、どうか、宜しくお願いいたします。
- ベストアンサー
- その他(ソフトウェア)
正規表現<置き換え>が実行してくれません
次のようなスクリプトで、改行マーク\nがたくさんある1行データを に置換しようとしましたが、表示は\nのままです。原因が分かりません。たぶんこの肝心の箇所のスクリプト・エラーだと思いますが、自分で発見できません。どなたかお教え下さい。 print "Content-type: text/html; charset=sjis-jp\n\n"; print "\n"; print "<HTML>\n"; print "<HEAD>\n"; print "<TITLE></TITLE>\n"; print "</HEAD>\n"; print "<BODY>\n"; # 辞書を読む #ファイルの各行を配列に一括して読み込む。 open(IN, "GermJ.txt"); @list = <IN>; close(IN); $max = $#list; for ($i=0; $i<$max; $i++) {$data = @list[$i]; if (index($data, $tango.' /// ')==0) {$data=~ s/ \n/ /g; print "$data\n"; last; } } print "</BODY>\n"; print "</HTML>\n"; __END__
- ベストアンサー
- Perl
正規表現
if(str.match(/^[-+]?\d+$/)) alert("matched !"); この正規表現(先頭に＋か－かをつけてあとは数字という表現です。)で全体が//で囲まれてますがどうしてでしょうか？オプションとしてgとかiがあるのならわかるのですがないみたいです。また＾と$をつかった表現で例えば^AB$とした場合どうしてACBは含まれないのでしょうか？
- ベストアンサー
- JavaScript
文字列のマッチについて
下記cgiで＋、*、?が含んでいるとマッチしないんですが正しいマッチのさせ方を教えてください。それと+*?以外にもマッチしない文字があるのでしょうか？ ---実行結果--- yy+yyは含んでいない yy*yyは含んでいない yy/yyは含んでいる yy-yyは含んでいる yyyyは含んでいる yy1yyは含んでいる yy=yyは含んでいる yy?yyは含んでいない yy&yyは含んでいる yy yyは含んでいる yy.yyは含んでいる ---Perl--- #!/usr/bin/perl print "Content-type: text/html\n\n"; print "<html><head><title>counter</title></head>\n"; print "<body>\n"; @data = ('yy+yy', 'yy*yy', 'yy/yy', 'yy-yy', 'yyyy', 'yy1yy', 'yy=yy', 'yy?yy', 'yy&yy', 'yy yy', 'yy.yy'); foreach $a (@data) { $b = $a; if ($b !~ m/$a/){ print "$aは含んでいない";print " "; } else{print "$aは含んでいる";print " ";} } print "</body></html>\n";
- ベストアンサー
- Perl
正規表現を用いてHTML内の文字列を抜き出したいのですが・・・
PHPの正規表現を用いて外部Webページのソース内にある文字列を抜き出してきたいのですがうまくいきません。例えば、 <td class="nml">食べてきれいにやせる！　伊達式脂肪燃焼ダイエット / 伊達友美 </td> のようなタグに挟まれた文字列を抜き出します。自分で書いたプログラムは以下の通りです。 <?php //外部URL $fp = fopen("特定のURL", "r"); while(!feof($fp)){ //HTMLソースを全文取得 $line = fgets($fp, 1024); //各行を配列に格納 $line_array[] = $line; } //配列を一つの文字列に変換 $line_text = implode("", $line_array); if(preg_match_all('ここの部分が思いつきません', $line_text, $match)){ print $match; }else{ print 'マッチしません'; } ?> 色々と調べて試行錯誤しましたが、結局うまくいきませんでした。正規表現となる部分をどなたかご教授頂けないでしょうか。宜しくお願い致します。
- ベストアンサー
- PHP
perl cgi 文字コード変換について
掲示板でログファイルへの書き出しの際に文字コードをshift-jisに変更したいのですが， #投稿された値を受け取る if ($ENV{'REQUEST_METHOD'} eq 'POST') { read(STDIN, $alldata, $ENV{'CONTENT_LENGTH'}); } else { $alldata = $ENV{'QUERY_STRING'}; } foreach $data (split(/&/, $alldata)) { ($key, $value) = split(/=/, $data); $value =~ s/\+/ /g; $value =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack('C', hex($1))/eg; $value =~ s/\t//g; $in{"$key"} = $value; } #ヘッダの表示 print "<html>\n"; print "<head><title>掲示板</title></head>\n"; print "<body>\n"; #受け取ったデータをファイルに書き込む if ($in{'handle'} ne '' && $in{'message'} ne '') { if (open(FH, "bbs.txt")) { @file = <FH>; close(FH); use CGI; $cgi=new CGI; $name1=$cgi->param('handle'); $name2=$cgi->param('number'); use Encode; use Encode::Guess qw(euc-jp shiftjis 7bit-jis); encode("shiftjis",decode('Guess',$name1)); encode("shiftjis",decode('Guess',$name2)); unshift(@file, "$name1\t$name2\n"); ＃＃この部分で if (open(FH, ">bbs.txt")) { print FH @file; close(FH); } else { print "ファイルに書き込めません。"; } } else { print "ファイルを読み込めません。"; } } #投稿フォームの表示 print "<form method=\"post\" action=\"bbs.cgi\">\n"; print "\n"; print "ハンドルネーム \n"; print "<input type=\"text\" name=\"handle\" size=\"20\" value=\"\"> \n"; print "メッセージ \n"; print "<input type=\"text\" name=\"message\" size=\"20\" value=\"\">\n"; print "\n"; print "<input type=\"submit\" value=\"送信する\">\n"; print "</form>\n"; #記事の一覧表示 if (open(FH, "bbs.txt")) { while ($data = <FH>) { ($handle, $message) = split(/\t/, $data); print "\n"; print "投稿者：$handle \n"; print "メッセージ：$message\n"; print "\n"; } } else { print "ファイルを読み込めません。"; } #フッタの表示 print "</body>\n"; print "</html>\n"; exit; このような感じでかいたのですが文字コードを変更し，unshift(@file, "$name1\t$name2\n");と記述すると何も書かれずに空白になってしまいます．．なぜでしょうか？困っています．教えて下さい．ちなみにunshift(@file, "$in{'handle'}\t$in{'message'}\n"); と文字コードの変更を意識しなかった場合にはちゃんとファイルに書かれています． jcode.plなどは使わずにencodeで行いたいです．
- ベストアンサー
- Perl
utf-8での日本語正規表現の書き方
WindowsXPでPerlの正規表現の勉強をしています。下記のスクリプトを作りテストしているのですが例1はマッチするのに例2はマッチしません($countが0のままです)。どうしてなのでしょうか？なおスクリプトファイルも、hoge.txtも共にUTF-8です。どなたかお教えいただけますでしょうか。どうぞよろしくお願いします。 use utf8; use encoding ("utf-8"); # 例１################################## $str1 = "そろそろ夏も終わりですね。"; $str2 = "夏"; if ($str1 =~ /夏/) { print "例1の答え: 含まれています \n"; } else { print "例1の答え: 含まれていません \n" } # 例2 ################################### $count = 0; open(FH, "C:\\temp\\hoge.txt"); while(<FH>) { if (/夏/) { $count++; } } print "$count \n";
- ベストアンサー
- Perl
正規表現のパターンマッチがうまくいきません。
正規表現のパターンマッチがうまくいきません。入力した文字を含むデータを抽出しようとしているのですが、エラーは出ないものの、ヒットしません。次の構文をそれぞれを試してみました。目的は入力された文字$matchを含む$textを@queryに入れることです。 if($text =~ /$match/){ push(@query, $text); } if($text =~ /\$match/){ push(@query, $text); } if($text =~ /.*\$match.*/){ push(@query, $text); } if($text =~ m/.*\$match.*/){ push(@query, $text); } 半角英数で何度か試したのですが、どれでやってもヒットしてくれません。どこをどのように訂正すればいいでしょうか。お分かりの方ぜひご指導ください。ちなみによく入力データを$in{aaa}とか$QUERY{aaa}などとまとめることがあるのですが、これを正規表現にそのまま入れるにはどうしたらいいでしょうか。 {}は量指定子になるのでこのままではエラーになるかなとも思うのですが、\などでエスケープすればいいのでしょうか。上の$matchも元々は$in{aaa}なのですが、 $match = $in{aaa} として変えています。
- ベストアンサー
- Perl