Perl初心者の方への質問：テキストファイルから12文字以上の単語を抽出する方法がわかりません

2009/12/17 18:35

sakusaker7の回答

sakusaker7
ベストアンサー率62% (800/1280)

2009/12/18 19:39 回答No.5

すみません。なにか盛大に思い込みが入ってました。一行で書くのなら my @results = grep(/[a-zA-Z']{12,}/,@content); の変型は my @results = grep(/[a-zA-Z']{12,}/, map {split ' '} @content); といった感じですね。さすがにこれはやり過ぎというところなので、 foreach my $line (@content) { my @t = split ' ', $line; my @result = grep(/[a-zA-Z']{12,}/, @t); foreach my $result (@results) { (省略) } } としたほうが分かりやすいでしょうか (@tや@resultを使わないようにも書けますが)。あと、split の第一引数ですが、' ' や/ / のように半角スペース一個のときは特別な動作をして、半角スペース一個で分割するわけではありません。 \s+を使ったときと概ね同じです。どうもこれをご存じない方が少なくないようなのでお節介ながら書いておきます。それと、ファイルをオープンしたときのファイルハンドルに NEWFILEのような大文字のbareword を使うのは今は推奨されていません。

質問者

お礼 2009/12/20 18:19

ありがとうございました。以下のようなかたちにして、なんとか目的を遂げることができました。 while ( my $file = glob '*.txt' ) { open my $reading, '<', $file or die; my @content = <$reading>; close $reading; foreach my $line (@content) { my @t = split ' ', $line; my @results = grep(/[a-zA-Z']{12,}/, @t); foreach my $result (@results) { print "$result\n"; } } } これを、コマンドプロンプトで「perl filename.pl >output_file.txt」のように打ち込んで出力すると、最終成果物のリストができます。しかし、テキストファイル作成まで自動化しようとして最後の部分を foreach my $result (@results) { open (NEWFILE, ">output_file.txt") or die "$!"; print NEWFILE @results; close(NEWFILE); } } } とすると、なぜか（1）単語が改行なしでつながってしまう（2）12文字以上ではなく12文字の単語のみが拾われている、という問題が発生してしまい、これの原因がよくわかりません。きっとまた、私がバカなことをしているのだと思うのですが、余裕があったら何を間違えているのか、ご指摘いただけると助かります。

この回答がついた質問に戻る

回答全件

ベストアンサー

＞＞3) そのファイルを一行ずつ処理する。＞このあたりから、苦しく…

- kuroizell
2009/12/18 00:22

12文字以上じゃなくて12文字だけというのはわかりませんが、改行が…

- sakusaker7
2009/12/21 02:40

やり方は色々あると思いますが、ハイフネーション処理を簡単にするためにス…

- ryu_chan
2009/12/18 11:33

>どうやら12文字以上の単語が含む「行」を抽出しているようなのです …

- sakusaker7
2009/12/18 00:18

英文ですよね。＞どうやら12文字以上の単語が含む「行」を抽出し…

- ORUKA1951
2009/12/17 19:28

関連するQ&A

指定の行数目から行を抽出する
いつもお世話になっております．環境はWindows XP Pro でActiveperlを使っています． Perlでしたいことは，「指定の行数目から行を抽出する」ことです．具体的には以下のようにしたいと思っております． data.txt A B C D E F line.txt 2 4 6 output.txt B D F 先ほどある方からサンプルソースを教えてもらったのでそれをベースに作ってみましたが，出力のoutput.txtが空のままです． use strict; use warnings; use feature ':5.10'; use IO::File; open my $file2, '<', 'line.txt' or die "can't open input $!"; chomp(my @subjects = <$file2>); close $file2; open my $newfile, '>>', 'data_out.txt' or die "can't open output $!"; open my $file, '<', 'data.txt' or die "can't open input $!"; while (my $line = <$file>) { chomp $line; foreach my $line (@line) { print $line; if ($. eq $subjects){ say {$newfile} $line; } } } close $file; close $newfile; どこが間違っているのでしょうか．ご指摘ください．よろしくお願いします．
- ベストアンサー
- Perl
一つのテキストファイルと複数のファイルの結合
よろしくお願いします．ディレクトリ内の一つのテキストファイル(joint.txt)と複数のファイルの結合を行ごとに隣へ結合するプログラムを作成しています．ここで以下のプログラムを作成したのですが，うまくいかないため，誤っている部分をご指摘願えないでしょうか． my $dirname = '.'; opendir(DIR, $dirname) or die "$dirname: $!"; while (my $dir = readdir(DIR)) { next unless (-f $dir); next unless ($dir =~ /\.txt$/); open(FILE, $dir) or die "$dir: $!"; open(FILE2,"joint.txt"); my @file = <FILE>; my @file2 = <FILE2>; close(FILE); close(FILE2); foreach my $line (@file) { foreach my $line2 (@file2) { chomp $line2; $line = "$line2.",".$line"; } } open(NEWFILE, "> $dir") or die "$dir: $!"; print NEWFILE @file; print NEWFILE @file2; close(NEWFILE); } closedir(DIR);
- ベストアンサー
- Perl
プログラムの高速化
いつもお世話になっております．以下のプログラムをできるだけ高速化したいと思います． use warnings; use strict; my $dirname = '.'; opendir(DIR, $dirname) or die "$dirname: $!"; while (my $dir = readdir(DIR)) { next unless (-f $dir); next unless ($dir =~ /\.txt$/); open(FILE, $dir) or die "$dir: $!"; while (my $line = <FILE>) { my ($a,$b,$c,$d,$e,$f) = split( /,/ , $line ); my $name = $a.",".$b; open(NEWFILE, ">> ./out/$name.txt") or die "$dir: $!"; print NEWFILE $line; close(NEWFILE); } } close(FILE); closedir(DIR); やっていることは，ディレクトリ内のテキストファイルを読み込んでいって，splitでカンマ区切りにした，$a，$bをファイル名として下のディレクトリのoutに保存していくというものです．ファイル数が数千あり，各ファイルも数千行となるため，このソースを高速化する方法はありますでしょうか．ご回答よろしくお願いします．
- ベストアンサー
- Perl
ディレクトリ内のテキストファイルに対する同一処理
よろしくお願いします。現在Linuxの環境でテキスト処理をしております。ディレクトリ内にファイル名の異なった以下のような大量ファイルがあります。 a.txt 0,1,2,3,4,5,6,7 1,2,3,4,5,6,7,8 b.txt 2,3,4,5,6,7,8,9 3,4,5,6,7,8,9,10 これらのファイルをカンマでsplitし、左から２番目の数にだけ１を引き,下のディレクトリであるoutに出力させます。出力は以下のようになります。 ./out/a.txt 0,0,2,3,4,5,6,7 1,2,3,4,5,6,7,8 ./out/b.txt 2,2,4,5,6,7,8,9 3,4,5,6,7,8,9,10 そこで以下のようなPerlのプログラムを作成しました。 use strict; use warnings; my $dirname = '.'; opendir(DIR, $dirname) or die "$dirname: $!"; while (my $dir = readdir(DIR)) { next unless (-f $dir); next unless ($dir =~ /\.txt$/); print $dir, "\n"; open(FILE, $dir) or die "$dir: $!"; my @file = <FILE>; foreach $line (@file) { my ($a,$b,$c,$d,$e,$f,$g,$h) = split(/,/, $line); 　　　　　my $b = $b - 1; close(FILE); } open(NEWFILE, "> ./out/$dir") or die "$dir: $!"; print NEWFILE @file; close(NEWFILE); } closedir(DIR); ですが、出力は完了するのですが、元のファイルから計算がされていません。どこがどう間違えているのかご指摘よろしくお願い申し上げます。
- ベストアンサー
- Perl
複数行に渡る文字列の置換
こんにちは、Perl初心者です（プログラミング全般の初心者です）。カレントフォルダ内のテキストファイルに対して、文字列置換をするスクリプトを書こうとしています。具体的には、以下のようにストリングIDの直下に改行のみの場合（ストリングがない）は、[BLANK]という文字列を挿入したいと思っています。 TEXT_STRING_ID_001＜改行＞＜改行＞＜改行＞ TEXT_STRING_ID_002＜改行＞入門書やこのサイトの皆さまのお力を借りて、なんとか以下のようなリストを書きエラーなく置換処理ができるところまでは確認できました。しかし、この方法だと結局1行ずつ処理していることになるので、「s/\n{3}/\n[en]\n/gm」のような置換ができません（mオプションをつけてもダメなようです）。この問題を解決する良い方法はないものでしょうか。（もしかすると、処理の仕方を根本から変えないといけないのでしょうか）以下、現状のリスト： use strict; use warnings; my $dirname = '.'; opendir(DIR, $dirname) or die "$dirname: $!"; while (my $dir = readdir(DIR)) { next unless (-f $dir); next unless ($dir =~ /\.txt$/); print $dir, "\n"; open(FILE, $dir) or die "$dir: $!"; my @file = <FILE>; close(FILE); foreach my $line (@file) { $line =~ s/\n{3}/\n[BLANK]\n/gm; } open(NEWFILE, "> $dir") or die "$dir: $!"; print NEWFILE @file; close(NEWFILE); } closedir(DIR);
- ベストアンサー
- Perl
文字列を指定して，別のファイルでその文字列が存在する行を出力する
いつもお世話になっております．環境はWindows XP Pro でActiveperlを用いてプログラムをしております．この度，皆様にご意見をうかがいたいのは，「文字列を指定して，別のファイルでその文字列が存在する行を出力する」という内容です．まず，以下のテキストファイルがあります． data.txt ---------------------- A BA C DA E FA G sansyo.txt ----------------------------- B D F ------------------------------- 処理として，data.txtでsansyo.txtの行が "含まれる"行数を出力する ------------------------------- output.txt ------------------------------- 2 4 6 ここで自分なりにプログラムを組んでみました． ----------------------------------- open(FILE, "sansyo.txt"); open(FILE2,"data.txt"); @file = <FILE>; close(FILE); @file2 = <FILE2>; close(FILE2); foreach $line (@file) { foreach $line2 (@file2) { if ($line =~ $line2){ $hit = $.; } open(NEWFILE, " >> output.txt") or die "$!"; print NEWFILE $hit; close(NEWFILE); } } #ここまで ------------------------------------- ですが，永久ループに入ってしまったようにファイルはできるのですが，出力されてきません．間違っている点をご指摘ください．
- ベストアンサー
- Perl
下のディレクトリ（3つ）に含まれる同じファイル名のテキストを結合し，カレントディレクトリに出力する
いつもお世話になっております．環境はWindows XPのActiveperlです．やりたいことは「下のディレクトリ（3つ）に含まれる同じファイル名のテキストを結合し，カレントディレクトリに出力する」ことです．具体的にはいかのようにしたいと思っています．現在のディレクトリ/a/1.txt a b c 現在のディレクトリ/b/1.txt d e f 現在のディレクトリ/c/1.txt g h i 現在のディレクトリ/1.txt a b c d e f g h i ここで私は以下のプログラムを作成しました． use strict; use warnings; my $dirname1 = './a/'; my $dirname2 = './b/'; my $dirname3 = './c/'; opendir(DIR1, $dirname1) or die "$dirname1: $!"; while (my $dir1 = readdir(DIR1)) { next unless (-f $dir1); next unless ($dir1 =~ /\.txt$/); opendir(DIR2, $dirname2) or die "$dirname2: $!"; while (my $dir2 = readdir(DIR2)) { next unless (-f $dir2); next unless ($dir2 =~ /\.txt$/); opendir(DIR3, $dirname3) or die "$dirname3: $!"; while (my $dir3 = readdir(DIR3)) { next unless (-f $dir3); next unless ($dir3 =~ /\.txt$/); if (($dir1 == $dir2) && ($dir2 == $dir3)){ open(FILE1, $dir1) or die "$dir1: $!"; my $line1 = <FILE1>; close(FILE1); open(FILE2, $dir2) or die "$dir2: $!"; my $line2 = <FILE2>; close(FILE2); open(FILE3, $dir3) or die "$dir3: $!"; my $line3 = <FILE3>; close(FILE3); my $joint_line = $line1.$line2.$line3; open(NEWFILE, "> $dir1") or die "$dir1: $!"; print NEWFILE $joint_line; close(NEWFILE); } } } } closedir(DIR1); closedir(DIR2); closedir(DIR3); ですが，以下のようなエラーが発生しています． closedir() attempted on invalid dirhandle DIR2 at joint.pl line 51. closedir() attempted on invalid dirhandle DIR3 at joint.pl line 52. ディレクトリハンドルが使われているけれど閉じているか実際にはディレクトリハンドルでは無い時にこれらの警告が発行されるとこの警告がでるようですが，どのようにしたら解決できるのでしょうか．よろしくお願いします．
- 締切済み
- Perl
perl 5.8.8 日本語マッチ
perl5.8.8を使っています。日本語にマッチする正規表現を書きたいのですが、どうしてもマッチしません。例えば、以下のファイルtest.txtから「さしすせそ」だけを抽出し、表示させたいです。 ---------test.txt-------------------------------- あいうえおかきくけこさしすせそたちつてと -------------------------------------------------- ----------test.pl-------------------------------- use strict; use warnings; open(FILE, 'test.txt') or die "$!"; my @file = <FILE>; close(FILE); foreach my $line (@file){ if($line =~ /^さ/){ print "$line\n"; } } ------------------------------------------------ このtest.plを実行しても「さしすせそ」を抽出することができません。どうしたらよいのでしょうか? 自宅の新しいバージョンのperlだとできるのですが会社のperlは5.8.8で顧客環境でもあるのでバージョンアップもできません。すみませんが、よろしくお願いいたします。
- ベストアンサー
- Perl
perlで文書を読み込み検索置換したい
MAC OS Xを使用しています。検索置換のプログラムをperで作成し、Applescript上で呼び出したいのです。実際はファイルメーカーのスクリプトの中でApplescriptを記述してその中で呼び出したいのです。 do shell script "perl ～.pl"という感じで使えるのではないかと下記のようなサンプルスクリプトを見つけたのですが内容の更新の仕方がよく分かりません。 perlについては全くの初心者でいろいろ調べたのですがよく理解できませんでした。検索置換したいのですが、どういうふうに書けばいいのでしょうか。 (2)の部分を教えて下さい。宜しくお願いします。 use strict; use warnings; use File::Copy 'move'; # (1) ファイルの内容を読み込む my $file = 'F:\共有\PERL\test.txt'; open my $fh, '<', $file or die qq/Can't open file "$file": $!/; my $content = do {local $/; <$fh>}; close $fh; # (2) 内容の更新　▼をリターンに置き換えたいのです。 $line =~s/▼/\n/; # (3) 一時ファイルへの書き出し my $temp_file = "$file.$$." . int(rand 10000); open my $temp_fh, '>', $temp_file or die qq/Can't open file "$file": $!/; print $temp_fh $content; close $temp_fh or die qq/Can't open file "$file": $!/; # (4) 一時ファイル名を元のファイル名に変更 move $temp_file, $file or die qq/Can't move "$temp_file" to "$file": $!/;
- 締切済み
- Perl
文字コードの変換（Shift-JISからUTF8)
文字コードがShift-JISのCSVファイルを読み込み、UTF-8のテキストファイルに出力するのにプログラムの中で変更しようとしているのですが、うまくいきません。出力ファイルの文字コードを確認するとShift-JISのままです。どなたか教えていただけないでしょうか？ ActivePerl v5.16.0を使用し、Encodeモジュールのfrom_toを使用しています。 #!/usr/bin/perl use strict; use warnings; use utf8; use Encode; my $input_file="input.csv"; my $output_file="output.txt"; open (IN, $input_file) or die "$!"; open (OUT, ">$output_file") or die "$!"; while (<IN>){ chomp ($_); my @data=split(/,/,$_); for(my $i=0;$i<@data;$i++){ $data[$i]=Encode::from_to($data[$i],'shiftjis','utf8'); #Shift-JISからUTF-8に変換 $data[$i]=~s/\s+//g; print OUT $_; } print OUT "\n"; } close (IN); close (OUT);
- ベストアンサー
- Perl

Perl初心者の方への質問：テキストファイルから12文字以上の単語を抽出する方法がわかりません

sakusaker7の回答

お礼 2009/12/20 18:19

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

Perl初心者の方への質問：テキストファイルから12文字以上の単語を抽出する方法がわかりません

sakusaker7の回答

お礼 2009/12/20 18:19

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

カテゴリ
一覧

専門家に質問してみよう
専門家登録