perlで容量の大きいCSVファイルを開く方法

2023/08/09 21:22

このQ&Aのポイント

ファイル容量の大きいCSVファイルを開く方法について紹介します。
CSVファイルから必要な項目を抜き出して別ファイルにするプログラムを作成する際、容量の大きいファイルを処理する方法について解説します。
ファイル容量が140MBを超えるような大きなCSVファイルを読み込む際にブラウザー表示ができない問題について解決策を提案します。

ベストアンサー

perlで容量の大きいCSVファイルを開く方法

2010/06/24 12:54

perlで容量の大きいCSVファイルを開く方法ファイル容量の大きいcsvファイルから、必要な項目を抜き出して別ファイルにするプログラムを作成したいと思ってます。 csvファイルが少ない場合は動作したのですが、容量が140MBを超えたデータを読み込もうとすると、ブラウザー表示で何も変化いたしませんプログラムは以下のようになってます。 ------------------------------------------------- 略 open(IN,"$inport") || &error(" $inport を読み込みopen出来ません"); flock(IN,1); @lines = <IN>; foreach $lines (@lines) { local(@val) = split("\,", $lines); print "$val[0]"; $dat .= "$val[1]\,$val[5]\n"; } open(OUT,">$dcsv"); flock(OUT,2); print OUT "$dat"; close OUT; 略 ------------------------------------------------- 件数も多いので、foreachを$lines (@lines) としないで($start .. $end)として読み込みの件数を制限して対応しようと考えてましたが、うまくいきませんでした。ご指導いただけますと幸いです。

hihin2003
お礼率71% (49/69)

Perl
回答数2
ありがとう数16

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

mtaka2
ベストアンサー率73% (867/1179)

2010/06/24 14:07 回答No.2

質問者さんのコードは > @lines = <IN>; ここで、ファイルの全データを変数に読み込んで > foreach $lines (@lines) { これで、データを1つづつ取り出すという処理になっていますので、「@lines=<IN>」の時点でメモリを大量に消費します。この2行の代わりに > while ($lines = <IN>) { とすれば、ファイルから1行ずつデータを読んで処理するようになりますので、ファイルサイズが大きくても処理できるようになります。ただし、そうやったとしても、 > $dat .= "$val[1]\,$val[5]\n"; この部分で変数 $dat のサイズがどんどん大きくなりますから、そちらの分のメモリ消費は入力ファイルサイズに比例します。 --- open(IN,"$inport") || &error(" $inport を読み込みopen出来ません"); flock(IN,1); open(OUT,">$dcsv"); flock(OUT,2); while ($lines = <IN>) { local(@val) = split("\,", $lines); print "$val[0]"; print OUT "$val[1]\,$val[5]\n"; } close IN; close OUT; --- とすれば、完全に入力ファイルサイズに依存しないようになります。

質問者

お礼 2010/06/24 22:20

回答ありがとうございます。具体的な方法までご指導いただきとても助かりました。早速やってみたところ無事動作いたしました。ありがとうございます。

その他の回答 (1)

kuroizell
ベストアンサー率55% (95/170)

2010/06/24 13:47 回答No.1

foreach → whileに変更でいかがでしょうか。 foreachはファイルをすべてメモリ上に読み込みますが、 whileでは一行ごとに処理するので省メモリで済みます。

質問者

お礼 2010/06/24 22:18

ありがとうございます。早速やってみました。恐ろしいくらいのパフォーマンス向上ですね。

関連するQ&A

perlで大容量CSVのsort方法について
perlで大容量CSVのsort方法について perlでcsvファイル100MB超のファイルをソートしたいと思ってますが、以下の方法でメモリーの関係上(と思ってます。)できません。ソートを行う方法がありますでしょうか? 件数も11万件あるので、エクセルでソートしてからの受け渡しが出来ずに悩んでます。 (ここから) #sortロジック sub sort { use warnings; use feature ':5.10'; open my $ifh, '<', $inport or &error("Can't open $inport"); my @lines = <$ifh>; close $ifh; print @lines, "\n"; #csvファイル何番目? my @sorted = map { $_->[0] } sort { $b->[0] <=> $a->[0]} map { [(split q{,}, $_)[0], $_] } @lines; @lines = @sorted; exit; } (ここまで) いつも貴重なアドバイスをありがとうございます。よろしくお願いいたします。
- ベストアンサー
- Perl
PerlでのCSV書き込みについて質問です。
perl初心者です。 perlで投票のプログラミングを作ってるのですが、どうもうまく動きません。やりたいことは・投票されたら　１）csvを読み込む　２）該当するNOのカウントをアップ　３）csvに書き込むという単純なことなのですが、投票してもカウンタは0のままになってしまいます。書き込み部分のプログラムが間違っているとは思うのですが何が間違っているのかがどうしてもわかりません。どなたかお知恵を貸してくださいm(__)m プログラムは下記のようになっています。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ foreach my $key (@key) { $val = $in{$key}; $in{$key} = &Jcode::convert(\$val, 'sjis'); } # データオープン open(DAT,"+< $datfile"); flock(DAT, 2); my @data; while (<DAT>) { push(@data,$_); if (eof) { last; } } # データ書き込み truncate(DAT, 0); seek(DAT, 0, 0); my $i=1 while (i<11){ my ($no,$name,$count) = split(/,/, $data[$i]); if($val eq $no){$count++;} if (eof) { last; } $i++; print DAT "$no,$name,$count,\n"; } close(DAT); ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝どうぞよろしくお願いします。
- ベストアンサー
- Perl
データ削除方法について
現在以下のプログラムでデータを削除しています。 (ここから) print "Content-type: text/html\n\n"; open(IN,"<$memfile") || &error("Can't write $memfile"); flock(IN, 2); @lines = <IN>; foreach $lines (@lines) { ($seq,$name) = split("<>", $lines); if("$del" eq "$seq"){ next; }else{ $data .= $lines; } } close IN; open OUT, "> $memfile"; flock OUT, 2; print OUT $data; close OUT; print "<html>完了しました<br><a href=?mode=menu>戻る</a></body></html>"; exit; (ここまで) このプログラムでも削除出来るのですが、foreachの処理で対応するとパフォーマンスが悪いのかな? と思ってます。(ハッキリとはわかりません) 件数が多くなるとサーバーエラーになるのかな?と思ってます。もっと効率の良い方法がありましたらと思い質問いたしました。 perlを独学で学んでいるので、見る人が見ると変なつくりだと思ってます。以上、よろしくお願いいたします。
- ベストアンサー
- Perl
複数のCSVを1つのファイルにまとめる
リモートからダウンロードしたCSVファイルをひとつにまとめる処理をしています。ダウンロードするリストファイルとCSVファイルのダウンロードはできたのですが、最後にダウンロードしてきたCSVファイルをひとつにまとめるところがうまくいきません。こちらの過去ログから下記記述してみたのですが、うまくいきません。 if(open(OUT,">$path/$year$mon$mday$csv")){ 　　　　for my $fname (sort @dirs){ 　　　　　　 if(open(IN,"$path/$fname")){ 　　　　　　　　 my @lines = <IN>; 　　　　　　　　 print OUT @lines; 　　　　　　　　 close(IN); 　　　　　　 } 　　　　} 　　　　close(OUT); 　　} for my $fname (sort @dirs){の記述で、Unrecognized characterといったエラーが出てうまくいきません。項目の設定に誤りがあるのでしょうか？perl初心者でよくわかりません。 $fnameや@dirsはどのように設定すればいいのでしょうか？
- ベストアンサー
- Perl
CSVデータの編集の際の重複チェックの方法
今、data.csv（カンマ区切り）として、左から順位、名前、性別という3項目で、10人程度のリストデータがあります。 data.csv（カンマ区切り）を編集するようにしていますが、順位は重複してはならないので、重複していたらエラーを出したいのですが。。。 ($rank,$name,$sex) = split(/\,/,$line); です。 open(IN,"$logfile") || &error("ファイルが開けません"); @lines = <IN>; close(IN); # 情報の書換え foreach $line (@lines) { ($rank,$name,$sex) = split(/\,/,$line); $line = "$in{'rank'},$name,$sex\n";} push(@new,$line); } # ファイルを更新 open(OUT,">$logfile") || &error("ファイルが開けません"); print OUT @new; close(OUT);
- 締切済み
- Perl
どうやればいいのかわかりません＞＜；
あるプログラムを完成させたいんですが、以下の部分がうまくいきません。 foreach $del_word ( @del){ if ( "$FORM{'sub_product'}" =~ /$del_word/){ open(IN, ">>./csv/log.csv") or printErrorPage("エラー"); eval{ flock (FILE, 2) }; seek(IN, 0, 2); print IN "$in"; close(IN); { exit; } } } 簡単に説明しますと、 @delは１行に１単語（例えば「時計」など）ずつ約１０行ほど入力したdel.csvファイルの内容が入っています。ちなみにそこの部分は open(OUT, "./csv/del.dat") or printErrorPage("エラー"); eval{ flock (OUT, 1) }; @del = <OUT>; close OUT; です。そして、どういった作業をしたいかというと、この$FORM{'sub_product'}に入っているワードに@delに収納されているワードがひとつでもマッチする場合、 $inという文章をlog.csvに書き込むというプログラムです；；初心者なのですが、どなたかアドバイスいただけたらと思います！！どうぞ宜しくお願いしますーっm(＿)m
- ベストアンサー
- CGI
perlでcsvファイルから複数行を抽出したい
プログラミング初心者です。お知恵をお貸しください。 perlでcsvファイルから任意の複数行を、コマンドライン引数を使って抜き出したいです。 1行だけだとうまくいきますが、以下ではすべてのcsvデータが出力されてしまいます。 ----------------------getcsv.pl ここから---------------------- #!/usr/bin/perl -- use strict; use warnings; open(IN, "<adata.csv"); open (OUT, ">$bdata.csv"); while(<IN>){ if($. == $ARGV[0] || $ARGV[1] || $ARGV[2] || $ARGV[3]) { print OUT $_; } } close(IN); close (OUT); ----------------------getcsv.pl ここまで---------------------- ----------------------コマンドここから---------------------- perl getcsv.pl 1 3 8 10 ----------------------コマンドここまで---------------------- よろしくお願いします。
- ベストアンサー
- Perl
ログの一部を消す Perl
ログの一部を消すPerlを考えています。ここではソースを短くするために、ログの一部を消し去ってログファイルに上書きするデータは $deta だけだとすると open F, '+<a.log'; flock F,2; $deta = <F>;//実際はここでもっと処理 truncate F,0; seek F,0,0; print F $deta; close F; と、 open IN, 'a.log'; flock IN,2; open OUT, '>a.log'; flock OUT,2; $deta = <IN>;//実際はここでもっと処理 print OUT $deta; close OUT; close IN; の2つを考えました。上のように読み込みと書き込みを同時にやった方がいいのか下のように分けてやった方がいいのか教えてください。ロックは flock を使って、普通レベルのロックができるぐらいでいいと思っているんだけど、この flock の書き方でおかしいところがあれば教えてください。
- ベストアンサー
- CGI
perlでCSVをソートする方法について
perl初心者です。いつもありがとうございます。 perlでcsvファイル(1行のカラム数は200)、総行数は約３万行のファイルを37番目のカラム(-25以上25未満の数値データ)で降順ソートしその値によって行数がだいたい均等になるよう3分割し、2番目のカラムに文字でも数字でもよいのですがその４つのグループごとにフラグ(例えば1,2,3)を入れたいと思ってます。グループ化については境目の37番カラムの値は重複している場合が多いと思うのですがその場合は下(別に上でもかまいません)に入れるものとします。ソートロジックは過去の質問を参照して理解しましたがグループ化しフラグを入れるルーチンがうまく作れません。下記のように作ったのですがこの先同じことを何度もやらなくてはならないので先に進めません。どなたかお助けください。最終的にやりたいことはカラム37でグループ化→カラム2にフラグを立てる、次にカラム2とカラム38(-25から0までの数値)でソートし同様に同じ行数になるようにグループ化→カラム3にフラグを立てる、さらにカラム2とカラム3とカラム39(-25以上25未満の数値データ)でソートし・・・同様に繰り返し最終的に1グループが100件(行)～150件(行)になるようにしたいのです。つまり約３万件のデータを3*4*2*4*2=192分割(5列の値で分類)したい、そしてどのような範囲で分割したかという情報も得たいのです。 use strict; use warnings; use utf8; use Encode; binmode STDOUT, ':encoding(utf-8)'; my $dir = './data'; # 処理するディレクトリ my $motoFile = 'customer.txt'; # もとファイル open my $fh, '<:encoding(cp932)', "$dir/$motoFile" or die 'ファイルが開けません。',"$!"; my %sorted; while (my $line = <$fh>) { my $key = (split /,/, $line)[37]; push @{$sorted{$key}}, $line; if (@{$sorted{$key}} == 1000) { open OUT, '>>:encoding(cp932)', "$dir/$key.tmp" or die "Can't open: $!"; print OUT @{$sorted{$key}}; close OUT; @{$sorted{$key}} = (); } } open OUT, '>:encoding(cp932)', "$dir/out.txt" or die "Can't open: $!"; foreach my $key (sort { $b <=> $a } keys %sorted) { if (-e "$key.tmp") { open IN, '<:encoding(cp932)', "$dir/$key.tmp" or die "Can't open: $!"; print OUT while <IN>; close IN; } print OUT @{$sorted{$key}} if @{$sorted{$key}}; } close OUT; #↓↓↓↓ここからフラグを作成するルーチン # 行数を調べ3つに分けるルーチン my @colum37; open IN, '<:encoding(cp932)', "$dir/out.txt" or die 'ファイルが開けません。',"$!"; my @in = <IN>; close IN; my $gyousuu = scalar(@in); my $amari = $gyousuu % 3; if ($amari == 0) { my $groupGyousuu = ($gyousuu-$amari)/3; print "総行数は$gyousuu","で、1グループの行数は$groupGyousuu","ほど、余りは$amari\n"; # あまりが0の時、group1は@inの0行～$groupGyousuu-1行まで # 　　　　　　　 group2は@inの$groupGyousuu行～$groupGyousuu*2-1行まで # 　　　　　　　 group3は@inの$groupGyousuu*2行～$groupGyousuu*3-1行まで foreach my $num (1..2) { push @colum37, (split /,/, $in[$groupGyousuu*$num])[37]; # これは境目の先頭の37番目 } print "@colum37\n"; #これでここまでは完成、分けるべき値がこの配列に入っている。 open OUT, '>:encoding(cp932)', "$dir/out.txt" or die "Can't open: $!"; foreach my $line (@in) { my @line = split /,/,$line; if ($line[37]>=$colum37[0]) { $line[1] = 1; }elsif ($line[37]>=$colum37[1] and $line[37]<$colum37[0]) { $line[1] = 2; }elsif ($line[37]<$colum37[1]) { $line[1] = 3; } $line = join (',',@line); print OUT $line; } close OUT; } elsif ($amari == 1) { この後未作成
- ベストアンサー
- Perl
perlでファイルのデータの一部を削除したい
久しぶりにPerlを操作してファイルのデータの一部を削除したいのですが、削除出来ずに困っております。 3年以上触っていないため、過去のファイル等々を見ながらやってましたが、結果は出来ずじまいで停滞して困っております。ご指導いただけないかと思い、書き込みしました。ファイル名　$tmpfile データ構成　 no,名称 1<>フレーム 2<>レンズ 3<>カメラ 4<>ファインダー 5<>めがね 6<>ズームこれで「めがね」を削除したいのです。データnoで削除したいと思っておりますが、うまく動作しません。以下ソース open(DB,"$tmpfile") || &error("Open Error : $tmpfile"); flock(DB, 1); @lines = <DB>; @new=(); foreach $line (@lines) { $flag=0; ($no,$meisyo) = split("<>", $line); foreach $x (@DEL) { if ("$x" eq $tmpnum) { $flag=1; last; } } if ($flag == 0) { push(@new,$line); } } open(OUT,">$tmpfile") || &error("Write Error : $tmpfile"); print OUT @new; close(OUT); ここまで上のソースですと、エラーこそならずに(そうみえているだけかもしれません)終わりますが、データ削除が正しく出来ませんでした。説明不足があるかもしれませんので、指摘いただけますと幸いです。よろしくお願いいたします。
- ベストアンサー
- Perl

perlで容量の大きいCSVファイルを開く方法

perlで容量の大きいCSVファイルを開く方法