• 締切済み

分割されたデータの中身

お初にお目にかかります。 なんとなくふっと疑問に思ったことがあったので質問させて頂きます。 例えば、テキストファイルなどを ファイル分割ソフトでふたつに分割した時、 その一方だけから、テキストファイルの中身を 解析または予測することは可能でしょうか? 「となりのきゃくは よくかきくうきゃくだ」 馬鹿らしいかもしれませんが、 ↑のようなテキストだけ入ったファイルをふたつに分割した後、 その一方を解析すると「となりのきゃくは」 というテキストが入ってることはわかるのか? というような。 それともうひとつ。 複数のファイルをふたつずつに分割した後、 そのひとつひとつが、どのファイルの片割れか 判別する方法はあるでしょうか? 例えばAとBというファイルをふたつずつに分割し、 w、x、y、zという分割ファイルができたとして、 wの相方はどれ、xの相方はどれという風に 分割ファイルそのものを解析したり 何らかの方法で判別できるか? というような。 PC初心者がなんとなくふっと疑問に思っただけですので、 お暇な時にでもエキスパートな方からのご解答お待ちしてます。

みんなの回答

  • celtis
  • ベストアンサー率70% (2271/3210)
回答No.2

文章の繋がりを推測するには、処理系に膨大なデータベースが必要になるでしょうね。例えば百人一首の上の句と下の句の組み合わせを記録していれば、上の句の数文字で下の句の繋がりを見つけることができると思います。 分割したデータのマッチングは、それぞれの識別コードを埋め込むような工夫がいるでしょう。先ほどの例では上の句のハッシュ値を下の句に埋め込み、その逆も同様の処理を済ませておけば、ハッシュ値の比較で対になるデータを見つけることができるはずです。 http://e-words.jp/w/E3838FE38383E382B7E383A5E996A2E695B0.html

回答No.1

>その一方だけから、テキストファイルの中身を >解析または予測することは可能でしょうか? 単に分割するなら、一方からもう片側の内容を予測することは出来ない。 「となりのきゃくは」というファイルと、「よくかきくうきゃくだ」というファイルが出来るだけなので。 >複数のファイルをふたつずつに分割した後、 >そのひとつひとつが、どのファイルの片割れか >判別する方法はあるでしょうか? よって、これも判別する方法は無い。 あらかじめ「この2つのファイルがペアになっている」とメモっておく必要がある。

sh1004
質問者

お礼

ありがとうございました。お礼が大変遅くなり申し訳ありません。

関連するQ&A

  • 250万行1ギガbのテキストデータを分割して、それぞれテキストファイルとして保存したい

    250万行1Gbのテキストデータを分割して、それぞれテキストファイルとして保存して、 アクセスやエクセルで開きたい。 当方、VISTAです。 250万行1Gbのテキストデータを分割して、それぞれテキストファイルとして保存して、アクセスやエクセルで開きたいです。 ソフト「ファイル裁断+」だと、分割できましたが、テキストファイルでない形式なので、結局、再マージするしかないかと・・・ ソフト「div」は、なぜか、実行中の後、データが消えてしまいます。データが重すぎるのか、VISTAだからなのか・・・ ソフト「Em Editor」で、地道に切り取り→貼り付けして分割しようにも、10万行とかの貼り付けはできないようです。 ちゃんと起動してくれるなら、有料でもかまいません・・・ どうぞ、よろしくお願い致します。

  • 35万画素CCDからのピクセルデータ取得

     35万画素(500x700)CCDからピクセルデータを.bitファイルで取得しています。が、作った解析ソフトがテキスト形式かエクセルからしか読みません。bitをtxtに変換すると書式が変更されて表示がおかしくなります。  エクセルでは6万個しか読まないので画像が切れます。 これを縦横セルがずれることのないように、テキスト化できる方法がありましたら教えてください。

  • 複数ウインドウで同一ファイルを表示できるテキストエディタ(OS-X)

    長い文章を書いていて、便利なエディタを探しています。 (OS-Xにて) ウインドウを分割するだけならCotEditorが便利なのですが、分割するとひとつの画面が狭くなってしまいます。 1つのファイルを、複数のウインドウで開いて作業できるテキストエディタはないでしょうか? (または軽い動作のワープロソフト) もちろん、一方のウインドウで変更したものは、(同一ファイルの)別のウインドウにもリアルタイムで反映される必要があります。 (注: 複数のファイルを1つのウインドウ(タブ)で扱うソフトではありません。その逆です) よろしくお願いいたします。

  • イラストレーターCS3でのテキストデータが…

    イラストレータ-5.5で作成したデータをCS3で開き、 フォントや字間を調整していました。 一度、保存してファイルと閉じ、 作業を再開させようとファイルを開くと 字間の詰めが変更できず、疑問に思いました。 すると、文章になっていたはずのデータが 1文字ずつ分割されたテキストデータになっていました。 アウトラインにはなっていません。全く原因が分からず困っています。 元に戻す方法もしくはこのような原因にお心当たりのある方が いらっしゃるなら助言していただきたいです。

  • イラレでのテキストボックス内の文章の分割現象

    イラレCS2のテキストボックスで何行にもわたって文章を書き保存し、 その後、イラレ10で開いたのですが、テキストボックス内の文章が 一行ごとに分割されてしまいました。 10で開いた際に出てくる注意文(この文章では以前のバージョンでの Illustlatorで作成されたテキストが含まれています。このファイルを 更新するにはテキストを更新する必要があります。)で「更新」を選択 してもダメでした。 この現象はCS2→CS4でも起こってしまいます。 ちなみにフォントは「MS明朝」を使用しています。 自宅と大学でバージョンが異なるイラレを使っているため、ファイルを 開くたびにこの現象が起こってしまい、作業が進まずとても困っています。 解決策を知っている方がいらっしゃいましたらよろしくお願いします。

  • perlでファイルを分割してファイル名も出力したい

    >AA A AAA aaaaaaaaaaaaaaa aaaaaaaaaaaa >BBB BB B bbbbbbbbbbbbbbb bbbbbbbbbbbbbbb bbbbbbbbbbbbbb ・ ・ こういった形式でテキストが入った大きいサイズのひとつのファイルを ・ファイル名 AA A AAA ・テキスト内 >AA A AAA aaaaaaaaaaaaaaa aaaaaaaaaaaa ・ファイル名 BBB BB B ・テキスト内 >BBB BB B bbbbbbbbbbbbbbb bbbbbbbbbbbbbbb bbbbbbbbbbbbbb となるように個別に出力させたいのですがどのようにすればよいでしょうか? #!/usr/bin/perl -w use strict; my $first; my $file; $first = 1; open(IN,"分割前ファイル"); foreach(<IN>) { if ( /^>(.*)/ ) { if ($first == 0 ) { close(OUT); } else {$first = 0; } $file = $1; $file =~ s/[\r\n]//; open(OUT,">$file"); } else { print OUT $1; print OUT $_; } } close(IN); このようなプログラムを組んだのですが、出力結果はファイル名についてはいいのですが、テキスト内が思ったようにいきません。 ・ファイル名 AA A AAA ・テキスト内 AA A AAAaaaaaaaaaaaaaaa AA A AAAaaaaaaaaaaaa このような結果になってしまいます。 どなたか対処方をわかるかたがいましたらお願いします。

    • ベストアンサー
    • Perl
  • VBScript Unicodeテキスト読み書き

    VBScriptで存在するUnicodeテキストファイルを開き、別途、Unicodeテキストファイルを作成し、存在する方のテキストファイルから1行ずつ読み込んで、作成したテキストファイルに、そのまま書き込むだけのプログラムを組みました。 それなのに、新たに出来たテキストファイルは文字化けしてしまっています。 どうすればいいのでしょうか? Option Explicit Dim a, w, x, y, z Set w = CreateObject("Scripting.FileSystemObject") Set x = w.GetFolder(".") Set y = w.OpenTextFile(x & "\Test.txt", 1, True) Set z = w.CreateTextFile(x & "\Result.txt", True, True) Do Until y.AtEndOfLine = True a = y.ReadLine z.WriteLine(a) Loop z.Close y.Close Set z = Nothing Set y = Nothing Set x = Nothing Set w = Nothing MsgBox("Finished!") 元々存在するテキストファイルは、テキストエディタで開いて、間違いなく文字コードが「Unicode」であることは確認していますし、新たに作成されたテキストファイルも、エディタで開くと、文字コードが「Unicode」である旨、表示されています。 元々存在するファイルの中に、「Unicode」文字がたくさん含まれていますので、どうしても、「Unicode」で処理しなければなりません。 もちろん、プログラムは、本当はもっと他のことをするために作るのですが、最初のこの部分でつまづいてしまっています。 お分かりになる方、お教えください。

  • アクセス解析について。

    アクセス解析についてお伺い致します。よろしくお願いします。 アクセス解析やその他の方法で以下の様な場合の解析(判別)はできるのでしょうか? (有料や法人向け等も含めて。) (1) NTTのフレッツシリーズ等で2つ以上のプロバイダーを切り替えて利用した場合、 同一ユーザーと判別できるか?(PC・回線は同一の物。) (2) マルチセッション対応のモデム(ルーター)で2つ以上のプロバイダーにて 同時アクセスした場合、同一ユーザーと判別できるか?(PC・回線は同一の物。) (3) ドコモのFOMA携帯でFOMAカードを交換し、別FOMA携帯にてアクセスした場合、 同一ユーザーと判別できるか? (4) 同一回線・同一プロバイダーを利用している状況で、1つのPCで接続した後、 別のPCに回線を繋ぎ変えて接続した場合、「別のPCに切り替えた」と判別できるか? (OS・ブラウザは同一とします。) (1)~(3)はいずれも予測できる、ではなく確たる「判別」ができるか?です。 (接続地域は東京と推測される~等ではなく。) (4)はIPアドレスが変わるのでわかるではなく、繋ぎ変えたPCを判別できるか?です。 上記の中で(1)を解析できるものがあると聞いた事があるのですが…(デマ?)。 忍者TOOLSやinfoseekのアクセス解析を利用した事はありますが、 それ以外はあまり使った事がないので…。 私の利用していたアクセス解析では上記のいずれもわかりませんでした。 (私が理解できなかっただけかもしれませんが…。) 判別できる物(または方法)があるのでしょうか? そういうものを利用したい!というよりも判別できるのかどうかを知りたいだけです。 ふと疑問に思ったので(笑)。 変な質問で申し訳ありません。長文・乱文にて大変失礼致しました。 ご教授の程、よろしくお願い致します。

  • アクセスのフィールド内のテキストデータ(一部)を日付の型に変更。

    こんにちは。質問です。 とあるシステムのログを分析するにあたって、ログとして送られてきたデータ(csv)が大量にあり、(100個のファイルに分割して送られてきました)合計約82万件(200M)をアクセスのテーブルに手作業で追加していきました。 その後、フィールド1のデータが"Tue Jul 27 09:57:01 2004 JST"となっているのを、日付(標準)の形"2004/07/27 09:57:01"にすることになりました。 もともとの"Tue Jul 27 09:57:01 2004 JST"はテキストデータです。 エクスポートして、エクセルなどにしてデータを操作しようとしたところ、データが大きすぎてエクスポートもできませんでした。(テキストファイルにはなりました。が、テキストファイルからエクセルファイルには変更できませんでした) こんなことが可能かどうかもわかりませんが、 このテキストデータを日付型に替えられるようでしたら、方法を教えてください。よろしくお願いします。

  • 数学orアルゴリズムが得意の方(線分と線分の交点判別)

    C言語のアルゴリズムを勉強中です。 線分A(A(x1,y1),B(x2,y2))と線分B(C(x3,y3),D(x4,x4))が交差するかどうかを判別し、交差するのであればその交点P(X,Y)を求める。 また、その交点がどちらか一方の線分上にあるかどうかも判別したいのです。 一番効率よくやるにはどのようにすればよいでしょうか。 例えば 1、三角形の符号付き面積を使って交差するかどうかと各点が線分上にあるかどうかを判別し、その後交点を求める 2、とり合えず交点を求めてその交点が各線分内(上)にあるかどうかを判別 他にもたくさんありそうですがとにかく出来るだけ計算回数を減らしたいのです。(さっき求めた~~を~~するといったかんじで) 出来れば流れ全体を書いていただきたいのですが書き込むのが大変だと思うのでせめて使う判別式だけでも教えてください。 これが出来たら、 多角形と多角形の交点判別のアルゴリズムにも挑戦しようと思っています。 数学の得意な方、アルゴリズムを考えるのが好きな方 よろしくお願いします。