• 締切済み

データ比較から抽出ができなくて困っています。

はじめまして。どなたかご存知の方がいらっしゃれば教えてください。 大量のデータが入ったフォルダがA,B(約90,000枚の画像データ)それぞれありますが、そのA,Bを比較し重複していないデータのみ抽出を行いたいのですが、良い手法及びソフトはございませんでしょうか。

みんなの回答

  • jizou7
  • ベストアンサー率31% (116/363)
回答No.1

SimiPix を使ってます が、9万枚ですか・・ 上記ソフトは画像を並べて確認しながらの作業です

参考URL:
http://www.vector.co.jp/soft/dl/winnt/art/se363819.html
sweeper
質問者

お礼

ありがとうございます。 実はSimiPixは使ってみました。 A,Bのフォルダで多いのが重複している方が多いので、結構引っかかりながら行う形になると思います。 90,000枚は厳しいですよね。 90,000枚のうち重複していないデータが約2,000~4,000枚。 この2,000枚から4,000枚を抽出したいのです。 もう少し探してみます。

関連するQ&A

  • 重複データの抽出

    重複した数字のデータを抽出してまとめたいのですが教えていただけないでしょうか? 例えば A列    B列   1245     1365     1245 1398 1365 1155 1245 この表を      A列    B列   1245    1245 1365    1365 1245    1398 1398    1155 1365 1155 1245 のようにまとめたい A列の重複したデータを抽出しB列にまとめたいのですが、なるべく関数でやりたいのですが、良い方法をお願いいたします。

  • awk データの抽出

    awkでスクリプトを作っているのですが、 それぞれのデータの抽出が解りません a100b200* b200* b300* というデータを比較することを扱っています これの意味するところは、 1つ目aが100 bが200 2つ目aが100 bが200 3つ目aが100 bが300 なんです 私が考えているのはa100b200*というデータから、 *をFSとしてそれとは別にaは100ですよ bは200ですよ とデータを抽出して 2つ目と比較aは省略されてますが、意味は同じなので同じ 3つ目と比較bが違うので違う と こうやりたいと思っています 長くなってしまいましたが、 セパレータ内のデータの抽出方法を教えてください

  • 大量データから抽出する効率よいperlプログラムは

    以前も質問させていただきましたが、 大量データから抽出する際の効率よいperlプログラム作成について また、教えてください。 例) 大量データ Aファイル 3列 可変値(数値、URL、数値)タブ区切り 重複値あり 123 http://www.XX.co.jp/XX 4567 1111 http://www.XX.co.jp/XX 3333 3 http://www.XX.co.jp/YZ 4567 1111 http://www.YYY… 116 … 抽出対象データ Bファイル 1列(URL)重複なし http://www.XX.co.jp/X http://www.YYY.co.jp … BファイルにあるURLで始まるURLがAファイルにある場合 Aファイルのその行を抽出したい。 grepで実施すると すごい時間がかかってしまうため、効率よい抽出方法をおしえてください。 今回は、完全一致ではなく、Bファイルに入っているリストのURLから始まるものにしたいと考えているので、前の手法(hash連想配列)が使えないと考えております。 Aファイルが容量大きいため、grep処理では1週間たっても終わらないのです。

    • ベストアンサー
    • Perl
  • エクセル データの抽出について教えてください。

    エクセルのデータの抽出について教えてください。 大量のデータ(数字のコード)がランダムに縦に並んでいるのを、並び替えで日付順にしたのですが。 重複しているのがとても多く重複しているのは日付が早いのだけを取り出したいのですが。なにかよい方法はないでしょうか? 重複しているのに(重複していらないのに)標しでわかりやすくしてあとでフィルタで抽出して削除でもしようかと思うのですが。 標しがつけれるようなやりかたおしえてください。 

  • エクセルの重複データを抽出し、最新のデータを残した

    エクセルの重複データを抽出し、最新のデータを残したいです。 A列 B列 1 aaa@aaaa.co.jp 2014/1/1 2 bbb@aaaa.co.jp 2013/1/2 3 aaa@aaaa.co.jp 2014/1/10 4 aaa@aaaa.co.jp 2014/10/10 A列にアドレス、B列に日付が入っているデータがあります。 (他にC列などにも顧客情報が入っています。) アドレスの重複データを抽出し、最新の日付の行が残るようにしたいです。 この場合ですと2と4が残るようにしたいです。 膨大なデータの為、困っています。 良い方法をご存知の方、よろしくお願い致します。

  • セル内の同じデーターを抽出したい

    エクセル表の中で重複するデーターを抽出し一方を消去していきたい。 関数でやるのかソフトがあったのか忘れてしまいました。 ご存知の方お聞かせください。

  • ACCESSで2つのテーブル比較で一致データのみ抽出したい

    ACCESS初心者です。 2つのテーブルのあるフィールドを比較して、 両方のフィールドに存在するデータであれば、それを抽出する といったことをしたいのですが、どなたか手法を教えて下さい。 よろしくお願いします。

  • 大量データから抽出する際の効率よいperlプログラム作成について教えて

    大量データから抽出する際の効率よいperlプログラム作成について教えてください。 例) 大量データ Aファイル 3列 可変値(数値、URL、数値)タブ区切り 重複値あり 123 http://www.XX.co.jp/XX 4567 1111 http://www.XX.co.jp/XX 3333 3 http://www.XX.co.jp/YZ 4567 1111 http://www.YYY… 116 … 抽出対象データ Bファイル 1列(URL)重複なし http://www.XX.co.jp/XX http://www.XX.co.jp/ZZZ … Aファイル、BファイルともにURL降順ソートされている BファイルにあるURLがAファイルにある場合 Aファイルのその行を抽出したい。 grepで実施すると すごい時間がかかってしまうため、効率よい抽出方法をおしえてください。

    • ベストアンサー
    • Perl
  • 条件に一致したデータの検索・抽出について

    エクセルで2つのデータから条件に一致したデータを検索・抽出がしたいのですが、うまく抽出することができないため、質問させていただきます データA |入荷日|商品番号|商品名|数量|金額| |1.1|1111|〇〇〇|10|10| |1.2|2222|◎◎◎|15|15| |1.3|3333|△△△|20|20| |1.4|4444|◆◆◆|10|10| データB |販売日|商品番号|商品名|販売数| |3.1|1111|〇〇〇|   | |3.2|    |AAA|100| |3.3|    |BBB|120| |3.1|2222|◎◎◎|   | |3.3|    |CCC|100| |3.1|3333|△△△|   | |3.1|4444|◆◆◆|   | データBから商品番号の一致したデータの一部を抽出してデータAに追加したいです (一部が難しいようなら1行そのまま抽出でも大丈夫です) 理想は |入荷日|商品番号|商品名|数量|金額|販売数| |1.1|1111|〇〇〇|10|10|   | |   |    |AAA|  |  |100| |   |    |BBB|  |  |120| |1.2|2222|◎◎◎|15|15|   | |   |    |CCC|  |  |100| |1.3|3333|△△△|20|20|   | |1.4|4444|◆◆◆|10|10|   | もしくは、関数を利用して以下の形にできれば、と思います |入荷日|商品番号|商品名|数量|金額|商品名|販売数|商品名|販売数| |1.1|1111|〇〇〇|10|10|AAA|100|BBB|120| |1.2|2222|◎◎◎|15|15|CCC|100|   |   | |1.3|3333|△△△|20|20|   |   |   |   | |1.4|4444|◆◆◆|10|10|   |   |   |   | データAをベースに、データBから重複データのうちすでにデータAにあるものを省き(1件目は重複データなので2件目以降)抽出する 1.データB商品番号重複しています。重複データの1件目はデータAと共通で、2件目以降を抽出したいです 2.データB商品番号の重複はそれぞれ違うため、1件も重複してないものもあれば3件ほど重複しているものもあります 3.データAは入荷日の範囲を指定したデータですが、データBは入荷日項目がないため抽出する必要のない内容・件数のデータもはいっています。その為、データAから抽出するのではなく、データAをベースにデータBから抽出がしたいです。 よろしくお願いします。

  • データの比較

    SQLserver2005を使用ています.     ----------------- 日付 値 6/9 13:10 158 ・・・1 6/9 13:00 154 ・・・2 6/9 12:50 40 ・・・3 6/9 12:40 158 ・・・4 6/9 12:30 37 ・・・5 6/8 08:45 152 ・・・6 6/8 08:40 159 ・・・7 ----------------- というデータの中から Aの一つ前の時間のBと比較して値が100以上少なく 変化していたらそのAのデータを抽出. 例として, 3は4に比べ-100以上変化しているので抽出. 5は6に比べて-100変化しているが, 日付が違うので抽出しない. という条件を作りたいのですが, いまいちピンと来ないのでご教示いただけると幸いです. よろしくお願いします.

専門家に質問してみよう