• ベストアンサー

ダブっている単語を削除して1つにしたいです

テキストファイルの中に大量の単語(1Gほど)が羅列しています。 この単語でいくつもダブっている単語がありまして、同じ単語が4つ5つある場合もあります。 ダブっている単語を発見して、ダブっている単語を削除して1つにしたいのですがLINUXでこの作業をする場合どのようにすればいいでしょうか? 恐れ入りますがお時間ある方で上記の処理方法のアドバイスを頂ける方がいらっしゃいましたら何卒よろしくお願いいたします。

質問者が選んだベストアンサー

  • ベストアンサー
  • notnot
  • ベストアンサー率47% (4856/10271)
回答No.2

単語は何で区切られていますか?改行区切り、つまり、1行1単語であれば、 sort -u です。 そうでない場合、改行区切りに変更して良いのであれば、tr 等で区切り文字を変えてから sort -u 。 さらにそうでない場合はその場合に応じて。

megumi19910715
質問者

お礼

ありがとうございます! 求めていたコマンドでした!!

全文を見る
すると、全ての回答が全文表示されます。

その他の回答 (1)

  • mkt23456
  • ベストアンサー率33% (21/63)
回答No.1

uniq コマンドになると思います。 詳しくは調べてみてください。

全文を見る
すると、全ての回答が全文表示されます。

関連するQ&A

  • テキストファイルにおいて任意の単語を含む一行を削除させたい

    テキストファイルの任意の単語を含む一行を削除させるプログラムを作成したいです。 例えば、 test.txt 今日は久しぶりに晴れました。 とてもいい天気だったので、ショッピングに。 その後、アップルストアにて新発売のMacを触ってきました。 上記のようなテキストファイル(test.txt)に対して、 データベース等に格納されている単語のリストと参照させ、 リストにある単語を含んでいる行を削除させたテキストファイルを生成させたいです。 例えば、リストに"天気"の単語があれば、 以下のようなテキストファイルを生成させたいです。 result.txt 今日は久しぶりに晴れました。 その後、アップルストアにて新発売のMacを触ってきました。 このようにするには、どのようにプログラムを作成すればよいでしょうか? よろしくお願いします。

    • ベストアンサー
    • Java
  • 辞書登録した単語が削除できません

    同じような質問があったらすみません。 ネット上にあったテキストファイルを利用して顔文字を登録したのですが、あまりに数が多すぎたので自分の好きなものだけ登録しようと思い、 すべて削除してから登録し直そうと思ったのですが、テキストファイルを利用して削除しようとしても登録した単語が残ってしまっているようで 変換時に変換候補の顔文字がいくつもでてきてしまいます。 いろいろ操作してしまったので現状がどうなっているのか、どこまで削除できているのかも把握できていません。 削除ではなく初期化みたいなことはできませんか? IME-2002を使用しています。 どなたかご教授宜しくお願い致します。

  • ATOK2011の一括単語登録

    ATOK2011で一括で単語登録をしたいのですが、 ATOK辞書ユーティリティを開いて、ツール→ファイルから登録・削除をクリック、 単語一括処理タブのファイル名の参照をクリック、任意のファイルを選択し、登録をクリック で合ってますか? また、テキストファイルにはどのように入力すればよいのでしょうか? 例えば、 単語,読み,品詞 とか。 回答よろしくお願いします。

  • ファイルの先頭行を全て削除したい

    コマンドプロンプトについてお教え願えまえせんでしょうか? ■同一フォルダ内にあるテキストファイルの1行目のみを全て削除したい。 1000テキストファイルがあります。全てのファイルの先頭行(1行目)を削除したいです。 ■上記のファイルが複数のサブフォルダ内に散らばっているとします。 フォルダAの中にあるサブフォルダを含めた全てのファイルに対し、同じように先頭行を削除したい。 上記の2点をおこないたいと思います。1ファイルづつ先頭行を消していくのは大変な作業なので一発でできればと思っています。 よろしくお願い致します。

  • 行末の「^M」を認識、削除したい

    普通のテキストファイルを、WindowsやらLinuxやらいろんな環境で編集すると、行末に「^M」がついたりすることがあります。 例えば環境変数の定義(setenv AA XXなど)を羅列したスクリプトファイルを編集した場合、エディタ上では「^M」は見えないのですが、コマンドラインで「printenv」とすると、所々、定義中に「^M」が表示されて、そのためにうまくプログラムが動かなかったりします。 エディタ上で「^M」を認識して、削除する方法を教えて下さい。

  • VBScriptで削除処理

    初めまして。 VBScriptを今回初めて使用しながらスクリプトを作成しようとしています。 〔質問〕 以下のような削除処理をVBScriptにて実施したいのですが、どのような構文を書けばいいのでしょうか? ご教授お願いします。 以下、例を挙げ記述致します。 (例)処理日が2008/3/22の場合。 「AAAA」ディレクトリ配下の以下のログファイルを二日前までの日付になっているログファイルのみ残し、あとは全て削除するという処理をしたい。 AAAAディレクトリの配下 ・aa080319.log→削除 ・aa080320.log→削除 ・aa080321.log→残す ・aa080322.log→残す 上記例を用いますが、自分で考えた処理フローとしまして、 (1)「AAAA」ディレクトリ配下のファイル一覧をテキストファイルに書き込む。 (2)「(1)」で作成したテキストファイルを読み込み、「2008322」と「2008321」に一致しないログファイルを削除。 以上、宜しくお願いします。

  • VisualBasic2008でファイルから指定文字数の単語だけ抜き出したい

    VisualBasic2008でファイルから指定文字数の単語だけ抜き出したい場合にはどのようにすればいいのでしょうか? 読み込むファイルはテキストファイルで単語ごとに改行してあります。 完成のイメージとしては、ファイルの上から順に読み込んで行き、ボタンを押すごとに指定文字数の単語をテキストボックスに表示させていくという処理を考えています。 どなたかご教授願えないでしょうか?

  • セル内の重複英単語を削除したいです。

    セル内の重複英単語を削除したいです。 A列にある3000行くらいをB列に重複削除でお願いいたします。 削除作業時は以下のような条件でお願いいたします。 単語と単語の間は、半角スペースか全角スペース(重複削除時に半角スペースに統一で構いません)。 大文字と小文字の区別なしで削除(apple Apple APPLEはすべて重複とする)。 1つのセルで重複はほとんど1つ(同じ英単語が2つ)なので、1つの重複削除作業でも可。 重複削除する場合、最初の英単語を残し後の英単語を削除。 例 apple orange Apple ↓ apple orange 以上です。 Windows7 エクセル2010。

  • テキストから単語だけを抽出する

    たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?

  • エクセルで特定単語の行削除

    現在あるソフトを使い所持ファイルの一覧をExcel で抽出したのですが。 削除単語リスト(無視リスト?)を作成して ・例 削除単語「カレンダ」 壁カレ 3.89 こんなの欲しかった! 縦型・メモカレンダー 1.0 プチカレンダ 2.01 透明なカレンダーWtCal [*] ↓↓↓↓↓↓↓↓ 壁カレ 3.89 ・例 削除単語「こんなの カレンダ」 壁カレ 3.89 こんなの欲しかった! 縦型・メモカレンダー 1.0 プチカレンダ 2.01 透明なカレンダーWtCal [*] ↓↓↓↓↓↓↓↓ 壁カレ 3.89 プチカレンダ 2.01 透明なカレンダーWtCal [*] とかできませんでしょうか? 単語のみじゃなく 行ごと消せる方法を探してます。 Excelじゃなくても こういった作業ができる方法があればご教授お願いします。