• 締切済み

英文テキストから単語を抽出するソフト

英語のテキストからその中に入っているすべての英単語を取り出して大まかには次のような条件で単語表を作りたいと考えています.既製ソフトを使ってできるだけ手間のかからない方法で行いたいと考えていますが,どのような方法があるでしょうか. 条件0:意味の違いは無視する. 条件1:名詞,動詞の変化形は原型に戻す.     desks→desk     men→man     studied→study     began→begin     beginning→begin 条件2:同じ単語は一つだけ表に入れる 条件3:記号の取り扱い     ‐は,成語はそのまま取り入れ,行替えのハイフンは数えない     ピリオド,カンマ,括弧など無視     

みんなの回答

回答No.2

エディタの秀丸でマクロを使うのが最も簡便です。 1. //単語抽出マクロ movetolineno 1, 1; while( code !=-1 ){ if( code >0x40 && code< 0x5E || code >0x60 && code< 0x7F || code == 0x2F || code == 0x27 || code == 0x2D ) right; else{ delete; if( column >0 ) insert "\n"; } } endmacro; 2.次に頻度を算出します。 //新単語頻度算出マクロ movetolineno 1, 1; while( code !=-1){ #freq = 1; getsearch; $s = searchbuffer; searchdown $s, word; if( result >0){ gosearchstarted; replaceallfast $s,word; #freq = result; } gosearchstarted; golineend; insert "\t" + str( #freq ); right; } endmacro; 3.2.で出来た頻度表をExellに読み込ませ、ソートし、手作業で原形等に直します。この手作業の自動化は例外が多く困難だと思います。 マクロの使い方は秀丸で調べて下さい。

回答No.1

難しそうですね がんばってください

関連するQ&A

  • テキストから単語だけを抽出する

    たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?

  • エクセルを使って英文から単語の抽出

    このようなことがエクセルでできますか。 20ページほどの英文があります。そこに出てくる単語を重複しないようにして、抽出したいのです。 自分でやってみるのですが、なかなかうまくいきません。 もし、できるようであればその方法を教えてください。 よろしくお願いします。

  • 英文から英単語の抽出をしたい

    こんばんは HTML、テキストファイル、pdfファイルなどの英文のソースがあったときに、そこで使われている英単語を抽出してテキストファイルやExcelなどで英単語のリストを作りたいのですが、何かよい方法はあるでしょうか?少し調べてみたのですが、形態素解析などをすることになるのでしょうか?どなたか教えていただけると幸いです。 例えば、 「No other region has demonstrated the fragility of both human society and the international community more markedly than Africa.」 という英文があったとき、 Africa and demonstrate has other region … のように単語を抽出してくれて、できればその意味も Africa:アフリカ and:そして demonstrate:証明する has:持つ other:他の region:地域 … のようにできるととても助かります。

  • 長い文章の単語を抽出するソフト

     英訳をする時に、私は必要な単語を先に抜き出しておいて それを完全に辞書で調べてから一気に訳す・・・という方法をとるのですが、 文章のように沢山の単語でつらなっているものを、単語に分けて 抽出する・・・というようなソフトはありますか? (私はその単語をばらした後で、エクセルに貼り付けて 50音順にして重複を削除するという予定です。)  ためしにエクセルに貼り付けてみて ツールの区切り位置? みたいなのでスペースで区切ってみて単語をばらしてみようかと 思ったんですが駄目でした(涙) 何か良い方法・ソフトがないか教えてください!

  • テキストを部分ごとに抽出できるソフト

    あるキーワードから次のキーワードまでを文章を抜き出し、ファイルへ書き込みたいのですが、 どのようにすればいいのか分りません。 例 --------- キーワード1 --------- 文字や数字・・・・・・・・ ・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・ --------- キーワード2 --------- 文字や数字・・・・・・・・ ・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・ --------- キーワード3 --------- 文字や数字・・・・・・・・ ・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・ からキーワード1とキーワード3を抽出したい場合 --------- キーワード1 --------- 文字や数字・・・・・・・・ ・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・ --------- キーワード3 --------- 文字や数字・・・・・・・・ ・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・ などと抜き出されるようにしたい。 このようなことができるフリーソフトご存じないでしょうか?

  • テキストからの抽出

    こんにちは -------------------------------------- お名前:あいうえお 郵便番号:100-0001 ご住所:東京都千代田区千代田1-1      電話番号:03-****-1234 -------------------------------------- というテキストをA列に貼り付け、 B列に 1│あいうえお 2│100-0001 3│東京都千代田区千代田1-1 4│03-****-1234 の、ように内容を表示したいのですが、 どのような方法があるでしょうか。

  • テキストを抽出したい

    次の ?(半角1文字)の部分を抽出したいのですが。 "* (?:)" アスタリスクにはどんなテキストが入るか分かりません。 このテキストの抽出の仕方を教えて下さい。 よろしくお願いします。

  • このようなテキストの抽出は・・・。

    次のようなテキストを抽出するにばどうすればいいのでしょうか。 次の条件の文字列変数theVarにおいて、*の部分を抽出したいです。 <i>*</i> <i>と</i>はないかもしれません。 「*」はワイルドカート、「<」と「>」はメタキャラではなくただの文字。 よろしくお願いします。

  • 単語のテキスト

    英語の単語を憶えたいと思っておりそのため有効なテキストなどを捜しております。内容は中学生ぐらいの初歩的な単語集でその単語の正確な発音をCDなどで聞きながら勉強できるのが理想です。このような内容のテキストなどご存知の方がいらしゃいましたら紹介してください。よろしくお願いします。

  • 英文用テキストマイニングソフトを探しています

    英語で書かれた文、英文を形態素解析できるフリーのテキストマイニングソフトを探しています。 形態素解析して、形容詞、動詞など品詞ごとに分けられて、"children"という単語は"child"と原形に直してくれるソフトなんですが… 日本語で作られたソフトでも英語で作られたものでも構いません。 英文を解析できればいいんです ご存じでしたら教えてください よろしくお願いします

専門家に質問してみよう