• 締切済み

英文から英単語の抽出をしたい

exordiaの回答

  • exordia
  • ベストアンサー率18% (2/11)
回答No.2

英単語のリストなら、ネットにもありますが、ある特定の文章の中の単語のリストなら、秀丸エディターとかワードでできるのではないでしょうか? No other region has demonstrated the fragility of both human society and the international community more markedly than Africa. だったら、まずテキストファイルにして、半角スペースのところで改行して(正規表現の置き換えを使って)、それから、できた単語をアルファベット順に並び替えて(もちろん手動ではありませんよ)、そして、重複する単語を削除(これはワードのマクロでできるはずです)すれば、かなり大きなデータでも、使われている単語のリストを作ることができます。各単語の横に意味を出力する方法はわかりません。

tinantum
質問者

お礼

ご回答ありがとうございます. なるほど,秀丸でできそうな気がしてきました. ワードのマクロとか使ったことはないのですが,何かお勧めのサイトなどあればお教えいただけますか? よろしくお願いします.

関連するQ&A

  • テキストから単語だけを抽出する

    たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?

  • 【英文解釈】(一見)簡単な英単語でつまづきます

    こんにちは。早慶を目指している高3です。 1学期にDUOを学習して、とりあえず英単語を叩き込みました。 夏休み前半は英文解釈として、ポレポレをやっているところです。 しかし、DUOに記載されてない(一見)簡単な英単語がうまく訳せず困っています。 例えばポレポレ例題4からの抜粋ですが、 the fundamenal laws that govern the behavior of matter and forces 「事物の諸力の作用を支配する根本的な法則」 と訳されています。 lawは法律、behaviorは行動といった意味しか知っておらず、うまく訳せませんでした。 長文に出てくる新しい単語はもちろん覚えていかなければならないのですが、 二冊目の単語帳に取り組むべきものなのでしょうか? それとももっと英文解釈というか和訳の練習に取り組んで、改善していくものなのでしょうか? 教えてください。

  • 英単語の数をかぞえてくれるソフトはありますか?

    私の英語の授業では「~について英単語3000単語以上で述べなさい」等の課題が毎週のように出ます。 いちいち単語の数を何千もかぞえるのが非常にしんどいのですが、テキストで英文を書くと自動的に単語数を表示してくれる、そんなソフトはないでしょうか? ご存知の方がいらしゃったら教えてください。

  • データベースで英単語を検索したり比較して照合したい

    データベースに関して素人です(excelの関数を多少扱える程度)が、これから勉強したいと思っています。当方、英語の勉強のため、英文を沢山読んでいます。 以下の目的のためには、データベースの導入が必要なのではと思いますが如何でしょうか。 目的1 これまで覚えた英単語や英熟語(慣用表現)の数を視覚的に分かるようにしたい。 目的2 新しく用意した英文テキストに対して、過去のデータベースと照合しこれまで覚えた英単語や英熟語(慣用表現)がいくつ含まれているか、そしてその既出の単語が過去のどのテキストファイルに属しているか、分かるようにしたい。 ※これまで勉強してきた全ての英文テキストデータ(ワード形式、もしくはtext形式)が手元にあるものと仮定します。 上記の目的を遂げるためには、データベースの構築が必要と思うのですが、 当方なかなか忙しく、PHPプログラミングを一から学ぶ余裕がありません。 上記の動作を実現するには高度なデータベース技術が必要とされるでしょうか? 上記の目的のためには、初心者は何から始めればよいでしょうか。 マイクロソフトのデータベースソフト「アクセス」は初心者でも基本的な動作を学ぶだけで上記の目的を達成できるでしょうか? たとえば、What would you like to drink? /No, I’m cool.と書かれた英文テキストファイル1があると仮定します。ただしこのとき、No, I'm coolの部分は「いいえ、結構です」という意味の慣用的表現(熟語)です。このテキストファイル1をデータベースに投げ込むと、自動でwhat, would, you, like, to, drink, no, I am coolという9つの英単語データが独立して自動的に登録される一方、「No, I am cool」の部分は自分で登録しなければならない、という認識であっておりますか。そしてI am Japanese.と書かれた新規テキストファイル2に対して過去のデータベースと照合した時、「i と am の2単語を検出しました。『i』はテキストファイル1、『am』はテキストファイル1で検出されました。」という結果を出したいのです。 まさかとは思いますが、データベース構築の際、英文テキストの英単語を1つ1つセルに打ち込んで、1つ1つ登録しないといけない、なんてことはないと思いますが、実際どうなのでしょうか。英文をペースト(貼り付け)すれば、その中の単語が自動的に1つずつデータベースに登録されますか?勿論、英熟語(慣用表現)につきましては、コンピューターがそれを熟語と認識できないはずなので、1つずつ手入力で登録していく必要があると思いますが。 長文となりましたが、是非貴方様の御意見をお聞かせ下さい。

  • 英・仏・独語で12文字以上の単語を抽出

    英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします。

  • 英単語は簡単ですが読めません。

    could I go against everything that others have come to know about me and do something completely out of character and outrageous? Am I, even for a moment,really free to do whatever I like? おそらく抽象的なことが書かれていて、直訳しようとするとうまく訳せないタイプの英文のように思えます。 英単語もすごく簡単だと思うんですが、なぜか読む事が出来ません。 読める英文のはずなのに、どうして読めないかもわかりません。 私は何に対しても行く、他者が知りたがる、私について、そして…うーん、わからないです。 訳を知りたいのではなく、どうやって読み解くか知りたいです。 どういう構造になっていて、どう読み解けばいいのか教えて頂けないでしょうか。

  • 英文のPDFファイルで、画面上で英単語にカーソルをあてると、ポップアップで意味が出るソフト

    英文のPDFファイルで、PDFファイル画面上で英単語にカーソルをあてると、ポップアップ形式で単語の意味が出るソフトを教えて下さい。

  • 忘れた英単語を、また覚えられる方法

    現在、46歳、子育てに忙しく英単語の一つも覚えるのが大変です。 主人の仕事柄、また英語をやらなければで、 一ヶ月前から、アメリカ人の先生に個人レッスンを週1で受けています。 ただ、昔覚えた英単語もすぐに出てこないような状態です。 私の語学ですが 高校で短期ホームステイ、英検二級、英文科合格はしたものの美大に入学し 英語は第二外国語で専攻しただけです。 主人の仕事でスペイン語圏が長かったため スペイン語が入るほど英語が抜けて行き… 10年前に一年間だけ、英語圏での生活を最後に、英語だけでなく語学からは離れています。 今、個人レッスンでは、けしてゆっくりと話してはくれず、テキストはなく 人種問題、宗教、政治、歴史といった話題で、ディスカッションすることも有ります。 昔覚えた単語だから聞き取れますが、意味が思い出せず(聞き取れると言わない?) その度に単語の意味を聞いています(日本語禁止なので英英で教えてくれます)。 意味を聞けば、先生の意見は理解できますが 私の意見は「ああ~、昔やったあの単語、熟語…それさえ覚えてれば ワンセンテンスなのに…」と思いつつ、 例を出して話したり簡単な言葉に噛み砕いてしか伝えられません。 先生との日常会話は大丈夫です。 深い話になると、単語が思い出せないです。 先生のセンテンスや言い回しはわかるので、 単語録だけがぽこっと抜けて足りない、といった感じです。 早い話、単語、熟語だけつめこめたい・・・ 今は準二級の単語からはじめましたが、「やったのは覚えてる、けど、再度覚えられない」 レッスン中に覚えなおしたのは覚えるのですが 一人で家事の合間に本を見てはなかなか頭に入りません。 英検二級の単語・熟語のCDもあるのですが つらつらと英単語だけ早く録音されていて(センテンスなし、日本語訳なし)、 テキストは紛失したので、あまり役に立ちません。 「英会話」教材というよりも 「英単語」を覚える何か良い教材や、方法はあるでしょうか。 若ければ、「行けば話せる」のでしょうけれど そんな自信はもうありません。 子供達の世話に終われる日々で、なんとか時間を見つけて いっそ、自分の下手な発音で録音して日本語訳をつけた単語のCDでも作ろうかとも思うのですが 持病があって、無理をすると数日寝込むので 主人には、もう、英語は覚えなくてもなんとかなるよ、と言われました。 ですが、日本人のいないところに行かされることが多いので 話せないのは寂しいです。

  • 文字数の多い単語だけ抽出(多言語テキスト)

    英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします

  • フリーの英単語リスト

    数千~5万件くらいの英単語のフリーのリスト(テキストファイル)はないでしょうか? 自分が使うためなので、再配布に条件が付いていてもかまいません。 意味などの情報は不要で、単語だけあれば良いです。 ググってみたのですが、古い情報が多く、リンク切れだったり、PDFデータだったり。 目的は、ハングマンというスペル当てのゲームの問題データとして使うためです。 今使っているのは問題の単語リストが30万件以上あるため、ほとんどが見たこと無い単語です。