• 締切済み

テキストから単語だけを抽出する

たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか?

みんなの回答

  • Wendy02
  • ベストアンサー率57% (3570/6232)
回答No.3

こんにちは やったことはありませんが、Namazuのデリバティブの「茶筅(Chasen)」あたりで、形態素の解析をすれば可能だと思います。なんといっても、なかなか大きなファイルになりますので、本格的にするわけでないのでしたら、リストを作っておいたほうが楽かもしれません。 http://www.f.waseda.jp/kikuchi/tips/chasen.html

  • hornest
  • ベストアンサー率16% (2/12)
回答No.2

VBAを使用すれば、よろしいかと Sub test() Dim 文字列 As String Dim 抽出文字 As String Dim 抽出後 As String 文字列 = "この中からテキストファイルだけを抽出してください" 抽出文字 = "テキストファイル" 抽出後 = Mid(文字列, InStr(文字列, 抽出文字), Len(抽出文字)) End Sub

  • DIooggooID
  • ベストアンサー率27% (1730/6405)
回答No.1

 "単語" というご質問ですが、内容を拝見すると、"単語" 全般ではなく、 名詞(句)のようですが・・・。

関連するQ&A

  • 文字数の多い単語だけ抽出(多言語テキスト)

    英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。 英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが(一緒に表示させるフルパスは別途消す必要がありますが)、仏・独語となるとイロイロ問題が出てきます。 例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません(アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…)。 そこで質問なのですが: 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。 できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。 どうかよろしくご助言をお願いします

  • PDFファイルからテキストを抽出するソフト

    PDFファイルから、中に書いてあるテキストを抽出するソフトがあると聞いたのですが。

  • テキストファイルで文例や単語を登録しておきたい。

    テキストファイルやワードなどで、同じ文を入力しないですむ方法はありますでしょうか。 単語ではなく、2~3行の文例なのですが。。 今はファイルに保存してそれを開きながらコピペしています。 文字設定の単語登録のようなもので、長文を登録できるソフトのようなものをご存知ありませんでしょうか。 どうぞよろしくお願い申し上げます。

  • 複数のテキストファイルからの行抽出

    40KByteのテキストファイルが300ファイルあります。 aaa bbb ccc と複数の検索条件を含む行を抽出したいと思っています。 ファイル数も多いので極力自動で処理を行いたいです。 環境は、できればフリーソフトよりは windows、linuxのコマンドかoffice等のソフトを使用したいです。 良い方法があれば教えてください。

  • ある文字列を含む行の抽出

    お世話になります。 いくつかのテキストファイルがあり、それらのファイルのなかの、特定の文字列を含む行をすべて抽出して、別ファイルに集めて保存するようなことを、自動的に行うことはできますでしょうか?? officeソフトでできればよいのですが、ほかの方法でもかまいません。 お願いいたします。

  • 英文から英単語の抽出をしたい

    こんばんは HTML、テキストファイル、pdfファイルなどの英文のソースがあったときに、そこで使われている英単語を抽出してテキストファイルやExcelなどで英単語のリストを作りたいのですが、何かよい方法はあるでしょうか?少し調べてみたのですが、形態素解析などをすることになるのでしょうか?どなたか教えていただけると幸いです。 例えば、 「No other region has demonstrated the fragility of both human society and the international community more markedly than Africa.」 という英文があったとき、 Africa and demonstrate has other region … のように単語を抽出してくれて、できればその意味も Africa:アフリカ and:そして demonstrate:証明する has:持つ other:他の region:地域 … のようにできるととても助かります。

  • 2つのテキスト中身の違いを抽出

    2つのテキストの中身で一致しないテキストだけ抽出できるようなソフトってないでしょうか? 探してみましたが、同じ行(場所)にないといけないソフト(比較ソフト)ばかりでこちらの希望条件に合うようなソフトが見つからないので・・・。 例えば、下記の2つのテキストファイル(ファイルA とファイルB)でいうと テキストSとテキストZを抽出するような感じです。 よろしくお願いします。 ファイルA | ファイルB ----------- テキストA | テキストA(一致) テキストB | テキストB(一致) テキストD | テキストV(一致) テキストS | テキストZ テキストV | テキストD(一致)

  • PDFの透明化テキストを抽出したい。

    Androidスマートフォンで小説等を読むために、業者に依頼してPDF+透明化テキストしましたが、端末画面が小さくて読めません。 もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、PDF+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。 フリーのソフトを希望します。 よろしくお願い致します。

  • PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー

    PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトが もし存在していましたら教えていただけませんでしょうか? やはりシェアウエアのみしか存在していませんでしょうか? PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら 修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐには ソフトを買ってもらえないので、何か良い方法はないか?と困っております。 段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか? どうぞ宜しくお願い致します。

    • ベストアンサー
    • Mac
  • PDFそのものから、テキストの抽出

    PDFそのものから、テキストの抽出は可能ですか? Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。 ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか? 逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?

専門家に質問してみよう