締切済み

テキストから単語だけを抽出する

2009/11/11 16:26

たとえば「この中からテキストファイルだけを抽出してください」という一文があったとして、「中」「テキストファイル」「抽出」という単語だけを自動で抜き出すことができるソフトなど、方法などはありませんか？

eleban
お礼率2% (2/70)

その他MS Office製品
回答数3
ありがとう数1

みんなの回答 （3）
専門家の回答

みんなの回答

Wendy02
ベストアンサー率57% (3570/6232)

2009/11/12 15:53 回答No.3

こんにちはやったことはありませんが、Namazuのデリバティブの「茶筅(Chasen)」あたりで、形態素の解析をすれば可能だと思います。なんといっても、なかなか大きなファイルになりますので、本格的にするわけでないのでしたら、リストを作っておいたほうが楽かもしれません。 http://www.f.waseda.jp/kikuchi/tips/chasen.html

hornest
ベストアンサー率16% (2/12)

2009/11/11 16:40 回答No.2

VBAを使用すれば、よろしいかと Sub test() Dim 文字列 As String Dim 抽出文字 As String Dim 抽出後 As String 文字列 = "この中からテキストファイルだけを抽出してください" 抽出文字 = "テキストファイル" 抽出後 = Mid(文字列, InStr(文字列, 抽出文字), Len(抽出文字)) End Sub

DIooggooID
ベストアンサー率27% (1730/6405)

2009/11/11 16:37 回答No.1

　"単語" というご質問ですが、内容を拝見すると、"単語" 全般ではなく、名詞（句）のようですが・・・。

関連するQ&A

文字数の多い単語だけ抽出（多言語テキスト）
英・仏・独語の多数のテキストファイルから12文字以上の単語だけ抽出したいのですが効率のよい方法はないでしょうか。英語だけならテキストエディタの正規表現を使ったgrepで \w{12,} で12文字以上の単語を含む行を検索したうえで、\w{1,11} を空白と置換して削除してしまえばいいのですが（一緒に表示させるフルパスは別途消す必要がありますが）、仏・独語となるとイロイロ問題が出てきます。例えば、仏語では a'bc'def のようなパターンの単語があります。これを単に検索するだけなら \w'\w+'*\w* で検索できますが、12文字以上と指定する方法がわかりません（アポストロフィがひとつだけなら \w'\w{10,} で12文字以上ということになるのですが…）。そこで質問なのですが： 1. 上記の仏語のようにアポストロフィを2つ含む12文字以上の単語を抽出するにはどうしたらいいでしょうか。 2. そもそも12文字以上の単語を含む行をgrepしたうえで、11文字以下の単語を消去したりせずに、最初から12文字以上の単語だけを抽出する方法はないのでしょうか。できれば、フリーウェなどを導入せずにテキストエディタやOffice系アプリなどだけで対処したいと思います。VBSでもOKですが、その場合は、初歩的なことしかわかりませんので、アドヴァイスというより丸投げしてしまうことになります。どうかよろしくご助言をお願いします
- ベストアンサー
- その他（プログラミング・開発）
PDFファイルからテキストを抽出するソフト
PDFファイルから、中に書いてあるテキストを抽出するソフトがあると聞いたのですが。
- 締切済み
- フリーウェア・フリーソフト
テキストファイルで文例や単語を登録しておきたい。
テキストファイルやワードなどで、同じ文を入力しないですむ方法はありますでしょうか。単語ではなく、２～３行の文例なのですが。。今はファイルに保存してそれを開きながらコピペしています。文字設定の単語登録のようなもので、長文を登録できるソフトのようなものをご存知ありませんでしょうか。どうぞよろしくお願い申し上げます。
- ベストアンサー
- その他(ソフトウェア)
複数のテキストファイルからの行抽出
40KByteのテキストファイルが300ファイルあります。 aaa bbb ccc と複数の検索条件を含む行を抽出したいと思っています。ファイル数も多いので極力自動で処理を行いたいです。環境は、できればフリーソフトよりは windows、linuxのコマンドかoffice等のソフトを使用したいです。良い方法があれば教えてください。
- ベストアンサー
- その他(ソフトウェア)
ある文字列を含む行の抽出
お世話になります。いくつかのテキストファイルがあり、それらのファイルのなかの、特定の文字列を含む行をすべて抽出して、別ファイルに集めて保存するようなことを、自動的に行うことはできますでしょうか？？ officeソフトでできればよいのですが、ほかの方法でもかまいません。お願いいたします。
- ベストアンサー
- オフィス系ソフト
英文から英単語の抽出をしたい
こんばんは HTML、テキストファイル、pdfファイルなどの英文のソースがあったときに、そこで使われている英単語を抽出してテキストファイルやExcelなどで英単語のリストを作りたいのですが、何かよい方法はあるでしょうか？少し調べてみたのですが、形態素解析などをすることになるのでしょうか？どなたか教えていただけると幸いです。例えば、「No other region has demonstrated the fragility of both human society and the international community more markedly than Africa.」という英文があったとき、 Africa and demonstrate has other region … のように単語を抽出してくれて、できればその意味も Africa:アフリカ and：そして demonstrate：証明する has：持つ other：他の region：地域 … のようにできるととても助かります。
- 締切済み
- 英語
２つのテキスト中身の違いを抽出
２つのテキストの中身で一致しないテキストだけ抽出できるようなソフトってないでしょうか？探してみましたが、同じ行（場所）にないといけないソフト（比較ソフト）ばかりでこちらの希望条件に合うようなソフトが見つからないので・・・。例えば、下記の２つのテキストファイル（ファイルA とファイルB）でいうとテキストSとテキストZを抽出するような感じです。よろしくお願いします。ファイルA ｜　ファイルB －－－－－－－－－－－テキストA　｜　テキストA（一致）テキストB　｜　テキストB（一致）テキストD　｜　テキストV（一致）テキストS　｜　テキストZ テキストV　｜　テキストD（一致）
- 締切済み
- フリーウェア・フリーソフト
ＰＤＦの透明化テキストを抽出したい。
Androidスマートフォンで小説等を読むために、業者に依頼してＰＤＦ+透明化テキストしましたが、端末画面が小さくて読めません。もちろん拡大すれば読めるのですが、スクロールするのは使い勝手が悪く、テキストビューワーなら表示フォントを大きくしてみることが出来ますが、ＰＤＦ+透明化テキストされたファイルからテキストのみを抽出する方法を教えていただけないでしょうか。フリーのソフトを希望します。よろしくお願い致します。
- ベストアンサー
- フリーウェア・フリーソフト
PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリー
PDFファイルをテキストに変換というかテキスト抽出を出来るようなフリーソフトがもし存在していましたら教えていただけませんでしょうか？やはりシェアウエアのみしか存在していませんでしょうか？ PDFの書類の修正をしなくてはならなくて、、、そのままテキスト抽出出来たら修正が楽なのですが、、、、シェアウエアはあると思うのですが、会社ですぐにはソフトを買ってもらえないので、何か良い方法はないか？と困っております。段階を経て出来るような裏技とかでもあれば教えていただけませんでしょうか？どうぞ宜しくお願い致します。
- ベストアンサー
- Mac
PDFそのものから、テキストの抽出
PDFそのものから、テキストの抽出は可能ですか？ Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか？逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか？
- 締切済み
- Perl

テキストから単語だけを抽出する

みんなの回答

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

テキストから単語だけを抽出する

みんなの回答

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録