• 締切済み

Wikipediaの記事を解析する処理

Wikipedia記事検索(http://wpedia.search.goo.ne.jp/)や、 携帯電話から閲覧できるグリ辞書なるものは、Wikipediaを 解析した結果を出力していると思うのですが、その解析処理 というのはどこかにあったりするのでしょうか? それともサービスを提供している毎にWikipediaの資料から ひたすら独自の解析処理を作成しているのでしょうか? Wikipedia上のデータのこういう記号はこういう事を表す、 とかではなく、それらを解析しているプログラムを 探しています。 特にPHPであると嬉しいです。

  • PHP
  • 回答数1
  • ありがとう数2

みんなの回答

回答No.1

Wikipediaのデータは解析しやすいようになっていないですし、 自分で作るしかないと思いますよ。 頑張ってください。

naktak
質問者

お礼

そうですかー><; 書き込んだ人やページによって書き方が違っていたりして、 上手く解析出来ません・・・orz

関連するQ&A

  • 同じ人が何回来ているかを調べられるアクセス解析

    現在アクセス解析を海外のサービスを使って利用していますが、 過去の20人分のデータしか常に見ることができないという点と、同じ人が何回アクセスしてきているかが知りたくてもいまひとつ分からないので、 できれば、 より詳細に、同じ人が何回来ているか、またもっともよく訪れている人は誰かなど、 そこまで詳細に解析できるサービスを無料で提供しているサイトは存在しないでしょうか? 自分でPHPなんかを埋め込んで調べるという方法もありそうですが、いまひとつ理解が乏しいため分かりません。アドバイスお願い致します。

  • dir /s で再解析ポイントが含めないようにする

    こんにちは。 コマンドプロンプトのdirコマンドで、、/a:-l というオプションを付けると、 出力されるファイルやフォルダの一覧に、再解析ポイントは含まれません。 再解析ポイントとは、dirコマンドを実行した時に <JUNCTION>という属性が付いているもので、ジャンクションとも呼ばれます。 WindowsVistaやWinodws7の場合、例えば、 C:\Users\ユーザー名\My documentsやC:\Users\ユーザー名\SendToなどが、 再解析ポイントとして存在しています。 これらは、C:\Users\ユーザー名 で、dir /a:l というコマンドを実行すると、確認する事ができます。 dirコマンドには、ディレクトリを再帰的にサーチして表示するために、 /sオプションが用意されています。 dir /a:-l というコマンドでは、再解析ポイントは表示されないのですが、 dir /a:-l /s というコマンドだと、再解析ポイントまで、処理対象になってしまいます。 では、dir /s を使う時に、再解析ポイントを処理対象に含めないようにするには、 一体どうすればよいのでしょうか? 何か御存じの方がいらっしゃれば、是非、情報を提供して頂きたく思います。 では、よろしくお願い致します。

  • はてなダイアリーなどの記事投稿時の自動リンク処理

    こんにちは。 趣味である分野のデータベースをWebで公開してみようと思っています。 はてなダイアリーやWikiの様なものを想定しているのですが、内部的な処理に関して悩んでいます。 はてなダイアリーやWikiなどで新規投稿をすると、本文中の各キーワードに反応して、そのキーワードに関する記事があれば自動的にその記事にリンクが張られたりしますよね。 例)PHPの記事→本文中のHTMLの単語をクリック→HTMLの記事に飛ぶ この自動リンクの処理はどうやって行われているのでしょう。 想像としては、 新規投稿→既存の投稿記事のタイトルをリストアップ→正規表現で投稿した記事にキーワードが含まれているかチェック→マッチしたら該当記事へのリンクをする(a要素を埋め込む?)→リンク処理後の本文をデータベースへ書き込み、投稿処理完了。 といった流れなのですが、これだと記事を削除した時、他の全ての本文に削除する記事のキーワードが含まれているかどうかチェックして、含まれていればリンクを外さなければならない為、とても非効率的です。 という事は、投稿時ではなく、記事を閲覧するタイミングで記事の本文中のキーワードをリンク処理しているのか・・・と、どうにも頭を悩ませています。 知恵をお貸しいただけないでしょうか。 よろしくお願いします。

  • 【PHP】関数で処理が止まってる??

    お世話になります。 PHPでの質問ですが、PHPに限ったものではないように思いますので、プログラム全般に対しての質問と思って下さって結構です。 ※PHP特有のという意見があれば、それも大歓迎です。 下記のようなコードを組んでみました。 <?php echo "func1の結果["; echo func1(); echo "]"; function func1(){ (内容は割愛) return TRUE; } ?> このコードをアップしてアクセスしてみると   出力結果  func1の結果[ でした。 ブラウザのステータスに「ページが表示されました」とあるので、処理中で出力待ちということはないと思います。 > echo func1(); > echo "]"; の箇所の出力はどうなっていると考えればいいのでしょうか? 「関数の内容次第で・・・」とお答えになる方、どういう内容だとこのような結果になるのかというところでお答えください。 私のプログラムによる根本的な考え方は、プログラムは上から下に順番になので、 上記内容の箇所にどんなコードがあったとしても、func1関数はTRUEを返すので、結果としては「func1の結果[1]」となるはずでした。 でも実際の出力結果をみると処理が途中で(おそらくfunc1()内で)止まっているともいます。 timeoutではないため無限ループに嵌ってっていうのもないと思います。 これはどういうことでしょう???

    • 締切済み
    • PHP
  • セッション接続時間に間に合わせない処理について

    IIS+PHPでPHPプログラムを作成しています。 ちょっとプログラムが複雑で、プログラムを動かすと30秒以内で処理が終わらないので、エラーの画面が出力されます。 そこで、定期的にプログラムをサーバローカルで動かし、結果をファイルに書いておいて、アクセスがあったときにはそのファイルを表示させようと思っています。 今から別な言語で書く事は避けたいので、PHPプログラムを転用したいと思っていますが、PHPをサーバローカルで動かすにはどうしたらいいのでしょうか? イメージでは c:\php.exe test.php ※test.phpはファイルを作成するphpプログラム みたいな事が出来たらBestです。 ご存知の方、ご教授ください。

    • ベストアンサー
    • PHP
  • phpプログラムにてすぐecho出力が出ない。

    phpにて、ログ解析を解析し、解析結果をCSVに加工して出力するものを 作成しました。 ログの解析には、解析したい単語で正規表現を使用し、 抽出しています。 正規表現は一行につき、多い場合で5つ実行されます。 echoでところどころに変数を出力するようにしています。 phpの<?phpのすぐ下にも startと出力するようにechoを入れています。 ログのボリュームにもよるのですが、 サイズが大きいログの場合、 解析プログラムを実行しても、最初のうちは、ふんともすんとも しないのです。 5000行のログでは、1時間たっても、実行されず、echoの標準出力が発行されず、 100行程度の場合、数秒でechoの標準出力が出力されます。 すこし、経つと、思い出したかのように 標準出力を吐き出します。 phpのプログラムにおいて、 実行する場合に、どのようなソースチェックが行われているのでしょうか?? すこし、わかりづらい質問ですが、 詳しい方、宜しくお願いいたします。

    • ベストアンサー
    • PHP
  • ログの解析プログラム

    perlにてログの解析プログラムを作成しております。 ログは各データの区切り文字がスペースで出力されます。 その為、例えば文字列で「プログラムの異常が発生しました (発生ノード)」が出力されている場合split関数によって配列に格納しようとすると「プログラムの異常が発生しました」と「(発生ノード)」に分解されて格納されてしまい後ほどの処理に影響が出てしまいます。ログの仕様として文字列を出力するときには直前に文字列の長さを提示しております。例えば「43 プログラムの異常が発生しました (発生ノード)」のような形で出力されます。これらの条件で文字列を一つの配列に格納するにはどのようなプログラムを組めばよろしいでしょうか。 現時点で考えているのは文字列の長さが出ているのでその回数分文字を1文字づつ読み込むことを考えております。ただし全角と半角の区別が自動でついてしまうと厄介なので全部半角として取り込めないかなどを検討しております。 なにか他にいいアイデアがありましたら教えてください。

  • 長時間かかるPHPプログラムの処理方法。

    長時間かかるPHPプログラムの処理方法。 PHPプログラムを作成したのですが、処理が終わるまでおそらく数時間掛るようなプログラムを作成しました… 普通にURLにアクセスしても途中でストップしてしまいます。 シェルスクリプトをかまして、CRONジョブで処理したら、サーバーの条件によって途中で止まってしまいます。 サーバーはXREAを使用しています。CRONジョブは3分以上の処理はダメなようです。 長時間のプログラムを処理する方法はあるのでしょうか? 専用サーバーを使う必要があるなら、そういった事が可能でサービス的に良いところを教えてくれると助かります。 よろしくお願いします。

    • ベストアンサー
    • PHP
  • ASPからSQLserverのデータを更新する時のエスケープ処理

    ASPのプログラムから、SQL serverのデータを更新する時のSQL文で、エスケープ処理しなくてはいけない、文字(記号)とその処理方法を教えて下さい。 PHPだと、pg_escape_string()など、便利な関数があるようなのですが・・・。

  • htmlタグがあるデータのエスケープ処理

    今 phpを勉強していて自分の勉強用にブログを作ろうと思っています。 ですが、その事で分からないことがあり、質問させていただきます。 それは、データベース内にある記事データのエスケープ処理についてです。 記事データを日付順やカテゴリーごとに並べて出力する際にエスケープ処理をすると htmlタグがもちろんそのまま出力されてしまいます。 自分が参考にした本では出力するデータは全てエスケープするべきだと書かれていましたが、 今回のようなケースはどうすればいいのでしょうか? 1, ユーザー入力ではなく、運営者のみが入力するデータの場合、エスケープは必要ないのでしょうか?   その場合セキュリティの問題はないのでしょうか? 2, それとも全ての場合においてエスケープ処理は必要で、htmlタグを含んだデータを   データベースに入れるのが問題なんでしょうか? どなたか回答お願いします。

    • ベストアンサー
    • PHP

専門家に質問してみよう