• 締切済み
  • すぐに回答を!

あるサイトにあるページを全て取得したいのですが

こんにちは。質問があります。(少し長文になると思います) 私はとあるサイト(データベースを利用した情報系サイト)をよく利用しているのですが、 このサイトは例えば花などの情報をまとめてあるサイトとして、 4000件程度の花が登録されていて、クライアントのボタン一つで「育てやすさ」「何月から栽培 できる」「人気がある」など画像付で並び替えができるサイトとします。(このサイトをBサイトとします) さらに並び替えた画像をクリックすると「専用ページ」に飛んで詳しい育て方や実際育てている 写真などが掲載されています。(さらにはその花の命名者など数多くの情報が登録されていて 非常に有用なサイトです) 私はそのBサイトの並び替えなどのシステムがとても使いにくいためいつもイライラしていました。 (ページも非常に見にくいです) ならばいっそ自分で作ってしまおうと思い、初めてphpとmysqlを勉強してようやく最近完成しました。 作り方として 並び替えはデータベース内で行いphpで呼び出す形として、花の名前や値段、育て方や写真のパスなども全てデータベース に入れ、phpで文字などを出力させるというサイトにしました。(画像はサーバーに置いてあります。 データベースに今情報を入れているのですが種類が4000種類以上もあるためおそらく何年もかかると思いますが今は少しずつ入れています) それでアップロードしてとりあえず予定道理の動きはしているのですが、一つ困ったことがありまして 、文字情報を全てデータベースに入れているため検索にまったくひっかからないのです。 例えば 「チューリップ」「育て方」と検索しても私のサイトは絶対ひっかかりません。 これではせっかく作ったのに誰にも使ってもらえません。 しかし、そのBサイトは「チューリップ」「育て方」と検索すると「チューリップの専用ページ」が検索にヒットします。 私も専用ページは設けていますが、そのページもデータベースから文字など全てphp出力なので検索にはひっかかりません。 Bサイトが検索にヒットするということは、ちゃんとhtml上にチューリップまたは育て方という文字が存在するということになると予想できるのですが・・4000以上もの内容の異なったhtmlのページがサーバー上に本当に存在しているのでしょうか・・。 そうでないと説明がつかないのでそういう結論に行き着いたのですが間違いないでしょうか・・? そうすると私も一つ一つhtmlのページを作らなければならないのですが何年もかかる作業に なりそうなので、Bサイトが本当に4000ものページを持っているのか知りたいのですが、 相手のサーバーにあるページを全て取得する方法は存在するのでしょうか?

共感・応援の気持ちを伝えよう!

  • 回答数5
  • 閲覧数203
  • ありがとう数12

みんなの回答

  • 回答No.5

No.4です。 >問題はデータベース内にある文字なのです。 たとえ、それがデータベースにあるものであろうと、最終的にリンクをたどって 表示されるものなら関係ないです。 データベースの中までは検索できないというだけです。 原因はNo.4にも書きましたが・・  原因) 検索エンジンがクロールしてインデックスを作ってくれていない。   対策)ひたすら待つ。サイトマップをgoogleに申告する。  原因) HTMLがまずくてページの内容を理解できていない。   対策)class名に文書構造を示すものを使う。(googleが十数年主張し続けている)     <div class="section"><div class="nav">    『id属性及び class属性と併用することで、文書に構造を付加するため( http://www.asahi-net.or.jp/%7Esd5a-ucd/rec-html401j/struct/global.html#h-7.5.4 )』    『HTML5 では、文書をよりよく構造化するために、次の要素が新しく追加 されました。( http://standards.mitsue.co.jp/resources/w3c/TR/html5-diff/#new-elements )』     これは、極めて重要のようです。googlebotはこれを解釈しているよう ですね。  ⇒ウェブマスター向けガイドライン(品質に関するガイドライン) - ウェブマ スター ツール ヘルプ( https://support.google.com/webmasters/answer/35769?hl=ja )  を隅々まで読むこと。あなたが主張されるように 「どうすれば自分のウェブサイトが独自性、価値、または魅力のあるサイトとい えるようになるかを考えてみる。同分野の他のサイトとの差別化を図ります。( https://support.google.com/webmasters/answer/35769?hl=ja#3 )」が出来てい れば、必ずgoogleは見つけてくれます。 >問題はデータベース内にある文字なのです。おそらくあなたは論点が理解でき ていないように 思います。 >私の書いたHTML(PHPを含む)サイトにはチューリップや育て方などの文字 がそもそも無いわけです。  リンクをたどって生成されるHTMLにそれがありさえすれば良いのです。  テクニックとしては、<div class="summary">とか<div class="abstract">の ように、class名で明示して、紹介しているサイトの要約がわかるようにするの も良いでしょう。 ★googleが訪問してインデックスを作るまでには日数がかかります。 ・検索エンジンではなく、ユーザーの利便性を最優先に考慮してページを作成する。 ・ユーザーをだますようなことをしない。 ・検索エンジンでの掲載位置を上げるための不正行為をしない。 ・どうすれば自分のウェブサイトが独自性、価値、または魅力のあるサイトとい えるようになるかを考えてみる。  これに尽きると思います。 ※他の同系統の良いサイトから、自然とリンクされるようになるのが最もよいで す。裏技ですが、それらのサイトにコメント投稿欄に紹介するとか・・  とにかく、googleに取っ掛かりの情報を提供すること ※googleで検索で出てくるようになって、ユーザーがあなたのページを見てすぐ 引き返してくるようでは順位が下がっていきます。よいページが出来たようです ね。たぶん、そのうち見つけてくれる。  それまで、「独自性、価値、または魅力のあるサイト」になるよう頑張ってく ださい。

共感・感謝の気持ちを伝えよう!

関連するQ&A

  • DBとぐーぐるの検索について

    こんにちは。現在データベースとphpを使ったサイトを作っています。サイト自体は出来上がりまして データベースに情報を登録しているのですが、少し疑問が出てきました。 私の作っているのは例えば情報をデータベースからPHPで出力させ、任意の順番に並べ替えるという サイトなのですが、 (例えば花でしたら「正式名称」や「育て方」などデータベースから出力させ表示させるといった風なものです) しかしこの場合、データベースに情報が全ての情報が入っているため検索にまったくひっかからず、 どうしてよいものか悩んでいます。 他の似たようなサイトを見ていたのですが、そちらもphpでデータベースから出力させているのですが 花の名前+育て方 などで検索すると検索に反映されているようです。 この部分がよくわかりません。データベースから全ての情報を出力させているのは間違いないと思うのですが ・・・。 そのサイトの全てのページのアドレスを見るとphp?というのが含まれています。私のサイトにはそういったものは含まれていませんし、これで何か推測できることってありますでしょうか?

  • ヤフー検索でページ検索が自動表示される条件

    昔は、ヤフーで検索をしたときヒットしたページがヤフーのデータベース内で少なかったとき自動的に提携サイトのページ検索の結果が出て、正確なところは忘れたけれど 「○件にかしかヒットしなかったのでページのデータも表示します。」 というようなメッセージが表示されていたように思います。 それがいつのまにか、ヤフーのデータベースで1件でもヒットしたらページ検索のデータはページ検索をクリックしない限り出なかったこともあったように思います。 ところが最近また、ヤフーデータベースに引っかかってもページ検索も出ているような気がするのですが実際のところはどうなんでしょうか?

  • 携帯用サイトをデータベースとPHPで作成する際に静

    携帯用サイトをデータベースとPHPで作成する際に静的ページを持たずに、アクセスがあるたびDBから情報を読み込んでページを生成する方法を教えてください。 携帯用サイト作ってみようと思いまして、色々調べているとデータベースを使用して指定したアドレスにアクセスがあるたびにデータベースから情報を読み込んでページを生成すれば、静的ページはいらないという記述を見ましたが、その仕組みをどなたか教えていただけますでしょうか?、またその様なやり方がのっている本やホームページがあればおしえてください。 ちなみにPHPとMYSQLを使用してサイト作成を行おうと思っています。 補足説明いたします、ここで記載しているアクセスのたびに生成されるページはJavaやFlashは使用しないで画像やテキストのみのページにする予定です。

    • ベストアンサー
    • PHP
  • 回答No.4

他人の著作物である画像や文章は、参照(リンク)や引用は可能ですが、流用は出来ません。 著作権法で引用( http://law.e-gov.go.jp/htmldata/S45/S45HO048.html#1000000000000000000000000000000000000000000000003200000000000000000000000000000 )は可能ですが、その場合は ・原本を一切改変しないこと ・引用元を明記すること ・その著作物の主張を補足するための量的にも内容的にも「従」的なものでなければならない  ですから、写真や栽培方法の記事はすべてあなた自身のオリジナルである必要があります。 >あるサイトにあるページを全て取得したいのですが  これが、あなた自身が製作された、植物名、写真、栽培方法へのリンクのデータベースであるとしてお答えします。  検索エンジンは、たとえそのページがPHPなどで動的に製作されたものであるかないかは問わず--それを知らない---ので、そのサイトをクロールしてインデックスは作ってくれます。 >例えば 「チューリップ」「育て方」と検索しても私のサイトは絶対ひっかかりません。  原因) 検索エンジンがクロールしてインデックスを作ってくれていない。  原因) HTMLがまずくてページの内容を理解できていない。    (文書構造のマークアップがまずい) >しかし、そのBサイトは「チューリップ」「育て方」と検索すると「チューリップの専用ページ」が検索にヒットします。  原因) 検索エンジンがインデックスを作っている  原因) 文書構造が分かりやすい >私も専用ページは設けていますが、そのページもデータベースから文字など全てphp出力なので検索にはひっかかりません。  原因) PHPなのか、CGIなのか、その他サーバーサイドのプログラムだろうが無関係 >Bサイトが検索にヒットするということは、ちゃんとhtml上にチューリップまたは育て方という文字が存在するということになると予想できるのですが・・4000以上もの内容の異なったhtmlのページがサーバー上に本当に存在しているのでしょうか・・。  それは無関係です。例えばWiki・・・『2014年3月14日(日本時間15日)、ウィキペディア日本語版の記事数が90万項目を達成しました。( http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8 )』とありますが、それだけのHTMLが実在しません。ウィキソフトウェア( http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2 )を使ったシステムです。  ただ、 ・「技術に関するガイドライン( https://support.google.com/webmasters/answer/35769?hl=ja#2 )」で御存知のように、クローラーがサイト内をクロールできない  と不可能です。WikiはPATH_INFOを使用していますから、検索エンジンは独立したページがあると認識できてます。  PATH_INFOはとっても便利で、私のサイトも基本的にPATH_INFOです。 ・内容やマークアップの問題  「品質に関するガイドライン( https://support.google.com/webmasters/answer/35769?hl=ja#3 )」

共感・感謝の気持ちを伝えよう!

質問者からの補足

まず私は著作権侵害を行うつもりはありません。そんなことは当たり前ですし、言われる必要もないかと思います。(何度も書きますが情報系サイトであって一般に公開されている情報をまとめたサイトですから その情報には著作権自体ありませんし、相手が作った育て方などの著作権が発生するものを転載したりも しません) 他の方の補足にも書きましたが、動的なサイトと静的なサイトがどちらも検索にヒットするのは知っています。 問題はデータベース内にある文字なのです。おそらくあなたは論点が理解できていないように 思います。 私の書いたHTML(PHPを含む)サイトにはチューリップや育て方などの文字がそもそも無いわけです。 (phpが動いて初めて文字がデータベースから取り出されるわけですから)

  • 回答No.3
  • taloo
  • ベストアンサー率44% (1016/2281)

>4000以上もの内容の異なったhtmlのページがサーバー上に本当に存在しているのでしょうか・・。 可能性はありますね。 何年もかければ4000ページでも作る事は可能です。 400人で共同制作をすれば、1人10ページでも合計で4000ページになります。 昨日今日、1日で作られた物でなければ、何年もかけて4000ページを作られたでしょうし、 「公開せずに何年もかけて作ってきて、今日やっと公開しました」というサイトであれば、何千ページの規模のサイトが1日で作られたように見えます。 >文字情報を全てデータベースに入れているため検索にまったくひっかからないのです。 ページを作る事と検索サイトに登録される事は別問題です。 早ければ数週間、一般的には2~3ヶ月程かかりますし、 検索上位に表示されるには、(検索結果に表示される事をプロとしてやっているのでなければ)1年以上見込んでおくくらいでちょうどいいのではないでしょうか。

共感・感謝の気持ちを伝えよう!

  • 回答No.2

検索でヒットするかということと、静的なウェブページあるかどうかとは、 直接の関係はありません。 外部からリンクを辿ることさえできれば、 そのページが固定的なHTMLで書かれたものであろうが 動的にPHPで書かれたものであろうが、 そのうち検索エンジンのクローラが巡回してきて検索の対象になるかと思います。 またウェブページのコンテンツには著作権があります。 説明文中のBサイトがコンテンツの二次利用に関して どのような許諾をしているかわかりませんが、 その範囲を逸脱しないように注意しましょう。

共感・感謝の気持ちを伝えよう!

質問者からの補足

まず私は著作権侵害を行うつもりはありません。そんなことは当たり前ですし、言われる必要もないかと思います。 あと動的なサイトと静的なサイトがどちらも検索にヒットするのは知っています。 問題はデータベース内にある文字なのです。おそらくあなたは論点が理解できていないように 思います。 私の書いたHTML(PHPを含む)サイトにはチューリップや育て方などの文字がそもそも無いわけです。 (phpが動いて初めて文字がデータベースから取り出されるわけですから)

  • 回答No.1
  • lv4u
  • ベストアンサー率27% (1862/6716)

>>相手のサーバーにあるページを全て取得する方法は存在するのでしょうか? データベースを使わずに、単純にディレクトリによる階層で作ったサイトであれば、全ページを取得することは、サイトの作りにもよりますけど、可能です。 私は以前、男性が喜びそうな画像・動画が大量に登録されたサイトから、まとめて一気にダウンロードしたこともあります。 >>4000以上もの内容の異なったhtmlのページがサーバー上に本当に存在しているのでしょうか・・。 可能性としては、あると思います。情報が表示されたときのURLを見れば、分かるんじゃあないですか?

共感・感謝の気持ちを伝えよう!

質問者からのお礼

ご回答ありがとうございます。 そのBサイトを見ていたのですが、アドレスの一部分を変更すると(数値ですが)ページが切り替わります。 ということはやはり独立したHTMLサイトがあるということでしょうか・・。

関連するQ&A

  • Yahooの自サイト内検索しても古いページが検索結果にでてしまう

    昨日より、自サイトをリニュアールし、それに伴いYahooの検索ボックスを設置しました。サイト内検索もついているのですが、このサイト内検索で検索をかけると、全て古いページからの検索になってしまっています。どうしたら新しいページからの検索結果が得られるのでしょうか? 古いページは全てサーバーから削除し、新しいページしか今は残っていません。ちなみに、古いページと新しいページは殆ど名前は一緒なのですが、拡張子が以前はhtmlだったのですが、現在のものは全てphpで作成されています。情報が足りない分はご指摘いただければ補足いたします。どうぞよろしくお願いいたします。

  • 動的ページのSEO対策はPHP?SSI?

    宜しくお願いします。現在サイト構築でTOPページはHTMLで作成(静的)、その他ページはPHPで生成しています。(動的) SEO的に考えると、動的にPHPでデータベースから読み出している商品情報が検索に引っかかりくいのではないかと思っています。 PHPでは上部部分、下部部分はインクルードで統一ファイルを呼び出し、メインコンテンツの商品紹介ページはデータベースから読み出しています。 SEO的に効果があり、動的に生成できるPHPの利用方法をお教え願えませんでしょうか。 どうぞ宜しくお願い申し上げます。

    • ベストアンサー
    • HTML
  • 動的ページを静的ページにしたいのですが

    Webポータルを新しくリリースする予定です。いま開発してもらっているサイトはデータベースと連携しており、「動的サイト」と呼ばれるサイトです。 これではサーチエンジンから検索されにくいという話を聞いたので、対策を検討中です。調べた結果、選択肢が2つあることがわかりました。 1)静的ページを自動的に作成するパッケージを導入する。 2)サーバの設定(mode_rewriteなど)を変更して、見た目を静的っぽくする 2)は言わば「静的ページもどき」で、中身は動的ページのままです。しかしサーバの設定ひとつで済むので楽です。一方1)は、静的ページの実体をしっかり作ってくれますが、パッケージにお金を払う必要があります。 お金を払っても1を選ぶ方が良いのか、2で十分なのか、どちらが良いのか迷ってます。効果があるなら1)でも良いと思うのですが、どの程度あるかは確認とれていません。 アドバイスいただけたら嬉しいです。

  • ヤフー検索のページ検索とサイト検索について

    こんにちは。 ヤフーの検索エンジンを使ってキーワード検索をするのですが、 いつも不思議に思うのですが、絞込みされたページにジャンプすると カテゴリ検索、サイト検索、ページ検索、ニュース・・・・ とタブがあります。 その違いによって、ヒットしてくるサイトもぜんぜん違いますよね。 それって、どんな違いがあるのですか? サイト検索でヒットしてきたのが、2件としたら、ページ検索は、 4850件とか・・・どんな違いがあるのでしょうか? 素人ですので、わかりやすく教えていただけないでしょうか? 宜しくお願いします。

  • 特定のページから自動でデータを取得する

    Yahoo!ファイナンス等で株価のデータを毎日決まった時刻に取得し、データベースとして保存したいと考えています。 私が知りたいことは以下の2点です。 1、特定のページに書いてある情報の自動取得の方法 2、特に誰かが操作しなくてもサーバ側で毎日決まった時刻に自動的にデータを取得することが出来るのか。 以上です。 PHP+mySQLで以上のことは実現可能でしょうか。 よろしくお願い致します。

    • ベストアンサー
    • PHP
  • 消えたサイトのページを見る方法

    お気に入りに入れていたページが先日消えてしまっていました。 サイト自体がなくなったのではなく、その中の一部のページです。 ネットで調べて試してみましたが、 http://www.archive.org/index.php ↑こちらのサイトやgoogleのキャッシュを検索してみてもダメでした。 諦めきれないのですが、ほかに方法をご存じでしたら教えてください。 数か月前ではありますが、一度はそのページを見ているので履歴などから見ることはできませんか?

  • 検索に引っかかったのに存在しないページ

    こんにちは。 Yahoo!の検索や、Googleイメージ検索などの検索で、あるページが見つかって一覧に表示されているのに、それをクリックして飛ぶとNot Foundになる…っていうこと、よくありますよね。 これはどうしてなんでしょうか? どうして検索ロボットは、もうサーバー上に存在しないページやその内容、またはそのページに含まれる画像まで拾ってこられるんですか? 前から不思議だなと思っていたので、くわしいかた、ぜひ教えてください!

  • 軽いページを作るには

    こんばんわ! お世話になっております。 自分のサイトはphpで作っています。そこにセッションが入りurlは http://www.○○○.jp/○○.php?/phpsessid=○○○○ になります。 しかし、大手さんのサイトは ○○.php?にはならず ○○○.jp/m/セッションid/ファイル名 になってます。 これは、セッションが入る度にm/の直下にセッション用のファイルを作りいわゆるファイルが作成されてから○○分又は○時間が経過したらファイルを削除するようにしているのですか? なぜ、自分のサイトよりも取得情報が膨大なのにスムーズにページが表示されるかその仕組みが分かりません。 自サーバとか共有サーバとかの問題だけではないのかもと思いました。 /m/セッションid/ファイル名 これの仕組みを教えてください。 phpファイルは使ってないのにphpファイル以上の快適さを作るにはどうしたら。

    • ベストアンサー
    • Java
  • 現在HTMLでウェブサイトを作っているのですが、表(いわゆるテーブル)

    現在HTMLでウェブサイトを作っているのですが、表(いわゆるテーブル)をサイトを見ている人が任意の並び順に変更できるようにしたいと思っています。(あくまでも「テーブルごと」です。テーブルの中身の数字などの並び替えではありません。) PHPの初心者向けのサイトをざっと読んでいたのですが、画像などを並び替えるのはプログラムサンプルなどが公開されていて分かりやすかったのですが、何点が分からない事がありまして質問します。 私のやりたいのは画像などの単一のファイルではなく、100個程度あるテーブルごとの並び替えなのですが、これはPHPのみでできるのでしょうか? またテーブルが非常に多いので、データベース化も考えているのですが、データベース化はmysqlで行い、PHPで呼び出し、並び替えるのが良い・・と過去の質問でもあったのですが、 やはりこの二つを覚えるのが近道でしょうか?そもそもテーブル(Html文)をデータベース化できるものなのでしょうか。(現在私はHTMLとCSS程度しか分かりません) よろしくお願いします。

    • ベストアンサー
    • PHP
  • gooのページ検索って?教えて下さい!

    8/1にgooのページがリニューアルされてから、あるページが”ページ検索”ではヒットするのですが、”サイト検索”ではヒットしなくなりました。 登録しているページのアドレスは www.ocn.ne.jp/***/ です。 なにが違うのだろうと思い、検索結果のページのリンクプロパティをみてみたところ、”アドレス”の所がページ検索に表示されるサイトではなにも表示されないのに、ページ検索でのみ表示されるページではhttp://www.goo.ne.jp/results_ct.asp?MT=%C5%F0%C4%B0%B4%EF&SDB=PG&_v=2&DEST=http://www4.ocn.ne.jp/~***/ のように表示されます。 この違いなのでしょうか? とにかく、あるページをサイト検索でヒットするようにしたいのですが、なにか手段はありますでしょうか? どんな情報でもいいのでアドバイスをお願いします! ちなみにMETAタグのTITLEとKEYWARDは記述しています。。。 どなたか助けてください!!