- ベストアンサー
機械学習C4.5の調査結果と決定木アルゴリズムについて
- 機械学習C4.5の調査結果をまとめました。機械学習C4.5はID3と異なるアルゴリズムですが、情報が限られており、情報の取得が難しいです。
- C4.5の決定木アルゴリズムを理解するために、プログラムを組んで実際に試してみたいと考えています。アルゴリズムの詳しい教授をお願いできますでしょうか?
- 離散値に関してはC4.5での計算方法は理解できますが、連続値に関してはまだ理解ができていません。具体的な計算方法について教えていただけますか?
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
あいかわらずソースも読まず回答してみますが、御容赦くださいませ。 (解読していると永遠に回答できそうにないので) ですのでC4.5というより2分木の一般論ですが、 どこで分けるのか?と言う事に関しては、 たとえば国語だったら C>D>E>A>B の順なので、4つの不等号のどこかで分けることになります。 数学や英語も含めて一番きれいに分かれるところをとればよい、 ということになろうかと思います。 たとえばCとDの間でわけるとして、具体的なしきい値をどこにするか? は本質的にはどこでもよいと思います。 うろ覚えですが実際には、 「意味のある値」ということで与えられたデータにある値を使っている ケースが多かったと印象があります。 (具体的にC4.5がどうだったか覚えていませんが) C4.5がどうなっているかは、公開されているコードを解読されるのが おすすめです。
その他の回答 (1)
- sternness1970
- ベストアンサー率40% (4/10)
C4.5は使ったことがあるだけなので、正確なところが解説できず申し訳ありませんが、 C4.5はQuinlan自身がソースを公開してますから、 それを試してみる&解読するのが最も正確だと思います。 大昔はソースコード付きの解説本があったそうですが絶版だと思います。 (少なくとも日本語版は。再販とかしてなければ) 勉強のために自力でコーディングしたいと言うことであればこの回答は忘れてください。 C4.5が正確にどうなっているか分かりませんが、連続値なら好きなところしきい値をきめて 2分してしまえばあとは2カテゴリの離散のケースと一緒ではないでしょうか。
お礼
回答ありがとうございます。 自力でコーディングしてみたいと思っています・・・。 >連続値なら好きなところしきい値をきめて >2分してしまえばあとは2カテゴリの離散のケースと一緒ではないでしょうか。 C4.5の説明が記載されているページを読んで ソートを行ってから分ける場所を決めるということは理解できたのですが 閾値はどうやって決めるのでしょうか? (やっぱり単純に計算をするのだと思うのですが…)
お礼
たびたびのごかいとうありがとうございます。 あれからさらに調べてみたのですがなんとも言えずという状態のため 本を購入してアルゴリズムをしっかりと勉強使用と思いました。 やはりコードを読んでしまうと作る意味をあまり感じなくなってしまうので あくまでもプログラムの先入観をなしで挑戦したいと思います。