• 締切済み

将棋ソフトの機械学習について

お世話になります。 二年前よりプログラマとして就職し、勉強もかねて趣味で将棋ソフトの制作をしている者です。 ボナンザという将棋ソフトの作者でいらっしゃる保木さんの書籍を読みながら作成しているのですが、機械学習の仕組みについて、未だ理解できずにいます。 ご存知の方がいらっしゃいましたら、どうかお教えいただけませんでしょうか。 質問: ○機械学習にて局面の評価関数を生成する際の、パラメータの生成はどのように行うのでしょうか。 例えば、我々人間がプロの対局をテレビでチャンネルを変えてときにたまたま見たとします。 その局面だけを切り取って、制限時間、手番を追加の情報として得たとき、一般的には ・自玉の硬さ ・自駒の効き ・駒得 ・手番 ・持ち時間 がどれほどであるかを測り、それを元にどちらがどれだけ優勢かを判断します。 しかし、先述のボナンザをはじめ最近の多くのソフトは、上の5つのようなパラメータではなく、プロの指した何万局もの棋譜を読み込み、独自でパラメータを生成しているようです。 その中には、「自玉の玉と金が近くにいるほどどれだけ有利」というユニークなパラメータまであったそうです。 しかし、私の感覚では、一件ランダムに見える値の集まりからある法則を見つけるということは、パラメータは決定していて、その中で散らばっている値の中から法則を導き出す、ということであり、パラメータが決定していていない状態でまずどうやってパラメータを決定するのかがわからない、と感じています。 例えば、有利な局面であるという判断は、「歩を偶数枚持っているかどうか」かもしれませんし、「香車が1個上がっている」からかもしれませんので、パラメータが決定していなければ、それこそ無限に調べなければなくなってしまいます。 見当違いな考えがあるかもしれません。申し訳ございません。よろしければ合わせてご指摘頂きたいです。 宜しくお願いいたします。

みんなの回答

回答No.1

 検索をしてみたのですが。  PDFファイル形式で。 >ゲーム木探索の最適制御:将棋における局面評価の機械学習 >http://www.ipsj.or.jp/10jigyo/forum/software-j2008/hoki-print.pdf  ホームページによると。 >機械学習の理論と実践 >http://www.slideshare.net/pfi/sacsis2013mlokanohara  このような感じでしょうか。  私もあまり詳しくは無いです。

参考URL:
http://www.slideshare.net/pfi/sacsis2013mlokanohara

関連するQ&A

専門家に質問してみよう