日本語の単語と読み方のDBが欲しい

このQ&Aのポイント
  • 日本語の単語と読み方のデータベース(DB)を作成する方法や既存の情報について教えてください。
  • 自作のシステムに使用するため、日本語の単語と韻を踏んだ言葉を探すためのデータベース(DB)が必要です。
  • 既存の単語と読み方のDBでは精度が低く、パラメータを細かく指定できないため、自作することにしました。
回答を見る
  • ベストアンサー

日本語の単語と読み方のDBが欲しい

ある単語を入力すると、その言葉の韻を踏んだ言葉を探してくれるという システムを作ろうと思っています。 http://inkateikoku.com/c-b/dic/ に既にあるのですが、単語が登録制で精度が低いのと、 もう少し細かく色々とパラメータを指定したいので、 簡単にできるなら自作しようと思っています。 しかし、そのためには単語とその読み方のDBが必須です。 形としてはCSVでもExcel形式でも、こちらが変換できる形であれば なんでも構わないので、このようなデータベースを作る方法や 「ここにあるよ」という情報を教えて欲しいです。 IMEにATOKを使用しているのですが、そのような機能はなさそうでした...

質問者が選んだベストアンサー

  • ベストアンサー
  • kobby
  • ベストアンサー率43% (31/72)
回答No.1

>IMEにATOKを使用しているのですが、そのような機能はなさそうでした... うちにあるATOK12では辞書ユーティリティーで一覧出力が出来ます。 ごく基本的な機能なので、最近のATOKでも出来ると思うのですが、、、

1year365
質問者

お礼

すいません、この機能を知りませんでした・・・。 まさにこの機能が欲しかったのです。 ありがとうございます。 もっとちゃんと調べるようにします。

関連するQ&A

  • IME2002で登録した単語を他のPCで使いたい

    IME2002で登録した単語を、別のPC(IME2003)で使用しようと思い、辞書ツールより、「ツール」→「一覧の出力」を選択しました。 「単語の一覧」の中には登録した単語もあれば、無いものもあります。 辞書ツールの辞書名はC:Documents and Settings\USER\Application Data\Microsoft\IMJP8_1\imji81u.dicっていう場所です。 IMJP8っていうフォルダもありますが、中には何も入っていません。 自作で登録した単語は、この中に無いのですが、ちゃんと登録されています。どこにあるのかわかる方、教えてください。 また、登録した単語を他のPCで使いたいのですが、どのようにすればよいのでしょうか? 以上、よろしくお願いします。

  • 日本語FEPの不満

    日本語FEPに不満が・・・。 MS-IMEでも、ATOKでも、うーん。。 漢字変換の精度がダメ(いまいち)ということはもちろん不満ですが、さらに、 ・勝手に半角とかに切り替わってしまい、もとにもどらない ・誤入力をした場合に予測して欲しい   ・インターネットなどから、日本語FEPのソフトが定期的に最新の言葉を自動的にダウンロードして欲しい 日本語FEPって、いろいろ工夫されないものでしょうか・・?

  • 顔文字辞書の配布について

    私のPCに入っている顔文字(自作物)を気に入った人がいて、その方達に辞書の配布をしようと、いろいろ検索をかけてみたのですが、探し方が悪いのかもしれませんが、私がこれから作りたい辞書の作成関連のサイトが見つかりませんでした。 わかる方がいらっしゃいましたら教えてください。 私のPCはXPでIME2000です。 辞書を渡す人はIME2002の人もいればATOKの人もいます… そこで… 1.IMEとATOKとことえりで使える辞書を作りたい。 2.上記の入力システムでいろいろなバージョンでも使える辞書を作成したい。 3.テキスト形式とdic形式の両方のファイルを用意したい。 システム辞書の作れるツールやサイトをご存知でしたら、それも合わせて教えてください。

  • 顔文字辞書の配布のことです

    私のPCに入っている顔文字(自作物)を気に入った人がいて、その方達に辞書の配布をしようと、いろいろ検索をかけてみたのですが、探し方が悪いのかもしれませんが、私がこれから作りたい辞書の作成関連のサイトが見つかりませんでした。 わかる方がいらっしゃいましたら教えてください。 私のPCはXPでIME2000です。 辞書を渡す人はIME2002の人もいればATOKの人もいます… そこで… 1.IMEとATOKとことえりで使える辞書を作りたい。 2.上記の入力システムでいろいろなバージョンでも使える辞書を作成したい。 3.テキスト形式とdic形式の両方のファイルを用意したい。 システム辞書の作れるツールやサイトをご存知でしたら、それも合わせて教えてください。

  • 日本語入力ソフトのベストチョイスは?

     お願いします。  日本語入力ソフトをいろいろ使っていますが、どうも決め手に欠けるものばかりでこれこそ!というのに巡り会えません。  Windowsの標準であるMS-IMEは変換精度が全然ダメ。  Google日本語入力は縦書き文書が全く想定されておらず、縦書きの場合のダブルクォーテーションなど入力できない記号もありますので、縦書き文書をたくさん作る私にはこれも使い物になりません。  Baiduなんかは中国製ですので、セキュリティを考えたらはなから使う気になりません。  結果として使ってるのがATOKなんですが、これにも不満があります。  まず、日本語の語彙を考えて変換しているんでしょうが、考えすぎてひとつの文章の中で使われている同じ単語なのに違う文字に変換してしまい、イライラさせられることがあること。  その日本語は間違ってますよという警告機能がありますが、例えば「ないとは言えない」みたいなごく当たり前の表現にも「否定の連続」という警告が出ます。「日本の国旗の赤丸の中心」なんかには「の」の連続ですよという警告も出ます。形容詞が連続しても出ることがあります。  そして、何より基準になるのが現在の文部省日本語であり「1個づつ」なんて打ったら「ずつ」にしなさいと出ます。ひとつ、ふたつ、みっつ、の「つ」がふたつ重なり、重なったことにより上の文字に濁音がついてできた単語なので「づつ」が歴史的に見れば正しいんです。  もうひとつATOKの不満は「重い」。しばしば、変換をしたら固まります。10秒から15秒くらいで動き出しますが、同じ文章をもう1回打ち込んだことになることもしばしばあります。  我慢しつつATOKをいま使ってますが、もしこれら以外で良いものがあったら教えて下さい。

  • MS-IME以外。。。

    こんにちわ、いつも御世話になっております。 今WindowsXPのMSーIMEを使っていますが、自分は理系の 学生ですが、IMEで日本語入力の変換が不満です。 いつも、単語を登録ばかりしている。ときどき、変な言葉 に変換してしまったりしてる。 僕のような理系の学生、フリー日本語入力ソフトがありま すか? ATOKはちょっと値段的に。。。

  • 文字変換がうまくいかない(確定を押すと余計な単語が出てこなくなる回避方法)

    OSもOfficeもWin2000でExcelとWordの時だけに起こる現象。 「い」と入力後、変換keyで「井」だけのものを選択後確定を押すと必ず「井坂産業」と出てきてしまい、毎回「井」の後の文字を削除する手間がかかる。他アプリケーションではちゃんと「井」だけが確定時に表示されEnterをクリックしても表示されるのに、ExcelとWordの時だけは余計な単語が付加された形で確定されてしまう。 IME言語ツールバーの辞書ツールを確認しても単語登録も用語登録もされていないのに、何故ですか? とにかく、2つのSOFT起動中に「井」と一文字だけ入力したいので、至急ご返事お待ちしています。

  • この意味を教えてください。

    「語源」という言葉があります。【個々の単語の本来の形や意味。また、個々の単語の成立の由来や起源。】という意味です。これは、要するに言葉の意味という解釈でいいんですよね? 例えば「本という語源は、書物のことです。」「この言葉の語源も知らないのに使うな」といった文は変でしょうか?(意味の理解の仕方が違うかもしれませんが。) 次に「韻を踏む」ですが【同韻の字を詩句の特定の場所に用いる。韻を押す。】すいません。こちらは、さっぱり意味が理解できないので、噛み砕いて教えて頂けないでしょうか?お手数掛けます。 最後なんですが「記憶をするときにエッチなことに結びつけてみます。評論やエッセイを英語で読んでも、面白くもなんともありませんが、ポルノ小説のような、感性豊かな内容を英語で読むと、理解が促進され記憶に残ります。」という「感性豊かな内容」という部分です。ここの意味が妙に変な気分になります。どういった意味なんでしょうか? 感性は「相手が何を言っているのかが詳しく分かる」「言葉の意味が詳しく分かる」という意味ですよね?ということは、どういう意味なんでしょうか? 長々とすいません。どうかよろしくお願いします。

  • IME選手権!

    IMEって何気に大切ですよね?コレ次第で、パソコンの快適さも変わると思います。そこで、皆さんに質問です。IMEは何をお使いですか?また、そのIMEを使う理由やおすすめポイントなどのご紹介も合わせてお願いします。 IME代表選手 ・MS-IME >Windowsに最初から入っているIME。基本的な機能を提供する。変換機能にやや不満の声がある。 ・ATOK >古くから人気のあるIME。国産の為、日本語が非常に得意で個人から法人まで幅広い場所で活躍。パソコン玄人の代名詞的存在。機能も豊富で、非常に便利。しかし、流行語にやや弱くインターネットで使うにはやや不便さがある。(推測候補定期学習の設定次第で事足りる場合もある。グーグル日本語入力 for ATOKというプラグインも存在する。) ・Google日本語入力 >IMEの中では新人。ウェブを通して最新の流行語をどんどん学習し、進化していく。「これは出ないだろう。」という言葉でも変換できてしまう事があり、密かに話題となっている。ごく最近、手書き入力や再変換に対応し他のIMEからの乗り換えが加速している。しかし、ビジネスには向かない。加えて、やや重たいとの声がユーザーから出ている。 ・Baidu IME >中国の検索サイト大手「Baidu(バイドゥ)」が手がけるIME。グーグル日本語入力とは同期。スキンの変更や可愛らしく清潔感あるデザインで女性に人気!?画面キャプチャ機能などIMEとは思えないほど高機能でGoogle同様Webから単語を学習する。しかし、Googleほど流行語に強くはない。加えて、中国の会社ということで「秘密裏な情報収集」という嫌疑がかけられており普及には遅れが出ている。製作自体は、日本法人が担っているので事実上は国産扱い。 ・Social IME >ユーザーが辞書登録した単語が他のユーザーにも反映される。よって、グーグル日本語入力同様流行語にめっぽう強い。しかし、インターネット接続必須なのと重さがマイナス点となりグーグル日本語入力やBaiduTypeの登場で下火となりつつある。 ここに上げたものに限らず、便利なものがありましたらジャンジャンご紹介ください。 ちなみに僕は「グーグル日本語入力」です。理由は、インターネットでの検索が便利だからです。キー配列はATOKになってます。昔は、ATOKだったので。

  • ATOK のレビューが再び削除されました

    私は以前、 ATOK のレビューが Amazon から削除されたことを質問させていただきました。 その時は お世話になりました。 https://okwave.jp/qa/q9220649.html そして、 指摘していただいたとおりに修正し、 無事に掲載されていました。 しかし、 本日 (2017年09月03日)、 再びレビューを確認すると、 また削除されていました。 何が悪かったのでしょうか。 削除された内容を記述するので判断していただけないでしょうか。 なお、 レビューは やく 1万文字のため、 いかは省略した内容です。 よろしく お願い致します。 ************************************************** 注意: OKWave の不具合により、いかのエラーのため返答できませんが、全部の回答を見ています。 ---------------------------------------- この操作は実行できません。 再度ログインをお試しいただき、改めて操作手順をご確認ください。 問題が解決しない場合は、FAQを御確認のうえ、お問い合わせください。 ---------------------------------------- この不具合について OKWave 管理者に問い合わせても、嘘の返答があるだけなので無駄です。 http://okwave.jp/qa/q9226301.html ************************************************** ↓ここからレビュー本文 注意: ステルス マーケティング、間違ったレビュー、に注意してください。 注意: レビュー利用規約に従い、URL を削除しています。 注意: このレビューは一度、Amazon に削除されました。 利用規約を満たしているにもかかわらず。 そのため、削除理由と想定される箇所を伏せ字にしました。 仮に、これでレビューが削除されなければ、Amazon には裏利用規約が有り、それで削除されるかどうかが判断されていることになります。 ---------------------------------------- <総評> 結論として、不具合が多すぎて正常に使用できませんでした。 仮に不具合がなかったとしても、ほかの IME より劣っています。 私の個人的な意見としては、理想的な IME は以下です。 Windows 7 以前: 搭載されている Microsoft IME Windows 10: Google 日本語入力 それ以外の OS: 不明 (多分、Google 日本語入力) ---------------------------------------- <致命的な不具合> ATOK をインストールしていると、ほかのソフトウェアのフリーズ、無反応、などが はっせいします。 具体例として、Firefox アドオン [BlockSite Plus] がフリーズする、などです。 その後、[不具合が発生し始めた時期] と [ATOK をインストールした時期] が一致することに気づきました。そのため調査を開始しました。 後kをインストールすることでスタートアップに登録されるソフトウェアは以下です。 (補足説明: ATOK では、ATOK と入力すると、後k と表示されます。) ATOK イミクル ATOK オンメモリマネージャー ジャストシステム契約管理エージェント サービス 契約管理エージェント JUSTオンラインアップデート このうち、 ATOK イミクル ATOK オンメモリマネージャー の2つを両方とも強制終了させると、ようやく正常に戻りました。もはや [IME として優秀かどうか] の話ではありません。ソフトウェアとして正常に動作しない以上、使用することは不可能です。 ちなみに、ATOK イミクル は、設定で起動しないようにできますが、[ATOK オンメモリマネージャー] は強制起動です。msconfig から オフにすることも不可能です。ATOK 本体から呼び出されていると推測されますが、特定できません。よって、選択肢としては、[ATOK を使用しない]か、[ATOK を起動するたびに Windows タスクマネージャー から ATOK オンメモリマネージャーを毎回 強制終了させる] か、の どちらかしかありません。 ---------------------------------------- <それ以外の不具合> 誤変換が多いので、一部だけ記述しておきます。 JIS規格 → 時s企画 未読のメールが強制的に奇特になっています。(→既読) 辞書に掲載されている単語の多くが存在しません。[岩波国語辞典第六版] ■賤 ■人 気■い 支■ もちろん、これらは差別語でも放送禁止用語でもありません。辞書にも何の注意事項も記述されていません。他人に不快感を与える単語でもありません。■那 (シ■) に至っては、英語で china と書くことから理解できるとおり、単なる地名です。これは一例で、後kには辞書に記載されている一般的な単語の多くが欠落しており、IME としてまともに使用できません。当然ですが、ほかの IME (Microsoft IME、Google 日本語入力) には、辞書の単語は全部登録されています。 その反面、辞書にない俗語は掲載されています。[貯める (ためる)] は、辞書 [岩波国語辞典第六版] に存在しませんが、なぜか変換できます。正しい言葉だけを掲載するのでは なかったのでしょうか。ジャストシステムの主張が でたらめで、信用できません。 入力中に、常に変換候補が入力文字列のすぐ下に表示されます。そのため、入力中の文字列の下にある情報が一切見れず、非常に困ります。 自動登録単語機能が邪魔です。自動登録された単語の一部のみを公表します。 これが役に立つはずがありません。 読み 単語 品詞 単語種類 います います 名詞サ変 自動登録単語 してしま してしま 名詞サ変 自動登録単語 Tab キーを押しても次の変換の塊に移動しません。[変換候補一覧の次のページに移動] してしまいます。「MS-IMEと操作方法が違うのだからなれろ」といういいわけは通用しません。最初に「MS-IMEの操作方法に合わせる」という選択肢を選んだはずなのですから。 カーソルのそばにミニバー (ATOKメニューなど) が表示されてしまい、ウィンドウ上の文字などの重要な情報を隠してしまいます。非常に邪魔で迷惑です。 一般的な辞書の記述を無視します。具体例:ウナギ、アザラシ 辞書 [岩波国語辞典第六版] にはひらがなで記述されています。 なぜなら、これらは外来語ではなく、擬音語でもないからです。このように ATOK は、辞書も言葉の意味も完全に無視して、意味不明な変換を優先しています。全く役に立ちません。仮に、どうしても辞書を無視するのであれば、どのような理由で、どういう基準で無視するのか、正式にジャストシステムが公表しなければいけません。それをしていない時点で、単なる不具合としか判断できません。 平仮名のことを [ひらがな] と記述してしまいます。当然ですが、辞書には [平仮名] と記述されています。感じは表音文字であり、意味が伝わりやすくなるように考え出された文字です。これは一例で、基本的に辞書も言葉の成り立ちも無視した、意味不明な変換が目立ちます。というか、[感じは表音文字] と変換してしまう辞典で、IME失格だと思うのですが。 上記の不具合を回避するために、私は「ひらがな」を抑制単語に登録しようと試みました。しかし、後k単語登録の品詞に、抑制単語が存在しません。 (補足説明:ATOK単語登録 と入力すれば、後k単語登録 と変換されます。) 実際には、変換候補の表示中に、Ctrl + Del を謳歌した場合のみ、抑制単語に登録できます。非常に不便です。当然ですが、Microsoft IME for Windows 7、Google 日本語入力、などは、単語登録時に抑制単語を選択できます。 (補足説明: 謳歌 → 押下です。Ctrl + Del を謳歌している時点で IME として失格です。) 単語登録時に [読みに不適切な文字が含まれています] とエラー表示され、登録できないことがあります。これ自体は親切なエラーメッセージのはずです。しかし、どう不適切なのか、どう直せばいいのか、を全く教えてくれないため、解決できません。時間をかけて探した結果、ヘルプの奥の方に記述がありました。具体的には、以下の文字は単語登録できません。 スペース 漢字 独仏文字 発音記号 特殊記号 まず、これらの文字は Google 日本語入力 では普通に入力できます。よって、これは後kの大きな欠点といえます。後kで登録できないのは、 」) などの記号です。しかし、言語に従事する人であれば、必ずこれらを登録する必要があります。学校で習ったと思いますが、文章の最後では、閉じカギ括弧(」) と句点(。) を、原稿用紙の1つのますに記述しなければいけません。すなわち、[。」] という書き方です。後kの初期状態の [。」] は、無駄にスペースが多く、冗長な記述になっていることが、見た目からも理解できるはずです。このように、文部科学省の記述ルールに従うと同時に簡潔な記述をするのであれば、

専門家に質問してみよう