• ベストアンサー

複数の話者の音声認識

複数の話者の音声認識はまだ達成されていませんよね? これが達成されれば市場で最も需要の高いと思われる「会議の文字おこし」が可能になるんですよね? そこで質問ですが、 人間って二人の話者の会話を同時に聞いて理解できるんですか? 自分では実験したことがないので聞けてるのか聞けてないのか分かりません。 カクテルパーティー効果で複数の人が喋っていても 特定の人の会話を聞き取るのは可能でも二人同時は無理なような気がしてきました。 取り敢えず、人間が出来るか出来ないかによって コンピューターへのアプローチも左右されるように感じます。 ちなみに無知で超ド素人の私だからこそ言えるのですが 二人くらいなら音声認識装置で「認識出来そうな気がします」。下手すれば百人でも。 方法は至って簡単なんですが。(^^ゞ 逆になんで「出来ない」と言っているのかが分かりません。

  • oxford
  • お礼率95% (146/153)

質問者が選んだベストアンサー

  • ベストアンサー
  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.4

>いや、私も大まじめなんですが。 私の文がまずかったようで申し訳ない。 大まじめにっていうのは「1つのマイクから複数人を認識」 という目標だけに集中して考えていたという意味で、 oxfordさんが不真面目だというつもりではないです。m(_ _)m >何か間違っていますでしょうか? 間違ってません。実現可能です! ただ、認識率が低いので取りこぼした部分の補完ができにくい って問題があるんです。認識率99%とかいうのは標準語+ 発音訓練+イントネーション矯正+雑音ほぼ無し という環境での測定結果だったりします。 それに、メールを書く時のように入力を確認しながら しゃべってる訳ではないので(やったら会議に集中できない) 会議内容を聞かれても大丈夫な役職の人をオペレータとして 会議出席人数分揃えるのは・・・(汗 >「人間って二人の話者の会話を同時に聞いて理解できるんですか?」 忘れてました。。。 できません。高度な処理が可能な大脳はシングルタスクです。 もひとつ小脳がありますが、こちらは主に記憶した「動作(自転車とか)」 を再現する能力で、“ぶつかりそうなら止まる”のように 簡単な条件分岐しかできないです。 たまに2人までなら聞き取れるとか言う人いますが、 A A A A A A A A A A A A A A A -------------------------------> 時間の流れ B B B B B B B B B B B B B B B のように小刻みに脳を切り替えてるだけです。(タイムスライス) 聞こえてない部分は経験に基づいて「補完」してます。 よっぽど慣れ親しんだ言語&簡単な内容でなければ無理。 余談:必要ない音のフィルタリング機能は超高性能です。

oxford
質問者

お礼

>「1つのマイクから複数人を認識」 確かに定義では「単一の信号」から複数の話者を認識するのが目的なので TALLY-HOさんが正しいです。 しかし、私としては目的さえ果たしてしまえば 方法なんてどうでもいいと思うのです。 コロンブスの卵ですね。卵を立てるために卵を割ってもいいと思っています。 >認識率99%とかいうのは標準語+ 発音訓練+イントネーション矯正+雑音ほぼ無し これらは大問題ですよね。 特にイントネーションと雑音と複数話者認識の三つが 音声認識では最大の問題と言われているみたいですね。 雑音の処理は改善されてきているらしいですが、 異なるイントネーションを読み取るのは 当分できないと思うので複数話者認識を選びました。 会議での読み取りも「ええ、ああ、おほん、さきほどもうしあげたとおり・・・」みたいに 意味など考えずにそのまま読み取ってくれるだけで いいんですけど。 >できません。高度な処理が可能な大脳はシングルタスクです。 やはりそうでしたか。 心理学の実験で被験者になったのですが同じようなことをしました。 会話を聞いて特定の子音(SとかKなど)が出てきた場合にボタンを押す、という簡単な実験でした。 子音にばかり集中していると会話の内容は聞けず、 会話の内容に集中していると子音が出てきても気付かず、という結果になりました。 …ということは複数話者認識が可能になれば人間よりも優れた機能を持つことになるのですね。 うーん、でも果たしてできるのか…。 ありがとうございました!

その他の回答 (4)

  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.5

No.2です。 > #1さんのお礼に書いた方法はどうですか? 個別にマイクで録音する→話者Aと話者Bの分離が完全に出来ている。のでしたら、後は既存の技術で対応できます。 問題は「テープ起こし」の場合で、 > 「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。 のケースも、 ・実際に現場で聞く場合。 ・ビデオテープを見ながら聞く場合。 ・カセットテープの音声を聞く場合。 であれば、聴覚以外の感覚を使ったり、話者に注視したりで話者の判断が出来るので、かなり違うように思います。 あと、精度の高い音声認識を行うには事前に時間をかけて定型文章を何度も読み上げて学習する手間が必要ですが、会議の出席者にこれを依頼したり、ましてや死んじゃってる人のテープだと厳しいかも。 -- とはいえ、継続して研究は続けられている分野ですし、オンラインソフトで、 鼻歌から楽譜作成(音符の認識) というものに対して、和音にも対応するソフトがあるが、やはり認識率あ落ちるというものもありました。

oxford
質問者

お礼

そうですよね。 視覚情報も助けになりますよね。 現場にいるなら、聴覚であってもどの方向/距離から声が来ているか判断がつきますし。 心理言語学では複数の話者の会話の最中に目がどこを追っているか調べているそうですね。 今はエンロールなしで実際の音声入力から自動的に学習する方法が良さそうですね。 でも本当は学習も何もせずとも認識すればいいですよね。 ヒトは初めてあった人物でも大体(?)認識しますからね、たとえ死んじゃった人物のテープでも。 音符の認識とか面白そうですね。 ホーミー(一人で二つの異なった声を発声する方法)で唄ったらどうなるんでしょうね。w ありがとうございました!

  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.3

>マイクを複数個使い処理も別々に行う あっはっはwwwww 大まじめに考えてたので新鮮なアイデアに感じました。(笑) 確かにできますね。ただ全員にマイク、処理PCとなると コストが高く付きすぎて売れないんです。会議のような 密室だと隣の人の発言も所々拾っちゃいますし・・・。 テープに録音して文字起こしのバイト君雇うのが安い;; 今回は会議の録音という事なのでちょっと方向がずれますが、 全員がマイクつけてもスポーツの実況中継などは無理でしょう。 海など機械の苦手な環境も辛いでしょう。 それに、人型メイドロボットなど男のロマン実現のために(なんか違う)、 やっぱり複数人の音声識別は必要なのです。^^

oxford
質問者

お礼

ありがとうございます。 いや、私も大まじめなんですが。 スタート地点はここだと思うのです。 処理は別々とは言え、お互いに音声情報の交換をしあえるようにしておきます。つまり、 >会議のような密室だと隣の人の発言も所々拾っちゃいますし・・・。 こういう時には隣の音声信号と照らし合わせ、その分を差っ引いて本人の音声信号だけを取り出す、 ということをすればよいと考えています。 (そのためのデータ取りは面倒でしょうけど) いきなり、真隣だと信号がごっちゃになりますが 最初は100m離れて実験を始めます。 その場合、隣の音声の干渉はまったくないと考えられます。 そして、干渉し始める距離を閾値として、それをどこまで縮められるかを測定すれば開発の糸口になると思います。 最初はマイクは一人に一つずつですが、最終的には ステレオマイクLRだけで話者を識別できるようになればよい、と考えています。 (この場合は本人が動き回ると別人と判断されるでしょうが) 何か間違っていますでしょうか? …で実は本物の質問は 「人間って二人の話者の会話を同時に聞いて理解できるんですか?」だったりするんですが。w

  • neKo_deux
  • ベストアンサー率44% (5541/12319)
回答No.2

> 二人くらいなら音声認識装置で「認識出来そうな気がします」。 男性と女性の二人なら比較的簡単かも知れません。 同年代、同姓の方だとちょっと難しいかも。 一卵性双生児など、声のそっくりな人が二人で話していると…? あと、トランシーバーみたいに、 「○○どうぞ。」「△△どうぞ。」 と、交互に話して区切りがはっきりしていれば良いですが、 ♪ 静かな湖畔の森の陰から…      静かな湖畔の森の陰から…           静かな湖畔の森の陰から… みたいなのはキツイです。

oxford
質問者

お礼

ありがとうございます。 #1さんのお礼に書いた方法はどうですか? これだと本人と本人のクローンが同時に喋っても認識すると思うのですが。w

  • TALLY-HO
  • ベストアンサー率29% (103/354)
回答No.1

音声は専門じゃないですがコンピュータ分野の者です。 >下手すれば百人でも。方法は至って簡単なんですが。(^^ゞ 是非その方法を聞かせて欲しいです。 >逆になんで「出来ない」と言っているのか 分離が難しいんですよ。同時に喋られると・・・。 あ、い、う、え、お とかの声の分類は学生でもなんとか。 誰の声、がかな~り難しい。 複数混ざるともうお手上げってかんじでしょうか。 つまり、Aさんの声を認識したいときにはBさんとCさんと DさんとEさんの声は「雑音」なんです。邪魔です。 次にBさんの声を認識するときには他のA,C,D,Eの声が・・・以下略。

oxford
質問者

お礼

ありがとうございます。 TALLY-HOさんの補足要求を見て更に出来るような気がしてきました。 というか「誰かもうやってみて何かの理由で駄目だったんだろうな」とも思えてますが。 解決法は超簡単です。 マイクを複数個使い処理も別々に行う、それだけです。(^^ゞ 駄目ですか?w

関連するQ&A

  • 話者認識装置にICレコーダーに録音された本人の声

    ATMなどで利用する話者認識装置の研究がされていますが もし、ある話者の声をICレコーダーか何かで録音したものを流した場合は 認識されるのでしょうか? 当然「(詐欺で使われてしまうので)認識されるべきではない」と思うのですが もし認識されるのであれば予防の方法はあるのでしょうか? ICレコーダーあたりだと高域の周波数に限度があるとは言っても 人間の声はそんなに高域の周波数は必要としていませんし…。 逆にもし認識されないのであれば今度は本人のちょっとした声変わりでも 認識されないような気がします。

  • 音声認識ソフトを使って・・・

    (観察したものを利用して)論文を書くのに音声認識ソフトを利用してみようか検討しています。 色んな過去の質問と答えを見たところ、こまめに学習させることが必要だったり、複数の人の音声認識には向いていないこととかわかりました。 それで私の場合、観察なので一言一言もらすことなく入力しなくてはいけませんが、約二時間喋りっ放しで方言なども含まれている内容でも、音声認識ソフトを使うと楽に立ち上げができますでしょうか? そして、ノートパソコン(La Vie LL500/9)を使っていますが、ソフトの他に揃えないといけないものとかあったら教えてください。 よろしくお願いします。

  • 音声チャットを複数で同時に行うには

     友人とMSNメッセンジャー、YAHOOメッセンジャーをつかって音声チャットをしているのですが、ふたりでは話せるのですが、三人以上でしゃべることのできるソフトはあるのでしょうか?  YAHOOのカンファレンス機能だと、ふたりずつ交互にしゃべることになり、やや不便です。  同時に三人以上が会話できるものがあれば、教えてください。  使って見て、これはいいよというものがあれば、ぜひ。

  • 音声チャットを複数で同時に行うには

     友人とMSNメッセンジャー、YAHOOメッセンジャーをつかって音声チャットをしているのですが、ふたりでは話せるのですが、三人以上でしゃべることのできるソフトはあるのでしょうか?  YAHOOのカンファレンス機能だと、ふたりずつ交互にしゃべることになり、やや不便です。  同時に三人以上が会話できるものがあれば、教えてください。

  • 音声チャットを複数で同時に行うには

     友人とMSNメッセンジャー、YAHOOメッセンジャーをつかって音声チャットをしているのですが、ふたりでは話せるのですが、三人以上でしゃべることのできるソフトはあるのでしょうか?  YAHOOのカンファレンス機能だと、ふたりずつ交互にしゃべることになり、やや不便です。  同時に三人以上が会話できるものがあれば、教えてください。  使って見て、これはいいよというものがあれば、ぜひ。

  • 日本人と英語話者との文化摩擦

    次の6項目のうち、2つ以上の要素を含む日本人と英語話者との文化摩擦の例をご存じでしたら教えて下さい。 ●個人主義か集団主義か ●上下関係が厳しいか否か ●厳しい規則を設けるか、柔軟に対応するか ●男尊女卑か、男女平等か ●空気を読むのが大事なのか、言葉できちんと説明しないと気がすまないのか ●物事というものは1つずつ順番に起こると考え、一度に1つのことのみに集中するか、複数のことが同時に起こるものだと考え、一度に多くのことをするか

  • 音声を分ける(消す)

    動画などに含まれる音声(人の声や笑い声など)が重なってる部分で、そのうちの一つだけを完全に消す、又はかなり目立たなくするようなソフトってありますか? 例えばAさんとBさんが話していて、二人が同時に喋ってる場面のAさんの声だけを無くす・・・とかです。

  • 英語母語話者(帰国子女等)の方へ‐「光陰矢の如し」について

    私が高校時代に学校で使っていた 有名出版社から出た大学入試対策用の英単語教材の巻頭に、 編集者の先生による余談として 英語翻訳ソフトの話題が出ていました。 著作権の関係でここにその内容は転載できませんが、 その先生のコメントの要旨は以下の通りでした。     ******   【要旨】 「Time flies like an arrow.」 ということわざを翻訳ソフトに入れると、 「光陰矢の如し。」と翻訳されるかと期待していたが、 「時のハエは矢を好む」と表示された。 →まだまだ翻訳ソフトは人間にはかなわない。     ****** さて、この先生の言いたいことはよくわかるのですが、 果たして英語母語話者の人が普段、 「Time flies like an arrow.」 などと本当に言うのでしょうか? これでも間違いではないのかも知れませんが、 英語母語話者は普通は like an arrow は付けずに、 単に「Time flies.」という表現をするのが自然な気がしますが、 実際のところはどうなのでしょうか? 私は英語の母語話者じゃないので、 (非母語話者でもない。完全非話者。ROM専です。w) いちおう母語話者の方に聞いてみようと思います。 できれば複数の方の意見を聞いてみたいです。 よろしくお願いします。

  • PC環境で音声通話のみ可能なソフト▪アプリを教えて

    windows11で使用できる、利用料金のかからない音声通話のみ可能なアプリや、ソフトを求めております。 同時に会話する人数は、私を含めて2人で使います。 webカメラを使わない環境が最適なので、オンラインで音声通話のみ対応したアプリ、またはソフトを教えていただきたく、よろしくお願いいたします。

  • 【アダムとイブ】世界に人間が最初に誕生したときアダ

    【アダムとイブ】世界に人間が最初に誕生したときアダムとイブの2人では無かったのではないでしょうか。 もし男女2人だけだと容姿が違いすぎるので同じ生物と認識出来ないはず。 あと人間が数を認識出来たのは最初に男でも女でも良いが男が複数いる、女が複数いないと数字という考えは生まれなかったと思う。 地球上に最初に誕生した人間は男女の2人ではなく複数の同性が同時に誕生していたと思うんですが正解は分かりますか?