ベストアンサー

調査。各グループの代表の決め方。

2012/03/05 06:59

宝来聡著「DNA人類進化学」（岩波書店）から引用しています。下の表は「クラスターの構成と地理的分布」を書き写しています。各数字は左から、静岡、沖縄、北海道、韓国、台湾の人数を示しています。それを元に各クラスターはどの民族に特徴的かを、「特異性」として、日本人、琉球人、アイヌ、韓国人、中国人の中から決めています。（　）内の数字はただの番号です。「特異性」アイヌ（1） 1,0,10,1,1 中国人（1） 11,4,1,5,13 琉球人（1） 0,3,0,0,1 中国人（2） 4,1,1,4,15 韓国人（1） 7,4,4,14,2 ―――（1） 5,5,2,3,5 ―――（2） 2,5,3,1,5 日本人（1） 3,2,0,0,1 中国人（3） 1,0,3,4,6 韓国人（2） 5,0,1,7,1 ―――（3） 5,1,4,5,1 ―――（4） 1,2,3,3,1 琉球人（2） 3,5,0,3,3 韓国人（3） 3,0,0,5,4 琉球人（3） 5,12,8,5,0 アイヌ（2） 4,1,7,0,0 琉球人（4） 2,5,4,3,1 中国人（4） 0,0,0,1,6 本文にはこの特異性の決め方は恣意的な面があると言うような断りの一言も書かれています。特異性とは言うものの代表を決めているだけだと思います。生物学その他の要素がないものとして、単純に数字だけみて、特異性の決め方に妥当性がありますでしょうか。たとえば直感的にアイヌ（１）は許せますが、中国人（１）としたクラスターは納得できません。11人の日本人（静岡）は、中国人の特異性に含まれた事になります。統計学などで、代表を選ぶような手法がありますか。その手法で判定すると上記の特異性は適切でしょうか。皆さんが処理しなければならないとしたらどうしますか。宜しくお願いします。ちなみに、この数字から日本人は他の民族のいわば混血というような話題に発展しているようです。

thegenus
お礼率96% (773/801)

数学・算数
回答数12
ありがとう数12

みんなの回答 （12）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

stomachman
ベストアンサー率57% (1014/1775)

2012/03/22 02:18 回答No.1

　「代表を選ぶ」という話ではどうもないようで、むしろ「各クラスタの特徴を離散的に表現する」というような話かと思います。　ご質問の表の第i行第j列をx[i,j]と書く事にします。クラスタi (i=1～18)のタイプjの人の数がx[i,j](j=1～5)ということです。　これだけしかデータがないので、しょうがないから（絶対的な基準ではなく）ここに挙げられている18のクラスタだけを見て、それらの相互比較で「特異性」を言ってみることにします。もちろん、これが適切かどうかは「クラスタ」だの「特異性」だのの意味を正確に知らねば判断できませんが。　さて、jごとに、またiごとにも構成人数が異なるようなので、これを規格化すべきです。　　t[j] = Σ{i=1～18}x[i,j] 　　T = Σ{j=1～5}t[j] として、各jの構成比率　　m[j] = t[j]/T を計算します。これが、ここに挙げられているクラスタにおける、平均的な構成比率（クラスタをランダムに構成したときの期待値）である、と考えて良いでしょう。　各クラスタにおける実際の比率y[i,j]は　　s[i] = Σ{j=1～5}}x[i,j] 　　y[i,j] = x[i,j]/s[i] なので、yからmを差し引いた　　z[i,j] = y[i,j] - m[j] を作ります。　実際やってみたら、こうなりました： -0.13 -0.17 0.60 -0.14 -0.15 0.11 -0.05 -0.14 -0.07 0.16 -0.21 0.58 -0.17 -0.22 0.02 -0.05 -0.13 -0.13 -0.06 0.37 0.01 -0.04 -0.05 0.23 -0.16 0.04 0.08 -0.07 -0.07 0.02 -0.09 0.14 0.01 -0.16 0.09 0.29 0.16 -0.17 -0.22 -0.06 -0.14 -0.17 0.04 0.07 0.20 0.15 -0.17 -0.10 0.28 -0.15 0.10 -0.11 0.08 0.09 -0.16 -0.11 0.03 0.13 0.08 -0.13 0.00 0.19 -0.17 0.00 -0.01 0.04 -0.17 -0.17 0.20 0.11 -0.04 0.23 0.09 -0.05 -0.23 0.12 -0.09 0.41 -0.22 -0.23 -0.08 0.16 0.09 -0.02 -0.16 -0.21 -0.17 -0.17 -0.08 0.63 　z[i,j]は数値が大きいほど、「クラスタiは、デタラメにクラスタを作ったのに比べて、タイプjの人が多目に入っている」ということを意味しています。そこで、各クラスタiについて、z[i,j]が最大になるjをJ[i]としますと、J[i]は、ま、おおざっぱに言えばですが、「クラスタiで特徴的に多いタイプの人」を表しているでしょう。　（もちろんもっと手の込んだ手法はいくらもありますが、そうすると「クラスタnは日本人が多い」のような単純な答にはならず、複雑な（たとえば「韓国人と中国人の人数の差と日本人の人数の1.2倍との和が大きい」みたいな）特徴量が現れてきますから、ご質問の文脈には沿いません。）　で、J[i]をご質問にある表と比べてみると、面白い事に、「---」になっているところ以外は全て、J[i]と「特異性」とが一致しました。　というわけで、いやもちろん、これが適切な「特異性」の計算法だと主張できるほどの根拠はない。けれども、ごく穏当な素朴で統計的にも尤もそうな処理を加えただけであって、特別細工をしたわけでもないのに同じ結果が出てきたんですから、ご質問の表は「断然妥当でない」とまでは言えない、という程度にソコソコマトモだと思われます。

質問者

お礼 2012/03/28 09:37

回答者：stomachmanさん。質問者のレベルに配慮されたご回答ありがとうございます。とても分かりやすかったです。＞『ご質問の表は「断然妥当でない」とまでは言えない、という程度にソコソコマトモだと思われます。』私としては本件において、最大値のものを、単純に、代表になると決めていいのか？という点が疑問です。やはり統計的にも問題ではありませんかね。 stomachmanさんは、個人的には、このクラスターの代表の決め方を認められますか（笑）？調査の結果と言っても、もちろんそれはサンプルですので、AになることもあればBになることもありますので、どちらも代表になりえる蓋然性がある場合に、どちらかを代表にして、話を進めるのは、誤謬のある論証になり、棄却されると思うのですが。つまりは、あるサンプルの結果に大小があっても、そのサンプルにおける大小が、”デタラメ”のうちにあるかどうかを統計学的に吟味するものですよね。中国人（1）のクラスターでは、「日本人」0.11と「中国人」0.16ということから、そのクラスターは、「中国人」であり、「日本人」ではない、としてしまうのはどうなのでしょう。その時点で論理が崩壊していませんでしょうか。当該の書物はこのクラスター中国人（1）として文章を進めてしまっていますが、（この具体的数値を掲載している点はカナリマトモな筆者なのですが、）この中国人（1）のクラスターが日本人でもあり中国人でもありという判定に変わると、この著作の説得力が大分揺らいでくるような気もしています。今回、ご面倒な計算をしていただいた上にその具体的数値までご提示くださり、stomachmanさんのご親切さに深く感謝しております。

その他の回答 (11)

stomachman
ベストアンサー率57% (1014/1775)

2012/04/17 14:14 回答No.12

> 願わくは本を読まれた上で本を斬り捨てて頂きたかったです。そんなことは期待していない、と再三おっしゃってたように思いますがね？おそらく、ご質問を投じるカテゴリーが適切ではなかったのでしょう。　数学カテゴリーにふさわしいのは、たとえば（本でも分野でも著者でもなく）このデータ自体を（何の先入観もなしに）眺める時にはどう処理するか、という話だと思いますが、結局このお尋ねには至らないようです。しかしこの場は質問者のためばかりなく、「みんなの疑問」なのだそうですから、尋ねられていなくても書くべきことは書いておきましょう。　本来、クラスター分析は何の手がかりもない多次元データをただ類似性をたよりに分類する手法で、このため恣意性が入りやすいのですが、この話の場合にはミトコンドリアDNAのSNPというはっきりした意味があり、SNPの差異を使って分子進化をたどる方法は十分に確立されています。このため、標準的手法で作られたクラスターの分類およびデンドログラムは（サンプルが多く、作為的な加工をやらなければ）おおむね再現性良く得られるだろうと期待されます。（どの程度信用できるのかは、統計学で検討すべきポイントです。）　分類をひとまず信用することにして、さて、各地域におけるミトコンドリアDNAの多型の頻度を調べた以上、まずは各地域の類似性・特異性を観察するのが当然、いや必然です。　そこで地域の相互相関を出すと、最も相関が大きいのは静岡と韓国(0.57)、最も相関が小さいのは北海道と台湾(-0.40)。もう少し詳しく見るために、主成分分析で因子空間に変換すると、データによってこれらの地域を特徴づける因子は3個であると分かります。第1, 2因子の負荷を見ると、静岡と北海道が最も離れていて、他の地域はその間にある。北海道と台湾が他から離れている、とも見えます。また、台湾を除くと残りはほぼ直線上であり、すなわち韓国や沖縄は、静岡と北海道との間にある。ほぼ中間あたりに沖縄、また静岡のかなり近くに韓国があります。　従って「人口の中に、どの母系に属する人がどのぐらいいるか」という構成比で見た時に、韓国と静岡はかなり似ていること、また、北海道は韓国、静岡、台湾のどれともあまり似ていないことなどが分かります。　さらに、相関への個別のクラスターの寄与を分析すれば、もしかすると、「ある二つの地域の間で、ある特定のクラスターが差異の大半を作り出してる」というようなことが見つかるかも知れません。　以上は、クラスター相互の関係を考慮せずに地域の特徴を比較する、という観察です。次には、クラスターの間の距離、すなわちデンドログラムで分かった時間的隔たりと、上記の地域間の類似性・特異性との関係が何か見えないか考えることになるでしょう。　例えば、この因子空間にクラスターを散布してみると、2番目のクラスターが最も原点から遠く、以下15、5、4、1、18、3番目の順になっています。これらは地域の違いを特徴づける主要な2因子と強い関係があるクラスターです。クラスターの番号が1～5のものが現れていますが、デンドログラム上ではこれらはあまり遠くない（分岐した時代が古くない）のではないでしょうか。時代的に近く、しかも地域による違いが大きいとすると、「同じ母系が各地域に拡散した後で、これらの多型がそれぞれの地域ごとに独自に発生した？」というヒラメキが出てきます。　また、デンドログラムをある一定の年代以降で打ち切ると、いくつかのクラスター同士が合併されます。この状態で、母系の構成比によって地域間の類似性を（上記の因子分析を繰り返すことで）調べると、もしかしたら、ある時代Yでそれが大きく変わる、ということが見つかるかもしれません。すると「その頃に何かが起こったのでは？」というヒラメキが出て来るでしょう。　しかし、ヒラメキを仮説にまでブラッシュアップするには、反証の仕方を示さねばなりません。そうして、ようやく科学が始まるわけです。

質問者

お礼 2012/04/24 05:51

No.1以外の方法についてまた伺いたいと思います。有り難うございました。

質問者

補足 2012/04/18 17:48

再三申し上げているのにあなたがそういうことばかりしているので、読んでもいない人からゴミ箱に捨てろゴミ箱に捨てろと言われても有り難さがないので、本を読んだ上で、言うべきだという意味と、本を読んで頂ければ話がより正確になるのは当り前ですがそれを強制できません、しかしゴミ箱に捨てろとまでおっしゃるのですから、読んで下さいという代わりに、お願いする修辞法を用いたのです。著者の研究における考察はどうでもいいのです。日本人が混血だろうが純血だろうが。私の質問は、統計学的にどうなっているのかということですよ。カテゴリーにふさわしくないようにあなたがしむけているのですよ（笑）回答者さんは同意したり頭を下げたりするととたんに質問者にからむ性癖があるのでしょうか。右といえば左というか、安全に無意義な様子見をしてから、私の作った羹が冷えたところで、自分が作った膾として、私に差し出しているだけというか。私の味付けを私に返されても。＞『数学カテゴリーにふさわしいのは、たとえば（本でも分野でも著者でもなく）このデータ自体を（何の先入観もなしに）眺める時にはどう処理するか、という話だと思いますが、結局このお尋ねには至らないようです。』それはまさに私があなたに尋ねてきたことでしょ。それを尋ねたら、あなたはラベルに意味があるとかないとか、話の通じない拒絶反応を続けてこられたのですよ。どういう精神状態なんですかね？二重人格的な応酬になっていますよね。＞『尋ねられていなくても書くべきことは書いておきましょう。』だから、ずっと尋ねているんですけど……尋ねれば、またその質問ですか～終わり！というのの繰り返しでしたよ。私があなたのゴミ箱論に賛同すると、今度は主題に向かい合う、というのは意地悪病ですか。ちょっとアレですね。今度は、「ラベル」が「分類」に急変したのですか？私があなたのラベル説に妥協したら、あなたは固執してたラベル説を健忘して、否定していた私の分類説の方を使い始める。で、分類する方法は確立されているんですね？これまでは、やり方は見当もつかないような話しぶりでしたよ。その上、（No.10）＞『ラベルを付けるために、つまり無意味なものを作るためにわざわざ「科学的に一般性のある機械的手法」などでっち上げてる本があるなら、それこそトンデモ本コーナーに収蔵してやっても良いなあ。』とまでその問いを否定したのにですよ。確立されているんだったら機械的に処理できるでしょ。何も考えずにそのアルゴリズムに従えばいいのですから。同じラベルを集めるのは分類とは言いませんよ。分類済みの物の整理ですよ。集計ですよ。（No.12）＞『（どの程度信用できるのかは、統計学で検討すべきポイントです。）』そうですよ。それも私が主張していた要求ですよ（笑）（No.12）＞『　そこで地域の相互相関を出すと、最も相関が大きいのは静岡と韓国(0.57)、最も相関が小さいのは北海道と台湾(-0.40)。もう少し詳しく見るために、主成分分析で因子空間に変換すると、データによってこれらの地域を特徴づける因子は3個であると分かります。』これ以降のご解説もありがたいのですが、それこそ用語の定義（意味）が私には分かりませんし、おっしゃりたい内容が質問者にはまったく理解できません。どういう話ですか。それと指摘しておきますが、そのご解説もまた質問の本題ではなくて、また（笑）本の研究についての議論に戻っているのですからね。念を押しておきますが、私はどうやってクラスターの特異性（地域名の中の一つ）を選んで決めたのかを質問しているのです。No.1のご回答がその一つになります。（No.12）＞『さらに、相関への個別のクラスターの寄与を分析すれば、もしかすると、「ある二つの地域の間で、ある特定のクラスターが差異の大半を作り出してる」というようなことが見つかるかも知れません。』これも本題とは違うのですが、私が示唆していたことですよね。クラスター2が日本人になるか中国人になるかだけでもかなり変わってきますよ、と申し上げていました。（No.12）＞『以上は、クラスター相互の関係を考慮せずに地域の特徴を比較する、という観察です。次には、クラスターの間の距離、』研究の考察を続けられていますよね（涙）ちなみに、おっしゃられている事はクラスターのサンプル数の多い順になっていますが、それが「原点からの距離」とはどう事なのでしょうか。「因子空間にクラスターを散布」とか私にはまったく理解できませんので定義から宜しくお願いします。静岡のサンプルはすべて産婦というのは本に書いてありました。（No.12）＞『これらは地域の違いを特徴づける主要な2因子と強い関係があるクラスターです。クラスターの番号が1～5のものが現れていますが、デンドログラム上ではこれらはあまり遠くない（分岐した時代が古くない）のではないでしょうか。』これも私にまったく理解できないお話です。お尋ねの樹形図に関してはNo.4の補足でリンクをご紹介済みですが、再掲します。 http://www.dai3gen.net/mtdna.png http://www.dai3gen.net/mt09.htm そういうことですから、＞『すると「その頃に何かが起こったのでは？」というヒラメキが出て来るでしょう。』に至る「例えば」以降の説明が残念ながら全部分かりません。だから感想になりますが、それはあなたがしたらゴミ箱行きだと力説していた作業上の便宜をそのまま実際の内容に当てはめてしまう誤謬の例になってはいませんかね。樹形図の分岐はあくまでも塩基の変異に関するものですよね。個体の移動ではなくて。（No.12）＞『　しかし、ヒラメキを仮説にまでブラッシュアップするには、反証の仕方を示さねばなりません。そうして、ようやく科学が始まるわけです。』というか統計学による場合、キム仮説を立てますよね。本質的には、反証するのみですよね。で結局ですね、今回も私の質問に答えていないのですよ。私の要求を無視して、遺伝人類学の研究について論じているのですよ。質問者の私ではなく回答者さんが数学カテゴリーから離れようとしているのです。状況認識をさかさまにしないでください。回答者さんがNo.1で言及された他の方法を紹介して下さい。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/16 16:43 回答No.11

ANo.10へのコメントに付いてです。まず、ご質問の本旨の話。ーーーーーーーーーーー > だから…単なるラベルじゃないのですよ。すくなくとも地域名なのです。どこが無意味なのですか？それが結論の文章を裏付ける意味になっているのに。結論が日本語としての意味を成さないじゃないですか？処理上のラベルじゃないのですよ。 > 優勢を決められるかどうかが私の質問です。その趣旨が理解できないのならばNo.1までの回答で観念です。No.1のように、案はあったのです。質問は成立しているのです。  　第一に、ラベルに（本来伴っていないはずの）意味を付与するという方法は間違いであり、（誰であれ、すなわち「権威」だろうが、一読者だろうが）受け入れるべきではありません。　もしある研究が結論を導くに際して、単なる「処理上のラベル」であるべきものを意味があるものとして扱う、という不適切な方法にのみ依存しているのならば、当然、結論として述べられていることには根拠が伴っていない。仰る通り、結論が意味を成さないのです。それは科学としては、無価値なゴミです。　第二に、質問者さんは、ラベルに（本来伴っていないはずの）意味を付与するという不適切な方法を受け入れた上で、この本では個々のラベルに付与された意味がおかしい、と仰っているのではないでしょうか。話が噛み合っていないとお感じになる理由は、おそらく、この不適切な方法を受け入れることを前提になさっているからでしょう。　しかし、方法がそもそも誤りなのだから、ラベルをどう付け直そうがその方法が使えないのは同じです。すなわち、  (1) ある研究がラベルに意味を付与するという不適切な方法を使っているなら、それだけで誤りである。ラベルを付け直してみても誤りであることには違いない。 (2) ある研究に適切な方法が使われているなら、ラベルは意味を持たない。だからラベルを付け直してみても論旨に影響が及ぶことはない。だから、いずれにせよ、ラベルがどうあれ何も変わらないんです。　さて、「優勢」はラベルを付けるための指標であり、しかしそのラベルは（適切な方法で扱う限り）意味を持たないのですから、「優勢」という概念も（それが何であれ）ラベルを付け終えたら意味を失うその場限りのものです。　「案はあった」とおっしゃいますが、ラベル(それがどうあれ何も変わらない)を付けるための方法の「案」なのですから、そんなものならいくらでもあるでしょう。そして、（既に説明した通り）ANo.1は、この本の著者がどんな「案」を用いたかを推測する、というパズルへの解答に他なりません。ANo.1は、従って、かの本の内容の是非とは関係のない話です。ーーーーーーーーーーーーー次に、科学に関するその他のご質問についてです。 > 心情的ヒラメキが正解かどうかを検証しなければならないのですよ。どうやって検証するんですか？　科学において検討する対象は仮説です。心情的ヒラメキは仮説を作る切っ掛けになるだけのもので、だから通常、科学の論文に書かれることはありません。さて、科学で仮説が「正解かどうか」を検討する方法は、専ら反証を試みることです。（ただの反論じゃ駄目で、その仮説から厳密な論理で演繹される命題が現実の証拠と合わない、ということを示すのが反証です。）なので、反証が可能な命題であることが、科学の仮説に求められる最低条件です。  > 普通、科学は直感・霊感の対義語みたいな存在ですよね。恣意的なままで成立する科学はありませんよね。単なるヒラメキをヒラメキのまま利用し続けて出た結論は科学ではありませんよね。そこのチェックを譲らないのが科学なのですが。最低条件は、ヒラメキよりも一般性でしょ、科学は。　科学的仮説の最低条件は反証可能性であり、仮説が対象としている現象の再現性（いつ誰がどこでやっても同じになること）は仮説を実験的に反証するのに不可欠な性質です。多くの分野ではこれが最低条件になる、と言っても良いでしょう。ですから、「最低条件は、ヒラメキよりも一般性」と仰っているのがこのことを指しているのなら、仰る通りですね。 > 同じデータを用いた研究者ごとの結論が相反したら両方の事実が科学ですか？　「両方の事実」が何を指すのかは分かりませんが、それはさておき。　科学の方法を使う限り、完全な決着が付くということは原理的にありえない（常に反証可能性がある）のですから、どこまで行っても仮説です。反証に耐えられなかった仮説が落第し、落第しなかったものが残っている。（従って、科学の「結論」とは、現状ではどの仮説は反証されて落第したがどれはまだ反証されていない、ということを述べるものです。）さて、いくつかの仮説が対立するのは当然のことで、全く同じデータに基づいた相反する仮説が林立するのも、素粒子物理学などでよく見られる状況です。活発に研究されている分野はもちろんのこと、とっくに確立されたように思われている「法則」という名の付いた仮説でも、反証の試みが（断続的にでも）行われ続けています。   > ＞『ラベルに頼って議論しているならそれはただのゴミ。即座にヤキイモ用燃料です。そんなゴミと一緒にされたら科学が怒りまっせ。』   > 要するに科学の権威をゴミ質問と同じにするなという姑息な暗示表現でしょうか。権威を守るための反語表現だと判りました。　暗示だの反語表現だのではありませんし、「科学の権威」なんぞとは関係ありません。単に、「誰の研究であろうと、科学として適格な方法を取っていないなら、それは科学ではない」ということです。   >＞『ですから「決して個人の気まぐれの影響を受けない」科学などないでしょう。』   > それは間違っています。科学は影響されないのですよ。当り前ですよ。  > 科学を創造する原理の話（つまり科学未満の状況）と、科学者がその場その場のヒラメキでしかない結論を出した話、がゴタマゼになっていますよ。　（ヒラメキで作ったかどうかはともかく）そもそも検討すべき仮説は何か、ということが明らかでなければ話が始まりません。そして、その仮説を検討するための方法が（ヒラメキで考えたやり方であっても、そうでなくても）反証の試みになっているのかどうか、ということが科学として適格か否かの分かれ道です。　データを分析した結果からどんな仮説を構築するか、というのはもちろん「科学未満の状況」であり、専ら個人の発想に依存しています。ですが、仮説をどうやって作ったかは科学においては原則として問題になりません。なので、仮説を作る段階を指して「決して個人の気まぐれの影響を受けないという科学の真髄の欠如している研究モドキ」と指弾するのは不適切で、それが通るなら大抵の科学は落第になります。　一方、もしその仮説を（たとえば、ただのラベルに意味を付与するというような）デタラメな方法で検討したら、それは明らかに、科学モドキである。そう断じる理由は、決して「個人の影響があるから」ではなくて、「方法が誤っているから」です。  

質問者

お礼 2012/04/22 17:51

＞『そして、（既に説明した通り）ANo.1は、この本の著者がどんな「案」を用いたかを推測する、というパズルへの解答に他なりません。ANo.1は、従って、かの本の内容の是非とは関係のない話です。』私ではなくて回答者さんが、かの本の話に従っているのですよ。質問者は繰り返し、No.１のような回答が欲しいと言っています。かの本の話に関係しなくていいのです。回答者さんがNo.１でほのめかされた他の方法を教えて下さい。

質問者

補足 2012/04/17 07:43

＞『話が噛み合っていないとお感じになる理由は、おそらく、この不適切な方法を受け入れることを前提になさっているからでしょう。＞『　しかし、方法がそもそも誤りなのだから、ラベルをどう付け直そうがその方法が使えないのは同じです。』なるほど。そもそもそういう研究論法を支持していない私は私のこの議論を背理法に変えろという事ですね。身も蓋もなく中身もなく終了になります。願わくは本を読まれた上で本を斬り捨てて頂きたかったです。そうなるとですね、（彼は第一人者の一人なのですから）この分野のこうした議論は所詮この類の論法であろうと思いますので、分野ごとゴミ箱という対応が効率的でしょうね。ない方が日本国民の知性に貢献する分野。この話題は多くの日本人にとってキャッチーなんですよね。だから私も目を向ける展開になったのですし。回答者さんも私を介してその連鎖に接触する事になりましたし。一言で言えば、世間的に大きな語弊を作った研究発表です。おそらく世間の常識は、最新科学的に、日本人の特長として、近隣国と異なり、日本人【だけ】は混血！（説）である、という事になっていると思いますよ。 ★No.1のような議論は、とうに本書から独立している関心事なので、今後も求め行くつもりです。ありがとうございました。空いていたお礼欄にコメントを入れました。堅実な対応してくれる回答者さんとのやり取りを事前に連絡なく急に締め切る慣習は、回答者が急に投稿の機会、修正の権利を失います。締切りを寝耳に水にするのは、公平感のない質問者になると思っています。そろそろという事で。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/15 21:46 回答No.10

ANo.9へのコメントについてです。 > データを何に使うかというその第一段が、優勢のものを決めるのに使われた訳ですよね。　ただラベルを付けるのは、使ったうちには数えません。 > 念押しさせて頂きますが、この分野に限定しておりません。　アイデアをどうやって出すか、という話を聞きたいんですか？フロに浸かって思いつき、リンゴが落ちる音で思い至る。多量のデータを眺めている内にひらめき、詩の言葉からヒントを掴む。様々ですね。 > クラスター名を割り振る、優勢者の判定作業自体が、統計学ではなくて、仮説であった、ということになりますでしょうか　仮説になりえません。仮説と呼ばれる命題は、反証可能であることが最低の条件です。 > この研究や、似たような研究であれば、まるで、統計学的ではない、というのが正体になるように思います　いささか短絡的かと。本当に「似たような研究」か否かを見極められますか？羹に懲りて慎重に膾を吹くのは良いけれども、糞味噌ごっちゃにして廃棄というのはいけませんよ。もしこの本がゴミなら、こだわってないで他の本をお読みになれば良いのに。 > 回答者さんには実際の読書をしていただけたらなと思いつつ　この本この分野とは無関係な、とおっしゃいながら、この本のことしかお考えでないようです。しかし、ゴミらしいと仰る本をわざわざ読む訳ないでしょ（笑） > 三つの主要な仮説――混血説、転換説、置換説―― 　データを根拠にして、これらの仮説のどれが落第なのかを見極める、ということをやってるんでしょうね。 > 樹形図が出来た後におけるクラスター分析　樹形図を作るところまでがクラスター分析です。それでおしまい。どう使うかは、個々の分野、あるいは分析を行った人の目的によることであって、そこはクラスター分析の知ったことじゃありません。 > 系統樹のクラスターの分析からはという所以下の総括の話は、（これだけじゃさっぱり分かりませんが）、「（「三つの主要な仮説」のどれでもない）良く確立している仮説だけに基づいてデータを解釈すると、「三つの主要な仮説」のどれかが落第だと判断できる」という話であるなら結構なのです。　が、なんかちょっと違う気配がする。もしかすると、「ある仮説A（「三つの主要な仮説」のどれか）に基づく解釈によれば、別の仮説Bが破綻する」と言っているんではないか。もしそうだとすると、その議論自体が特定の仮説Aの上に乗っかってますから、論理が自己撞着しているかもしれませんね。　こういうことです：その本が、もしクラスターを作った所で話がおしまいになっているのであれば、クラスターを解釈する枠組みこそが仮説Aに含まれているのではないか。仮説Aに基づいて、仮説B, Cを攻撃しようとしているんじゃなかろうか。だとするならば「仮説Aが正しいとすると仮説Aが正しくて他は間違い」とトートロジーを言っているだけですから、これと同じことは仮説B, Cの側からも出来る訳で、子供の喧嘩です。仮にそういう本であるならば、これは科学書ではありませんね。 > 科学というより美術文芸になって、権威の勝手になりますよね。　失礼ながら、「権威の勝手」とは、権威を認めた上で反発する、という倒錯したスタンスからしか出てこない言葉かと思います。　もし、「誰かに勝手に「権威」と呼ばれてしまった人は、ただの心情ヒラメキ思いつきを語る自由を奪われねばならない」としたら、それはずいぶん理不尽な話だと思います。 > 決して個人の気まぐれの影響を受けないという科学の真髄の欠如している研究モドキ　うーん。僭越ながら、科学を絶対視なさっていながらその営みをご存じない、ということじゃないかと。　純粋にデータだけに基づいて科学が機械的に出来上がるのなら、無人の「科学工場」が作れるわけですが、いや、そうは行かない。まさしく個人的な、アイデアヒラメキ思いつきがなければ、何も始まりません。それを仮説として立て、洗練し、いろいろな記録や実験との矛盾をチェックして修正していく過程そのものが科学です。ですから「決して個人の気まぐれの影響を受けない」科学などないでしょう。 > できレース的研究じゃありませんかね　お説によれば、先に仮説があれば何でも「できレース」になってしまうんじゃありませんか？しかし、仮説を立てて検討するのが科学ですから、当然、仮説が先にあるんです。　さて、科学において、実験・調査や統計処理は、その仮説が成立たないことを証明（反証）するのに用います。上述の「仮説Aが正しいとすると仮説Aが正しい」とは対極のものです。そして、様々な攻撃に耐え続けた仮説だけが、科学として意味のあるものなのですよ。 > クラスター名選び（＝優勢選び）が科学的に一般性のある機械的手法で処理されたも >のでなければ。そういう代物を科学として受け入れるほど、自然科学が間口を広げて >、はしたくなる必要はないと思います。　まだラベルの話ですか～　ラベルに頼って議論しているならそれはただのゴミ。即座にヤキイモ用燃料です。そんなゴミと一緒にされたら科学が怒りまっせ。　実際、トンデモ本の多くはこの構造を持っています。「××であるから、これを『○○』と呼称しうる」…「○○であるから、△△だ」。ラベルだったはずの『○○』がいつのまにかカギ括弧から外へ出てきてしまうんですよね。　ラベルを付けるために、つまり無意味なものを作るためにわざわざ「科学的に一般性のある機械的手法」などでっち上げてる本があるなら、それこそトンデモ本コーナーに収蔵してやっても良いなあ。

質問者

お礼 2012/04/17 08:10

ラベルという用語は回答者さんが導入された単語だと思います。私は「その分類作業」の結果の全てだと思っています。そこが全ての（≒唯一の）分岐点でしょうね。その他が全て同意見だったとしても上流で分かれてしまったら軒並み齟齬が生じますからね。故人であり欠席している著者を勝手に押し立てて、三つ巴になってしまったのが面白いです。出来レースに関しては、回答者さんのいうそのラベル付けが、終了した時点で、「このレース」は終了していると言いたかったのです。実際の出来レースもそうですが、ゲームに参加するすべてのプレイヤーを出来レースの協力者にする必要は有りません。有力なパートを取り込めるように、ルール設定をすれば、それは出来レース化したのですよ。そのルール設定次第です。たとえるならば、スキーのジャンプで日本を不利にするルールの正当性ですね。ラベル付けのところの作業が全てなのです。そこが勘と同等の方法であれば結論も勘と同等です。科学は樹形図を作ったところまでです。そこでストップ、それ以降を科学に出来なければ、口にチャックですよ。樹形図の前後ろでは分裂しているのです。科学の境界線をまたいでいるのに結論しています。たとえば、説明が、サンプルをどこでなん人集めましたと統計らしくスタートしても、そのサンプル数などの統計学的体裁は、科学の境界線の向こうにある結論を支援できるものではありません。しかし流れに逆らわない読者は一緒に境界線を越えて、サンプル調査の内容などに、結論の統計学的説得性を感じてしまうと思います。サンプル数の多少ではなく、統計学的手続きを踏んではいるのだというポーズに。

質問者

補足 2012/04/16 08:08

＞『　もし、「誰かに勝手に「権威」と呼ばれてしまった人は、ただの心情ヒラメキ思いつきを語る自由を奪われねばならない」としたら、それはずいぶん理不尽な話だと思います。』そういう事なのでしょうね。つまり、権威を守る安全策で、質問者を否定しておけば、事足りるという。心情的ヒラメキが正解かどうかを検証しなければならないのですよ。どうやって検証するんですか？たぶん回答者さんは、科学の特性、つまり科学の価値を、普通とは別の点に感じているのかもしれません。私が科学を絶対視しているかのように見えた事も含めて。普通、科学は直感・霊感の対義語みたいな存在ですよね。恣意的なままで成立する科学はありませんよね。単なるヒラメキをヒラメキのまま利用し続けて出た結論は科学ではありませんよね。そこのチェックを譲らないのが科学なのですが。最低条件は、ヒラメキよりも一般性でしょ、科学は。同じデータを用いた研究者ごとの結論が相反したら両方の事実が科学ですか？検証された一般的な説が絶対的に正しい（＝絶対視）とか、そういう以前の話をしているのですよ。＞『仮説になりえません。仮説と呼ばれる命題は、反証可能であることが最低の条件です。』だからそれが権威を絶対視して迎合している証拠ですよ。反証可能でないって。＞『ラベルに頼って議論しているならそれはただのゴミ。即座にヤキイモ用燃料です。そんなゴミと一緒にされたら科学が怒りまっせ。』要するに科学の権威をゴミ質問と同じにするなという姑息な暗示表現でしょうか。権威を守るための反語表現だと判りました。＞『ラベルを付けるために、つまり無意味なものを作るためにわざわざ「科学的に一般性のある機械的手法」などでっち上げてる本があるなら、それこそトンデモ本コーナーに収蔵してやっても良いなあ。』だから…単なるラベルじゃないのですよ。すくなくとも地域名なのです。どこが無意味なのですか？それが結論の文章を裏付ける意味になっているのに。結論が日本語としての意味を成さないじゃないですか？処理上のラベルじゃないのですよ。事実は、stomachmanさんのゴ回答が反証不可能なのです。本書にこだわっているのは私ではありません。クラスター（２）の中で中国人が優勢であると出来る理由が単純に数の大小ですと説明した方がその後、本書にこだわってお茶を濁しているのです。仮説の話もそうですが、話が噛み合っていません。＞『ですから「決して個人の気まぐれの影響を受けない」科学などないでしょう。』それは間違っています。科学は影響されないのですよ。当り前ですよ。科学を創造する原理の話（つまり科学未満の状況）と、科学者がその場その場のヒラメキでしかない結論を出した話、がゴタマゼになっていますよ。優勢を決められるかどうかが私の質問です。その趣旨が理解できないのならばNo.1までの回答で観念です。No.1のように、案はあったのです。質問は成立しているのです。それ以上の案がなくても質問行為の否定に路線変更する必要はありません。 No.10で風呂につかられるまでもなく…… （No.1）＞『（もちろんもっと手の込んだ手法はいくらもありますが、そうすると「クラスタnは日本人が多い」のような単純な答にはならず、複雑な（たとえば「韓国人と中国人の人数の差と日本人の人数の1.2倍との和が大きい」みたいな）特徴量が現れてきますから、ご質問の文脈には沿いません。）』遠慮なくどうぞ。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/14 00:24 回答No.9

ANo.8へのコメントについてです。 > 「優勢」は漠然としていますが、それが言わんとするところの判定は統計学的にどのように成されるのかということです。　「優勢」がどんな定義・判定法をもっていようとも、それがラベルである限りは、判定を行う手間を掛ける必要がありません。なぜなら、既に述べた通り、ラベルの付け方にいくら凝ってみても全くのナンセンスだからです。（ラベルの話はこれで終わり。）　要するに意味があるのは、クラスターのデータ（ラベルではなくその実体）を何にどう使うか、ただそれだけです。　さて、「データに基づいて『言わんとするところ』」というものが、たとえば「純血・混血」論議だったとすると、ミトコンドリアDNAを調べた段階で既に木に縁って魚を求むという状況であり、他にもっと重要なデータがあるというのでもない限り、そんなもん落第だろう。これも既に申し上げました。　ともかく、得られているデータについて何か話を続けようとするのなら、もっと別の、適切な「言わんとするところ」、すなわち検討すべき仮説を考案する必要があります。仮説を検討するための方法は何も統計学だけじゃありませんが、少なくとも、その仮説が数学の意味での命題に洗練されるまでは、統計学にも数学にも出番がありません。　じゃあどうやって仮説を考案するか。（これは、大した話にはなりませんけれども。）手元にあるデータだけでなく、関連する資料・文献が利用できるのであれば、そちらから仮説を考案しようとするのが普通のアプローチでしょう。さもないと、統計学的に有意だと言えたとしても、それで話がオシマイになるような、ツマラン仮説しか出てこないでしょうから。（もちろん、ご質問の分野でその作業がどのようになされるかについては、語るべきことを持っておりません。ですから、オマエが面白い仮説を考案しろとお求めなら、そりゃ無理です。）　一方、特に他の知識によらずにデータばかりをたよりにして仮説を考案するための手法としては、たとえば、クラスターであればクラスター間の距離が定義されていますから、この距離をユークリッド距離でできるだけ再現するようにクラスターを2次元あるいは3次元空間に配置して、グラフィック表示してみる、ということはよく行われます。デンドログラムを見ているよりも、相互の関係が直感的に把握しやすくなり、何かアイデアが出る切っ掛けになるんじゃないか、という手法ですね。　 > 質問者の曖昧さを拒絶し続けられても困るのです。　いやいや、「質問者の曖昧さを拒絶し続け」ているわけじゃありません。それどころか、ご質問の意図や本のロジックを推察しようと、いささか度を越すぐらい努めた積もりですよ？ただ、繰り返し同じ質問をなさる。すると当然、答も同じであるしかない。それだけのことなんですから、変に勘ぐらないで下さいよ～

質問者

お礼 2012/04/16 20:45

科学リテラシーですね。あくまでも、仮説です、という。この本では仮説という言葉ではなくて「系統図をよーく見ると」なんですよ。ナンセンスと言われても、よーく見ているその時点で、筆者が筆者のセンスを働かせているのですから、センスはあるんじゃないでしょうか。ご指摘のように、方法論の問題ですね。しかし単純に規模も小さいですしね。それでいてせっかちな感じで、つまみ食い的に地理を広げるのは生物がらみのフィールド調査の悪習慣だと思いますね。斉一性というのですか、何もかもそれで了解させてしまうような、聞き手の聞き分けの良さ頼みというか、内輪ネタ的というか。権威だろうが独裁者だろうがいかなる類の人のご高説を享受したとしても、他人の自己満足に便乗する願望は私にはありませんからね。山っ気しか感じられません。私が問題にしているのは、反証可能性というよりも仮説を発表者自身が検証された可能性ですかね。この仮説はいけると思えたのでしょうからね。自分の勘を信じているというだけでは……次回の調査は保障されるんでしょうか。そのたびに事実がひっくりかえったりしたらどう責任取るんでしょう。もう故人ではありますがね。私には本件はいわば出来レースに見えますね。統計学が用いられていないのであれば、そのまんまにすぎませんよね？その人らがそうでしたという。

質問者

補足 2012/04/15 15:45

stomachmanさんには大変お世話になっております。サイトであなたのような方に出会えるのは本当になんと表現すればいいのでしょうか、感動的な体験です。ただ私としては感謝するのが唯一の目的ではありませんので、感謝一辺倒の投稿が出来ません。非常に感謝感心しているのは事実なのでご理解下さい。重ねてご回答、ありがとうございます。＞『要するに意味があるのは、クラスターのデータ（ラベルではなくその実体）を何にどう使うか、ただそれだけです。』単なる無意味の「ラベルである限りは、」そうなのですが、意味を持っている単語であり、その意味によって結論・考察を形成しているのです。データを何に使うかというその第一段が、優勢のものを決めるのに使われた訳ですよね。むしろ天然の生データはその時点で色づけ・加工されて、次の段階のための人工的な材料になっています。＞『さもないと、統計学的に有意だと言えたとしても、それで話がオシマイになるような、ツマラン仮説しか出てこないでしょうから。（もちろん、ご質問の分野でその作業がどのようになされるかについては、語るべきことを持っておりません。ですから、オマエが面白い仮説を考案しろとお求めなら、そりゃ無理です。）』そこが私の質問の本願です。ただし「この分野」での作業をお聞きしているのではありません。また、考案していただいても有り難いのですが、分野を問わずご存知ありませんか、なんとなくでもいいし、想像で概説してもらえれば助かります。念押しさせて頂きますが、この分野に限定しておりません。仮説の設定には関心がなかったのですが、結局のところ、（私は）意味を有している（と思う）クラスター名を割り振る、優勢者の判定作業自体が、統計学ではなくて、仮説であった、ということになりますでしょうか。つまり、この研究や、似たような研究であれば、まるで、統計学的ではない、というのが正体になるように思います。単にサンプルを集めて数を数えただけ。しいて言えば、統計学の欠如した生物学・人類学の学説。回答者さんには実際の読書をしていただけたらなと思いつつ、本書から引用します。（本書p105）＞『先に述べたように、日本人の機嫌については三つの主要な仮説――混血説、転換説、置換説――が提唱されている。ミトコンドリアDNAの塩基配列の多様性のパターンから、これらの仮説を検証してみよう。』 (本書p106)（中略）＞『さらに、系統樹のクラスターの分析からは、中国人や韓国人の特異性を示すクラスターには、本土日本人の50％が含まれるが、アイヌや琉球人では平均すると19％しか入らないことが示された。これらの結果は、本土日本人のミトコンドリアDNAには大陸に由来する割合がかなり大きいことを示している。　これは弥生時代以降の渡来人によってもたらされたと考えるのが自然であろう。（以下割愛）』この「クラスター分析」というのがどこからどこまでを指しているのか分りませんが、クラスター名を名づけた時点で（その後は単に割合を算数しただけですので、）結論は決まっています。 ★樹形図が出来た後におけるクラスター分析というのは、絵画鑑賞と同じ次元の作業なのですか？そうなると、科学というより美術文芸になって、権威の勝手になりますよね。決して個人の気まぐれの影響を受けないという科学の真髄の欠如している研究モドキが説得力も魅力もある最新科学として社会的評価を獲得するのは破廉恥な事件です。適当な詭弁用語を思い出せませんが（論点先取？）、これは、できレース的研究じゃありませんかね。私にとってはそう見えます。統計学でも生物学でもいいのですが、クラスター名選び（＝優勢選び）が科学的に一般性のある機械的手法で処理されたものでなければ。そういう代物を科学として受け入れるほど、自然科学が間口を広げて、はしたくなる必要はないと思います。（No.9）＞『すると当然、答も同じであるしかない。それだけのことなんですから、』恐縮しております。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/11 19:47 回答No.8

ANo.7へのコメントに付いてです。 > ですからこの文脈を離れて数学や論理の世界に優勢の判定法が実在するのかという質問です。　漠然とした「優勢」という概念は、数学にも科学にも統計学にもありません。ですから、ある文脈における「優勢」なる概念を客観的に定義しない限り、その「判定法」なる言葉も意味をなしません。そして、「ある文脈における「優勢」なる概念を客観的に定義する」とは、「その文脈において、誰が判定しても同じ結果が得られるような判定法を定めること」に他なりません。従って、そのような定義が与えられたならば、当然その瞬間から「（その文脈における）優勢の判定法が実在」することになるわけです。（「特異性」でも「代表」でも同じ事です。）　ただし、（お分かりでしょうが）ここで言う「優勢」は日常言語で言う「優勢」とは無関係であり、あくまでもその定義を短縮して呼ぶための名称（ラベル）に過ぎません。あくまでも実体は定義の方であり、名称からの連想に惑わされてはならない。その区別をきちんと付けさえすれば何の問題もありませんので、用語を正しく理解できる（つまりいつでも定義を思い出せる）人のための文章なら、その用語を使って全く差し支えない。（しかし、区別ができなさそうな人たちが読むであろう文章にそういう用語を使う時には、混同が生じないよう配慮すべきだ、というのは当然です。）　日常用語と同じ単語でありながらはっきり意味が異なる専門用語など、枚挙のいとまもないほどあります。数学なら「空間」「距離」「安定」「万能」「可能」「必然」「合同」「部分」「分布」「平衡」「分散」「台」「群」「環」「層」…。それらの定義を知りもしないで日常用語の意味を援用しちゃうというデタラメは、悲しい事につい最近までフランスあたりの思想界で盛んに行われていました。爆笑ものの珍論文が山ほど書かれていて、またそれを読み解こうとまじめに注釈学の研究をする可哀想な人たちも一杯いた。ソーカル事件で水をぶっかけられるまで、誰にも止められなかったようです。

質問者

お礼 2012/04/16 20:00

専門用語にすらなっていないただの日常語を科学の文脈で借用している量も相当あると思います。解釈側の援用ではなくて、執筆側の援用。またそもそも言葉としては日常語の方が先という背景もありますしね。列挙された用語はなかなか興味深いです。用語の真偽はともかく読者に骨を折らせる書物は悪書ですよ。読者である私が、本文丸写しの引用をした際に、筆者の言葉の定義づけから始めなければ、第三者に伝わらないようでは。ご回答有り難うございました。

質問者

補足 2012/04/12 19:03

ご回答ありがとうございます。おっしゃる事は分かりますし、お話も面白くて有り難いのですが。言葉尻になってしまうのでは困ります。「優勢」は漠然としていますが、それが言わんとするところの判定は統計学的にどのように成されるのかということです。どの例をどう料理するかは、回答者さんに決めてもらっていいのですよ。回答者さんが特定していいのです。質問者の曖昧さを拒絶し続けられても困るのです。統計学的手法として何一つ特定される候補がなければ、本書の場合は、辛く評すれば、統計的手法は取られていない、勘で結論を誘導した本という事でしょうね。どういう手法で処理すべきでしたか。それは無いということですね。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/10 16:54 回答No.7

ANo.6へのコメントについてです。 > どうでもいいというのならば同じになるのでは？　その通りです。ラベルをどう付けようが、統計から正しく導ける結論は全て同じになります。これは解釈云々とは全く関係ありません。逆に言えば、もしラベルを付け替えただけで結論が変わるのなら、その結論は誤りであって、その結論を導く過程のどこかに誤りが入っている、ということが分かります。（で、ご質問および補足に書かれたことによれば、おそらく問題の本においては、（著者か読者かそれら両方が）ラベルに「目印以外の意味を含ませて」読むのがその誤りの原因だろう、ということなのでしょうね。） > 単なる名前ではなくて、分類作業なのですよ。　ただクラスターにラベルを付ける、ということを「分類作業」だと解釈するのは、（その解釈をするのが読者であれ、著者であれ）誤りです。 > 私の質問は、中国人（１）の分類は中国人が多かった事が分類理由なのだが、そのクラスターは統計学的に中国人が優勢であると言えるのかということです。日本人も優勢なんじゃないのということですね。　このご質問に対する答は、新たに導入された(統計学とは無関係な)用語「優勢」の判定方法に依ります。例えば、議会においてA党とB党のどちらが優勢か、と尋ねた時には一人でも人数が多いのが優勢である。しかし、スポーツの試合でどちらの選手が優勢かと尋ねたら、それぞれの種目で優勢を判断するための着眼点が異なるでしょう。なので「Xが優勢だ」と言っただけでは命題にならない。真偽を判定する仕方が定まっていないからです。ですから、「クラスターの中である地域の住人が優勢かどうか」という文脈における具体的な「優勢」の客観的判定法が定義されない限り、ご質問は数学や論理とは何の関係もありません。

質問者

お礼 2012/04/15 15:53

丁寧なご指導、ありがとうございます。クラスター名の中国人（１）が日本人（１）に変わったら、結果は同じになりませんよね？優勢という言葉の引用が遅れまして申し訳ありません。本書の言葉です。この研究は、優勢である者を決めて、その優勢な者の名を以って特異性にしているのだと思います。

質問者

補足 2012/04/11 11:24

ご回答ありがとうございます。回答者：stomachmanさんのおっしゃる事（伝えようとしてくださっている事）は分かるのです。まず、この本を例としてあげたのであり、この本についての解説を求めているのではありません。つまりこの本から離れて解説していただいていいのです。例えば、定義がなければ始まらないので終了、というのはこれが質問ではなくて議論であればその通りなのですが、私はその定義も回答者にお任せてして教えてくださいという事をお願いしているのです。ですから元より、定義うんぬんのご指摘は、同意できるものであり、回答者さんが回答者さんの定義に基づいた統計学に反しない手法をご紹介して下さいという質問文なのです。それがないのならばこの本はインチキです。統計学的に処理されていると思うからです。統計学的に処理されていなければ学術的にも意味がありません。優勢と判定されたものをクラスター名にしているのですから、テーマがなんであれ、優勢なものを科学的に選べるのか？という実例を示していただきたいのです。それが質問解決の十分条件です。優勢を科学的に選んでいなければ、勘であり、科学としての価値はありません。科学者でもあっても言っている事が科学でなければ話題にすらならなかったでしょう。 ★ラベルを変えたら、この本の主張は、同じにならないのではありませんか？中国人・韓国人の方が混血的という結論ではありませんよ。日本人の方が混血的だという内容だから話題になったのですよ。NHKや岩波は何がよくてこの本を一般書として出版したのでしょうか。＞『　ただクラスターにラベルを付ける、ということを「分類作業」だと解釈するのは、（その解釈をするのが読者であれ、著者であれ）誤りです。』よくある数字・英字を番号にしたラベルならいいですが、誰の目にも名詞なのです、名詞をつけているのです。日本や中国と名づけた時点で日本か中国かの分類ですよ。分類として正しいかどうかではなく、判定しながら個別に名前を振り分けたのですから分類作業なのです。分類した後に比較して分類名に基づく考察を述べている本ですよ？分類もしていないということでは何もかも全てナンセンスになりませんか。分類作業でないラベルをつけただけならばなぜ品番みたいな無意味なラベルにしないのですか？意味を持たせてはいけないものに、わざわざ意味のある名詞を与えるのは矛盾ですよ。なぜ？おかしな事件ですよ。＞『新たに導入された(統計学とは無関係な)用語「優勢」の判定方法に依ります。』統計学と無縁なのですか？そうなるとこの本のみならずこの研究自体がゴミ箱行きなのでは？公金を注ぎ込んでも、勘ですからね。社会悪ですね。＞『ですから、「クラスターの中である地域の住人が優勢かどうか」という文脈における具体的な「優勢」の客観的判定法が定義されない限り、ご質問は数学や論理とは何の関係もありません。』ですからこの文脈を離れて数学や論理の世界に優勢の判定法が実在するのかという質問です。

stomachman
ベストアンサー率57% (1014/1775)

2012/04/03 18:39 回答No.6

ANo.5のコメントに付いてです。 > 数理的な議論を始める際の、定義は自由ですから、数学的に差し支えないのは分かります。しかし数学的に差し支えないのであり、生物学や国語の面から見ると問題があるのではと思います。ご指摘にもありましたように、クラスターの名前がXやYではなく、単語自体の意味を持っているからです。　何度でも言いますが、名前（ラベル）には「他と区別するための目印」というだけの意味しかありません。「ラベルとして用いられている文字列を日本語として読むと意味を持つ」ということは、無視して扱います。ですから、どんなラベルを付けようが関係ありません。　問題は、本来無意味であるラベルを、全く別の意味にすり替えてしまう、ということをやった場合で、それは誤りかサギである。これはラベル自体の問題ではなく、その使い方の誤りです。だから、  > またそれ以上に、定義が自由だとしても、その後の論理に矛盾があってはいけないのですから、「それ以上」どころではなく、この論点ではただそれだけが問題なのです。  > クラスター名を地域名・国名にした事が原因であり、差し支えたのではないでしょうか（笑）　不注意な読者を混乱させる原因になっている、という意味では差し支えたのかも知れませんね。 > ★私の第一の質問は、代表の選び方です。　何度尋ねられても答は同じです。そもそも、ラベルの付け方なんて他のクラスターと区別がつきさえすれば全くどうでも良い事であり、A,B,C…, (1),(2),(3)…とでもやっとけば十分なのですから、従って統計学的手法なんざあるわけがありません。　だから、問題は生のデータそのものの取り方、デンドログラムの作り方、および、それらの解釈です。　まだ説明していないのは、データそのものの取り方に関する問題でした。サンプルの選び方に著しいバイアスが入っていないかどうかという問題です。（本はともかく）論文に、どんなバイアス要因を考慮して、それをどうやって避けたのかがきちんと書けていないようなら、そのデータは大きく偏っている恐れが多分にあるものと見なさなくてはなりません。　例えば、酒場の女性従業員ばかりからサンプルを募集したら、無作為抽出とは到底言えないでしょう。あるいは新興住宅地の町内会を通して募集したら、その地域を代表しているサンプルとは言えないでしょう。住民基本台帳からランダムに人を選ぶ、ということは外国ではできない。遺伝子型を検査させて下さいとお願いしたとき、誰でも同じように協力・拒絶するかどうかは、文化に左右されるでしょう。これらの問題をどうやって回避したのかです。　無作為になるよう慎重に配慮してもなお入ってくる偏りは、サンプル数をうんと多くすることで影響を薄める。地域あたり数十人というのは、ここで言う「うんと多くする」の最低限ぐらいだろうと思います。しかし、それ以前に「無作為になるよう慎重に配慮」しているのかどうかが重要なポイントです。 > 権威を信じているNHK・岩波・日本文化人は科学力低下でしょうか。権威自身の節度も。　その本が本当に「混血・純血」を論じているのだとすれば、という前提で話をしますと、「混血・純血」という用語をきちんと定義しないうちは、ただ「データを取ったらこういう数字が出ました」で話は終わりで、「混血・純血」を論じ始めることもできない。そんな当たり前のことすら分かっていないでどうこう言う人たちは誰であれ、科学力どころかそもそも基本的な思考力に疑問がある、と批判されたってしょうがないんじゃないかと思います。　ところで、ひとつ極端な例として、仮想のある村を考えます。村の人は全員、1000年前のある一人の女性の子孫で、他の女性は一切入って来られません。この村の女性は、昔から、成人すると世界中を旅し、子供を産んで村に連れて帰ってくる習わしになっています。このため、村人にはいろんな顔立ち、目・髪・皮膚の色があって、世界の縮図のようである。たとえば、ある家系は代々北欧にばかり行くので、家族はみんな透き通るような色白である。別の家系はモンゴルが好きで、家族全員朝青龍みたいである。さらに別の家系では、どこに行くという決まりがないので、いろいろ混ざっちゃっている。でも、村人のミトコンドリアを調べてみると、（母系の祖先は唯一なのだから）全員ぴったり同じ。さて、この村を「純血」と言うのか「混血」と言うのか。　つまり、もし「混血・純血」を普通に使われてる意味（たとえば家畜の交配で言うような）で使うのだとするなら、核DNAにある父系のSNPを考慮しないで、母系だけに従うミトコンドリアを見て「混血・純血」を論じるのはずいぶん不思議なアプローチであり、少なくとも、ひどく迂遠なやりかただと思います。　さて、本を書いた人がそこまで物が分かっていないとは、ちょっと考えにくい。（なぜなら、そんなレベルでも研究費を獲得できるだけの実績が上げられたのなら、そりゃ一体どんなラッキーが続いたのか。）逆に、物が分かっていてなお、ミトコンドリアの調査だけを元に「混血・純血」の議論をもし実際に本に書いたとすれば、それは科学書ではなくて信仰あるいは煽動のための疑似科学書であろうかと思います。（「純血」という語が出て来るページを示して戴けますか？）

質問者

お礼 2012/04/12 19:16

＞『不注意な読者を混乱させる原因になっている、という意味では差し支えたのかも知れませんね。』これは少々難がありますよ。不注意な読者にも誤解・曲解させないように説明したかどうかが著者への要請なのですから。注意深い読者の方はどうやっても混乱しないという対比であればなおのこと、配慮すべき対象者は不注意な読者のみです。今頃はミトコンドリアDNAやSNPは一般教養なんですかね。stomachmanさんが物知りなだけでしょうか。必然的に、読者や聴衆には、制作者・発表者側よりもその件について不注意な人や知識に乏しい人がいますよね。

質問者

補足 2012/04/05 11:37

ご解説ありがとうございます。もう一度本を読み直してみました。前の補足で本文にはないと書いてしまいましたが、クラスター名の中国人（１）の（１）のような数字の付加は本文にもありました。その数字の異なるクラスターを地域名でまとめていることには変わりませんが。クラスターの分け方については新しいクラスターが登場するたびに、「注意深く樹形図を見ると」というような言葉を挟んでいます。つまりは注意深く見るというのが分け方の基準なのではないでしょうか（笑）＞『何度でも言いますが、名前（ラベル）には「他と区別するための目印」というだけの意味しかありません。「ラベルとして用いられている文字列を日本語として読むと意味を持つ」ということは、無視して扱います。ですから、どんなラベルを付けようが関係ありません。』目印の意味しかなければ「ですから」になりますが、stomachmanさんの解釈であり、著者も読者も、目印以外の意味を含ませていると思いますが。 ★どうでもいいのならば、中国人（1）「11,4,1,5,13」のクラスター名を、日本人（１）にしても同じ結論になりますか？どうでもいいというのならば同じになるのでは？単なる名前ではなくて、分類作業なのですよ。私の質問は、中国人（１）の分類は中国人が多かった事が分類理由なのだが、そのクラスターは統計学的に中国人が優勢であると言えるのかということです。日本人も優勢なんじゃないのということですね。混血/純血に関しては、文脈の中で異なるとされるものが交じり合う事だと思います。ですから、ご例示の外人男にはらまされた村は混血の村です。混血という言葉自体は個別に定義する必要なのない日本語です。しかし話題にされている混血とは「混血説」の混血のようです。縄文人と弥生人の混在というこで、弥生人を大陸系の人たちとしている仮定です。人の移動を意味しているのでしょう。ご例示の村では女が戻ってくるのですから移動していません。つまり混血説でいうところの混血になりません。この話題をする者は、日本民族は混血というのではなく、日本民族は混血説だと常に言うべきですね。混血説の意味ではなくっていますね。混血という言葉が誤解されるだろう言葉の持ち回しを著作者がしていると思います。そもそも混血説というネーミングがその分野の程度を示しているのかもしれません。この議論をするのが目的ではありませんので割愛しますが、少しだけ触れると、混じりけのない韓国人が日本に渡ってきて雑種である日本人になったという印象を与えていますね。韓国人を基本単位にしていることがおかしいと思います。韓国人の方には縄文人にあたる人が欠落しているという解釈にはなっていません。社会的にも材料的にも生物研究的にも、現実的な物事の価値は純度の高い物の方が高いでしょう。日本人の純度は低いという印象操作に利用されています。非常に悪影響の大きい不用意な言説だと再確認しております。人類学は、DNAを使おうが、無法地帯ですね。結果的に扇動的ですね。岩波やNHKの出したこの本を批判的に注意深く読む人はまずいませんよ。扇動の手法は誤解を利用するものが多いと思います。 stomachmanさんは遺伝学や進化論のような話にも関心が強いのですか。

stomachman
ベストアンサー率57% (1014/1775)

2012/03/31 22:02 回答No.5

ANo.4のコメントについてです。 > 本件でいうと、母集団などは具体的に何を指していますか。　「古くから人が居る地域Xから、測定を行った地域へとある時代に移住があった」という前提のもとで、そのような地域Xの候補のそれぞれにおける「移住があった時代の人たち」が母集団、ということになるでしょう。（そういう話だろうと思っていたのですが、違うんですかね。） > 本件では、そのようになっているのでしょうか。本件で具体的にどの部分が同じ数量で構成されているか分かりません。　ある年代以降に分岐した多型はひとつにまとめる、というやりかたでクラスターを作ったとすると、サンプル中で、あるクラスターの構成員がせいぜいひとりしか見つからない（したがって、実際には存在するけれども、人口が少ないためにだれもサンプルに入らなかった（検出されなかった）ようなクラスターも、他に沢山あるだろう）という状況の方がずっとありそうに思われます。なのに、人数の少ないクラスターでも数人はいます。成員がひとり、ふたりというのはありません。なので、ほぼ同数であると言いました。さらに、「成員がひとりのクラスターは、複数の地域の相関を見るのにはまるで役に立たない」ということを考えると、いささか疑いが起こって来た訳です。 > 再掲します。　階層的クラスター分析の結果ですね。デンドログラムにする時には、大抵、分岐点の位置が距離（この場合には分岐した年代）を表しているようにするものですから、多分これもそうなっているんでしょう。とすると、クラスター中の最も古い分岐点の古さは、おおむね、クラスターの直径を表していることになります（古いほど直径が大きい）。ご質問にある表と違って、これなら、どんなクラスターをどうまとめたかがある程度分かると思います。　人口を多型ごとにグループに分けると、各グループごとに共通の母系祖先がいる。そのグループは、ごく近年になって生じたSNPのために他のグループから別れたものもあるだろう。だから、ある年代を決めて、それより後に別れたものはひとつにまとめる。そうやってできるのがクラスターでしょう。だから、クラスター中の最も古い分岐点の年代が揃うはずです。最も古い分岐点の時代が他に比べて特に古いもの、特に新しいものがないかチェックすれば、クラスターを無理矢理まとめたり分けたりするような操作がなされていないかどうか検討できるでしょう。また、仰るように「ただのラベルを結論とすり替える」というトリックが使われているのなら、トリックに都合の良いクラスターを作る、という操作が行われていたかもしれない。その痕跡が見つかるかも知れません。 > 地域名付きのクラスターを用いる事で、今回のような日本人の内訳に外国人の要素を増やしている展開は、やってはいけないことではないのでしょうか。　「地域名付きのクラスター」は差し支えないし、「日本人の内訳に外国人の要素を増やしている展開は」数学とも遺伝学とも関係ない。しかし、「クラスターの名称に過ぎないラベル」を「移民の出身地」のような全く別の意味にすり替えて議論していたら、それは誤りであり、わざとやってりゃサギです。そんなことを許すのなら、この同じデータを使って、「ほとんどの系統は静岡から発した。だってほら、中国にも韓国にも行ってるじゃないか」という主張だってできるのですから。　他の証拠と整合的に突き合わせて考える、ということが必要なのは言うまでもないことですし、統計的扱いが適切であることも重要です。しかし、結論を先取りした議論の進め方は、（この本に賛同するか反対するかに関係なく）注意して避けねばならないということの方がもっと重要でしょう。困った事に、特に社会学や心理学じゃ、そういうヒドイ議論が結構多いんですけどね。 > 地域Bを混血と呼ぶのはまるで地域Aが元来純血であるかのような思い込み　何はともあれ、混血・純血という用語をきちんと定義した上での議論なのかどうか。全てはそこが出発点かと思います。

質問者

お礼 2012/04/09 08:20

母集団とかの統計的議論になっているのでしょうかね。あったとしてもクラスター名の付け方が非統計的ならそこで統計学的整合性が終わるとも思うのですが。つまり非統計学的な研究結果報告。統計学的に各クラスターの中でどの民族が優勢かをどう判定するかについて知りたいです。ありがとうございました。

質問者

補足 2012/04/03 08:42

勉強になっております。ありがとうございます。＞『地域名付きのクラスター」は差し支えないし、』やはりそこなのです。数理的な議論を始める際の、定義は自由ですから、数学的に差し支えないのは分かります。しかし数学的に差し支えないのであり、生物学や国語の面から見ると問題があるのではと思います。ご指摘にもありましたように、クラスターの名前がXやYではなく、単語自体の意味を持っているからです。この本は当然その意味で我々の世界に存在しています。またそれ以上に、定義が自由だとしても、その後の論理に矛盾があってはいけないのですから、クラスター名を地域名・国名にした事が原因であり、差し支えたのではないでしょうか（笑） ★私の第一の質問は、代表の選び方です。統計学にその手法がありますか？ないのですかね？中国人（１）のクラスター名は自由です。しかしそう言っても自由気ままなのではなくて、中国人が多いから中国人と名づけられたのですよね。理屈によって、法則的に・機械的に付けられているとすれば、その機械的作業ないし結果が統計的にも妥当かどうかがを吟味しなければならないのではありませんかね。一人でも多かったら中国人とするのが統計的に正しいでしょうか。非科学的な自己主張になっていませんかね。サンプルの規模がどうであれ、ある一つの都合のいい分類例を見出しただけなのにという（調査の）発表内容ではいけませんよね。もう一回調査してそうなりますかね（笑）誰もしてない。権威を信じているNHK・岩波・日本文化人は科学力低下でしょうか。権威自身の節度も。

stomachman
ベストアンサー率57% (1014/1775)

2012/03/31 05:33 回答No.4

ANo.4のコメントについてです。 > つっかえずに、日本人は混血なんだという結論まで読み進められますでしょうか。 > 結論で混血という表現や示唆をするのは、まさに「どの時期」（何人同士）という点において詭弁がありますね。　ミトコンドリアで母系だけを見ていれば、分岐した系統が後に合流するということはないから、ミトコンドリアの多型はそれぞれすべて純系です。なので、同じ狭い地域に長期間複数の母系がいれば（特別な文化的タブーでもない限り）まず間違いなく相異なる母系の子孫同士の結婚が生じるでしょう。わざわざ細かく論じるまでもないかと思います。　そもそも、「日本人は混血か否か」って一体どういう意味なのか、どう定義すれば納得が行き、客観的に真偽が問えるような命題になるのかがさっぱり分かりませんが、ま、その本がもし「日本人が混血」という結論を出しているのであれば、当然定義も書いてあるんでしょう。しかし、ホモサピエンスとネアンデルタールとの混血があったんじゃ？という説が出てますよね、というようなタイム・スケールの話ではどうやらないらしいんで、興味は引かれません。 > 中国人（１）の（１）という番号は、この場の便宜のために、私が付け加えた番号であり、本文にそのような番号はありません。 > 地域名による統合をしています。ということですと、その本自体は多分ゴミでしょうね。しかし普通は、原著論文があった上での著書ではないでしょうか。疑義については論文を当たるべきではないかと思います。 > 調査の規模が大きくなれば、統合できるという点が、よく分からない　「統合できる」とか言いましたっけ？でしたら間違いですんで取り消し。そうではありませんで、いくつかの母集団があり、各母集団はいくつかの共通の多型の混成集団であるけれど、その構成比率が大きく異なるとします。すると、その比率が分かっていれば、あるサンプルがどの母集団から取られたかを言い当てやすい、ということ。ですが、話はもう少し複雑なんです。　母集団1には多型Aが70.0%,多型Bが30.0%いて、母集団2には多型Aが30.0%,多型Bが70.0%いる、と分かっていて、さらにサンプルxは母集団1か2の子孫か確率はh半々だ、という条件まで分かっていたとします。「xを調べたらA型だった」という情報から、「xの祖先は母集団1に属するだろう」と言ったら、およそ30%の確率でそれは誤りでしょ。「母集団1には多型Aが70.000%,多型Bが30.000%いて」と有効数字があと何桁か増えたところで、誤る確率は小さくなりません。　ところが、「ある時代に、どちらかの母集団の中から、少なくとも数十人が集団移住してきた。その母系の子孫だと分かっている人たちだけの中から沢山サンプルを取った」という場合ですと、取ったサンプルに占めるA型とB型の割合を、母集団1および2における割合と比べれば、どっちの母集団に由来するかが、これはかなり確実に分かる。　ですから、実際にできるのは「ある時代に、どちらかの母集団の中から、少なくとも数十人が集団移住して来て、しかも、この地域の人たちのほとんどがその母系の子孫である」という仮説を立てて、それをサンプル調査で検定すること。サンプル調査に伴う誤差要因と、母集団の構成比率の測定誤差の両方を見積もって、各母集団が区別できるだけの精度を確保する。計算してませんが、各母集団が18もの系統の混成である場合、地域ごとに高々数十程度のサンプルで十分な精度が出るとはちょっと思えません。なお、検定の結果は、仮説を否定するか、無視するかであり、仮説が肯定されることは原理的にない、という点には要注意です。 > 数学的処理をして作ったクラスターなのですから　いや、その結果がどうも不自然なので、別の意味でのグループ分けか何かじゃないのか？と思ったのです。なので、どのクラスターもほぼ同じ人数から構成されていることの不自然さについて説明します。　話を単純にするためにひとつの理想的な場合を想定しましょう。　大昔にどこかで生きていた18人の女性を考えます。彼女らのどの二人を取っても、二人の共通の母系祖先はさらにうんと遡った時代の人で、この共通の祖先以後、互いに独立にさまざまなミトコンドリアのSNP変異を蓄積したものを、これら二人が継承しているものとします。従って、18人はそれぞれ遺伝子型が大きく違うわけです。 (なお「わずか18人の系統だけが現在残っていて、他は絶滅した」ということそれ自体は、もしその18人が生きていた時代がそれぞれとても古ければ、おかしなことではありません。) 　そして、中国・韓国・北海道・沖縄・静岡でしたっけ、それらの地域の人たちは例外なくこの18人の誰かの母系の子孫であるとします。(中国の中だけでも地方ごとに相当違いがあると思うけれど、それは問わないことにして。）なので、これらの地域からランダムに人を集めてきてミトコンドリアを調べると、仮定により、高々18個のクラスターに別れます。それぞれのクラスターについて見ると、その同じクラスターに属するサンプル同士の距離の最大値（クラスターの直径）が小さく、しかもクラスター間の距離は大きい、という結果になるでしょう。同じクラスターに属する人は皆共通の母系の祖先（18人の中の一人）を持つわけです。　なお、クラスターに依って、そのクラスターに属するサンプルの地域が偏っていても、別段不思議はありません。　以上の状況において、もしどのクラスターもほぼ同じ人数から構成されていたとすると、これは、「5つの地域全体で合計すると、18人の女性の子孫はどれもほぼ同数である」ということを意味しています。でも、そんなことはちょっとありそうにないでしょう。これだけで、かなーり不自然です。　さらに、たとえ「18人の女性の子孫はどれもほぼ同数」だったとしても、地域ごとに構成比率にばらつきがある。（いや、ばらつかなければ、何のデータにもならないわけで。）すると、よほどの偶然でない限り、ある（たまたま選んだ）狭い地域では人数が多かった系統が、他の（たまたま選んだ）狭い地域では人数が少なかったことによって、たまたま丁度打ち消された、ということが生じないと「どのクラスターもほぼ同じ人数」にはならない。こんなの、めっちゃ不自然です。　しかしながら、「どう偏るはずか」を計算するモデルは、他に沢山の仮定を置かない限り作れないように思います。だから、「マジたまたまそうなった」と言われたら、強く反駁することはできないなあ。生データを見せてもらって、それでもおかしい所がなければ、独自にデータを採り直して追試するぐらいしか手がないように思います。要するに、「クラスターに分けました」って結果の数だけ見せられても分からんのです。　今度は逆に、どのクラスターも同じ人数になるようにクラスターを構成したらどうなるかです。　「互いに距離が大きいような系統は（18ではなく）50あった。そして、5つの地域全体で見て、50人の女性の子孫はどれもほぼ同数という訳ではない」という場合を考えます。（それ以外の仮定は上述のものと同じ。）　サンプルを分類して、どのクラスターも同じ人数になるようにクラスターを構成したところ、クラスターの個数がたとえば18個にまとめられたとしましょう。　すると、クラスターごとに、クラスター内の距離（同じクラスターに属する人同士の距離）がかなり異なるでしょう。50の系統のうちのあるひとつはわずかの子孫しか居なかったとすると、その系統は（いかに祖先が古くても）「どのクラスターも同じ人数になるように」という要求のために、他のクラスターと合併される。そうして作られたクラスターは直径がかなり大きくなり、クラスターの共通の母系祖先は50の系統の時代よりも遥かに昔の女性、ということになります。　また、50の系統のうちの別のひとつは非常に多くの子孫を持っているとすると、その系統は「どのクラスターも同じ人数になるように」という要求のために、複数のクラスターに分割されるでしょう。分割の手がかりはごく近年になって生じた少数のSNPの違いだけです。なので、そうして作られたクラスター（つまり、クラスターの共通の母系祖先が50の系統の時代よりも後に居るクラスター）は直径がとても小さく、しかもごく近い距離に他のクラスターが存在することになるでしょう。　つまり、「どのクラスターも同じ人数になるように」という条件を付けて構成したクラスターは、もはや、遺伝の系統と自然な対応をしていません。系統を追いかけるためには、こういう分析をしてはイカンでしょうね。　なお当然ながら、「あるクラスターに地域Aの人と地域Bの人が多かった」という場合や「あるクラスターに地域Aの人が多いが、地域Bの人も多少居る」という場合、これは地域Aと地域Bの間の相関を示す訳ですが、当然これだけじゃどちらがルーツということまでは決められません。過去に地域Aから地域Bへと(少なくとも1人の)女性が移ったか、地域Bから地域Aへと(少なくとも1人の)女性が移ったか、あるいは別の地域Cから地域Aと地域Bへそれぞれ(少なくとも1人の)女性が移ったか。それは分からない。

質問者

お礼 2012/04/09 01:20

＞『ミトコンドリアの多型はそれぞれすべて純系です。』そうなんですが、それが分かっていない多くの人が、相対的に「日本人ダケ」が雑種だと論じています。しかも科学への信頼から科学書の中の非科学的な考察までも絶対的な事実であるかのように。朝鮮人の女が征服者の子供を生んだ結果、今の韓民族を成していたらどうなるんでしょうね。その時期は縄文・弥生時代よりもずっと最近の出来事になると思いますが。歴史を無視する人類学に対する重要な生物学的ご指摘、ありがとうございます。話題が盛り上がって来るとミトコンドリアでは女性の移動しか物語れないのを忘れてしまうのですね。

質問者

補足 2012/03/31 15:39

＞『「統合できる」とか言いましたっけ？でしたら間違いですんで取り消し。』統合できるというのは私の勝手な言い換えでした。すいません。以下の部分の事を指しています。（No.3）＞『また、各地域での広範な調査（あるクラスターに数人、などというサンプル数じゃもちろん話になりません）で多型の種類と比率が分かっているならば、それと比較することによって、（必ずしも距離が近くない）クラスター同士を遺伝学的観点でひとまとめにすることもできるでしょう（これこそが、地名と対応付けられるまとまりだと思われます）。』つまり縮図になっている場合だけ対応できるという感じでしょうか。組成が似ているというか。そんな互いに縮図になっているようなクラスターは見た感じありませんよね。この研究ではそういう作業をしていませんよね。（No.4）＞『という仮説を立てて、それをサンプル調査で検定すること。サンプル調査に伴う誤差要因と、母集団の構成比率の測定誤差の両方を見積もって、各母集団が区別できるだけの精度を確保する。』本件でいうと、母集団などは具体的に何を指していますか。（No.4）＞『なので、どのクラスターもほぼ同じ人数から構成されていることの不自然さについて説明します。』＞『以上の状況において、もしどのクラスターもほぼ同じ人数から構成されていたとすると、』本件では、そのようになっているのでしょうか。本件で具体的にどの部分が同じ数量で構成されているか分かりません。（No.4）＞『いや、その結果がどうも不自然なので、別の意味でのグループ分けか何かじゃないのか？と思ったのです。』＞『要するに、「クラスターに分けました」って結果の数だけ見せられても分からんのです。』再掲します。以下の図は本にも掲載されています。クラスターの質的内容はそこに見て取れるものがすべてだと思います。 http://www.dai3gen.net/mtdna.png http://www.dai3gen.net/mt09.htm 以下に見られるグラフは、本件の書物に掲載されているグラフとは別の体裁・表現のグラフですが、内訳の仕方は同じです。そのような結論に持って行く研究です。 http://www.ne.jp/asahi/manazasi/ichi/syakai/ikutumono0102.htm どうも根本的に騙されている（創作を見せられている）気がしてなりません。地域名付きのクラスターを用いる事で、今回のような日本人の内訳に外国人の要素を増やしている展開は、やってはいけないことではないのでしょうか。せめて、中国人（１）のクラスターを中国人・日本人のクラスターにしてみるべきではないでしょうか。地域Cから、地域Aと（地域Aを通過して）地域Bの双方に移動したのだと私は思うので、現代の地域Bに地域Aの要素があっても、それは地域C由来であり、地域Aから流入によるものではない、つまり地域Bが混血というのは間違いだと考えます。地域Cが地域Bのような混血的だったら地域Aが多様性を失っただけとも言えそうな訳で、その場合に、地域Bを混血と呼ぶのはまるで地域Aが元来純血であるかのような思い込みにつながると思います。

stomachman
ベストアンサー率57% (1014/1775)

2012/03/29 15:32 回答No.3

ANo.2のコメントについてです。　各クラスターに（それがどんなやりかたで分割されたものであれ）どんな名称を与えるかは全く任意です。「クラスター中で人数が一番多い人の属する地域名に番号を添えたものを用いる」というルールにしたところで（気に入るかどうかはさておき）差し支えはありません。ご質問は、まさにその、どうでもいい点についてのものであるということにご注意下さい。つまり突き詰めれば「名前の付け方のルールを推定せよ」というパズルなのです。そして、（データの出自やモデルに拘る必要があるような複雑な処理ではなくて）簡単な計算でそのルールが再現できることが示せたので、回答としたわけです。　ちうわけで、これ以上の分析を行っても意味がないことがお分かりいただけたでしょうか。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝　余談ながら、ご質問にある本についてです。　たとえば、クラスター同士の距離が近いなら、スーパークラスターとしてひとくくりにするのはアリです。また、各地域での広範な調査（あるクラスターに数人、などというサンプル数じゃもちろん話になりません）で多型の種類と比率が分かっているならば、それと比較することによって、（必ずしも距離が近くない）クラスター同士を遺伝学的観点でひとまとめにすることもできるでしょう（これこそが、地名と対応付けられるまとまりだと思われます）。しかし、たとえば「クラスターの名称のうち番号を無視して地域名だけでひとくくりにする」ということをやったとすると、そりゃ全くのデタラメです。（なまえに「あ」が付く物はどれかな～、というやりかたで品物を分類するのと似たような話です。）もしもそういうことをやっている本ならば、トンデモ本コレクションに加えるか、ゴミ箱に直行。　そこまであからさまに酷くはないとしましょう。次に検討すべきはクラスター分析そのものです。データがクラスターに分けられた、という点が重要ですね。クラスターが18個得られた、という話が妥当かどうかは、クラスター間の距離に比べてクラスター内の距離が十分小さい、という条件が整っているかどうかに掛かっています。しかし、クラスター分析の方法には様々あり、同じ方法を採っても、クラスター間距離としてどんな距離を採用するかで結果がかなり変わります。さて、結果を見ると、どのクラスターも同程度の人数が入っている。18個もあるクラスターでそんなことが起こるなど、一般的に使われる手法を用いていたのではなかなか生じないのではないか。逆に、人数が均分されるようにクラスターを分割したのだとすれば、「クラスター間の距離に比べてクラスター内の距離が十分小さい」といううまい結果にはなかなかならないのではないか。ですから、このクラスター分析の手法（開示してないのなら論外）は妥当なのか、その結果が意味のあるものかどうか、という点が最も慎重に検討されるべき所でしょう。でもそれには、分析に使ったデータと、分析方法の詳細が必要です。（わずか数百のサンプルであれば、開示できないことはないでしょう。これがもし学術論文であるなら、データを開示するよう要求できますし、その要求を断るのは異常です。) 　なお一般論ですが、ミトコンドリアのSNPs解析について、混血（つまりグループの分岐ではなく複数のグループA, Bの合流ですね）を論じたければ、合流しなかった者の子孫と考えられるグループA', B'が現存しなくてはならんでしょう。それぞれのグループにおける多型の種類と頻度を測定し、A', B'には一致する多型がないか、ごく少ないことが分かったとします。これから分かるのは、A, Bは長期間隔絶していた系統だということです。次に、混血してできたと思われるグループの成員の母系がA, Bのどちらかの直系だという仮説を検証する。　たとえば、少なくとも数万年間隔絶してきたグループの出身者同士が別の地域で混血した、という場合、こういったやりかたで、混血が起こったか、またそれがいつ頃かが推定できるでしょう。しかしわずか数千年のうちのどの時期に混血が生じた、ということを主張できるほどの精度はおそらくないだろうと思います。　また、ミトコンドリアは母系をたどって継承されるのですから、あるグループが何世代にも渡って移動し続けた、という話ならばミトコンドリアによる分析に意味があります。しかし、高級技術者の男性が遠方から移住して来て子孫を残す、という話だと、ミトコンドリアには混血の痕跡が残りません。この点も解釈に注意が必要かと思います。

質問者

お礼 2012/04/03 07:17

ご回答ありがとうございます。ご指摘によりいろいろと考えさせられます。

質問者

補足 2012/03/30 06:19

ご丁寧にありがとうございます。とても勉強になりました。質問の意義はこの研究がまっとうかどうか評価せよ、あるいは筆者のやり方を推定せよ、という欲張りなものではなく、権威が本にしている、NHKが放送し、世間でも知られる、この研究の数値を例として利用させてもらって、「代表」選び（仕分け作業）を数学的・統計学的にどのように行うのかを知りたいという事でして、このデータを皆さんがどう処理するかをご教授いただきたいのです。数学的処理をして作ったクラスターなのですから、数学者のカンならまだしも、そこから急に遺伝学者のカンという言い訳は全体として詭弁になります。クラスターを数学的に作成した事が無に帰するからです。カンであればカンなのに、数学的な体裁を見せ付けているというのは……。＞『差し支えはありません。』つっかえずに、日本人は混血なんだという結論まで読み進められますでしょうか。ただ一回の調査をクラスター処理して、その中身を統計的に処理せず、このクラスターは中国人と割り振っていしまうのでは、統計処理をしてない、本人がそう思っただけの非科学的な科学書ですよね。科学としてもっとも差し支える点ではないでしょうか。最初の一歩である命名、それが好きに名づけられるのならば他はもっとどうでもよくなると思うのですが。たとえば後で構成員の人数を集計する事になる各クラスターの色分けを勝手に決めてしまうのですから。なお、中国人（１）の（１）という番号は、この場の便宜のために、私が付け加えた番号であり、本文にそのような番号はありません。どのクラスターも区別なく中国や日本という仕分けのされ方です。つまりこの数量の調査なのに、分析と結論で、地域名による統合をしています。stomachmanさんのご重視される、その観点においても差支えがあると思います。調査の規模が大きくなれば、統合できるという点が、よく分からないので、ご解説願いませんでしょうか。＞『わずか数百のサンプルであれば、開示できないことはないでしょう。』それはセンモン的なので割愛して結果だけということではないでしょうか。一般書という点を利用しています。論文ではありませんが、岩波、ＮＨＫ、世論、などへ、論文異常の影響力を与えています。行政に対してもそうなっているでしょう。司法は社会通念に基づく判決を出しますから人権裁判などにも。私のレベルではstomachmanさんの暗示は難しいので、＞『さて、結果を見ると、どのクラスターも同程度の人数が入っている。』以降のご解説の背景である数学家的な常識が私にはわかりません。まさに数学的な吟味・批評を期待しているこの質問の要になると感じていますので、ご解説お願いします。Ｃ- 1アイヌ（1） 1,0,10,1,1 Ｃ- 2中国人（1） 11,4,1,5,13 Ｃ- 3琉球人（1） 0,3,0,0,1 Ｃ- 4中国人（2） 4,1,1,4,15 Ｃ- 5韓国人（1） 7,4,4,14,2 Ｃ- 6―――（1） 5,5,2,3,5 Ｃ- 7―――（2） 2,5,3,1,5 Ｃ- 8日本人（1） 3,2,0,0,1 Ｃ- 9中国人（3） 1,0,3,4,6 Ｃ-10韓国人（2） 5,0,1,7,1 Ｃ-11―――（3） 5,1,4,5,1 Ｃ-12―――（4） 1,2,3,3,1 Ｃ-13琉球人（2） 3,5,0,3,3 Ｃ-14韓国人（3） 3,0,0,5,4 Ｃ-15琉球人（3） 5,12,8,5,0 Ｃ-16アイヌ（2） 4,1,7,0,0 Ｃ-17琉球人（4） 2,5,4,3,1 Ｃ-18中国人（4） 0,0,0,1,6 ＞『しかしわずか数千年のうちのどの時期に混血が生じた、ということを主張できるほどの精度はおそらくないだろうと思います。』結論で混血という表現や示唆をするのは、まさに「どの時期」（何人同士）という点において詭弁がありますね。そう思います。だけど博士は権威なのです。信仰に過ぎない中身であっても、何をどう言っても社会的な科学常識を形成できるのです。私の過去の質問「『日本人のルーツ』科学の表現と解釈の正確さ。」 http://oshiete.goo.ne.jp/qa/7302018.html この前にも同様のテーマで質問をしたのですが、質問が削除されています。そこでは、権威に立てつくお前が学会発表しろという回答がありました（笑）分からなくて質問している質問者になんと学会発表を要求しているのですが、教える立場にある回答者がその前にここで説明するべきなのに。私は博士が好き勝手な事を言うのは、自由ですませられますし、博士の科学的精度は、二の次の関心事です。博士批判ではありません。権威の考察が日本人の科学常識の標準とされるのがどうかという事は気にしています。その考えの反対者に対して、博士の意見が権威の盾として用いられています。しかしそういう経緯は私の関心が強くなっただけの関係であり、本件に対して私は純粋に科学的な興味として質問しています。

調査。各グループの代表の決め方。

質問者が選んだベストアンサー

お礼 2012/03/28 09:37

その他の回答 (11)

お礼 2012/04/24 05:51

補足 2012/04/18 17:48

お礼 2012/04/22 17:51

補足 2012/04/17 07:43

お礼 2012/04/17 08:10

補足 2012/04/16 08:08

お礼 2012/04/16 20:45

補足 2012/04/15 15:45

お礼 2012/04/16 20:00

補足 2012/04/12 19:03

お礼 2012/04/15 15:53

補足 2012/04/11 11:24

お礼 2012/04/12 19:16

補足 2012/04/05 11:37

お礼 2012/04/09 08:20

補足 2012/04/03 08:42

お礼 2012/04/09 01:20

補足 2012/03/31 15:39

お礼 2012/04/03 07:17

補足 2012/03/30 06:19

関連するQ&A

琉球文化とアイヌ文化の違いはどこにあったのでしょうか？

中国が過去の日本のアイヌや琉球政策に学べない理由

どうして中国は日本の少数民族政策を見習わない

日本史の転換点？：赤穂浪士、池田屋事件、禁門の変に見る武士の忠義と正義

琉球民族は存在しますか？

「アイヌ民族」は存在しないので「アイヌ差別」も存在しないのでは？

アイヌ民族と琉球人

朝鮮民族について

沖縄と琉球民族について。

『日本人のルーツ』科学の表現と解釈の正確さ。

琉球民族を先住民族と認めないのは

東アジアの民族の見分け方（顔以外の身体的な特徴）

アイヌや琉球の領土を略奪してきた日本人が、中国政府やロシア政府などを批

韓国人が日本を嫌う理由

単一民族と言える条件を教えて下さい

日本人はどこから来たの??

人類学的に中国人と日本人は同祖ですか？

中国の民族自治区の人民代表大会について

日本も中国も、何故過去に異民族を野蛮人呼ばわりして来たのでしょうか？

単一民族とは？

なぜ日本は少数民族を弾圧したのか。アイヌとチベットの共通点、相違点

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録