- ベストアンサー
その塩基対が遺伝子であるかどうかの決め方
塩基対の配列を解読したとき、その中のある塩基対が遺伝子であるかどうかはどのようにして知るのでしょうか。 素人の考えでは、「同じ種に属する多くの固体のゲノムを解読し、固体間で差のある塩基対を見つけて、それを遺伝子であると推定する」ような方法かなと思うのですが...。 よろしくお願いします。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
実験的にやる方法はもちろんいろいろありますが、質問の趣旨は、ゲノム配列がわかったところで、どうやって遺伝子がいくつあると推定されるなんてことが言えるのかという事ではないでしょうか。 遺伝子領域の推測は、実際にいろいろな遺伝子がクローニングされ実験的に明らかにされてきたデータの蓄積から、法則性が見つけ出され、それをゲノム配列から見つけ出すプログラムを作って使っているわけです。 原理的には、 1.オープンリーディングフレーム(ORF)の抽出と確からしさの推測 タンパク質をコードしている配列は、コドン(アミノ酸1個をコードする3塩基の並び)がある程度連続しているはずです。コドンフレーム(枠組み)は1塩基ずつずれた3通りがあり得るのですが、正しいフレームは連続するのに対し、誤ったフレームは停止コドンが頻繁に入って有意なフレームを為すことができないことがほとんどです。もちろんタンパク質をコードしていない配列はどのフレームをとってもそうなります。 翻訳可能なフレーム(オープンリーディングフレーム)を見つけて、その連続性やコドンの使い方の法則性にあっているかなどで、それが遺伝子であるかを判別します。 2.スプライシングの予測 真核生物の一つの遺伝子はmRNAになるところ(エクソン)がとびとびにあって、その間にmRNAになるときに捨てられる配列(イントロン)があります。当然、タンパク質をコードしている配列はエクソンにあります。 イントロンが切り離されエクソン同士がつなげられることをスプライシングといいますが、エクソン・イントロンの境界の配列は規則性があります。これを見つけ出して、とびとびに現れるORFのどれが一つの遺伝子のエクソンに相当するかを予測します。
その他の回答 (4)
- geneticist12
- ベストアンサー率67% (701/1045)
補足します 遺伝子の開始(転写開始点またはプロモーター)の予測から遺伝子の存在を予測するのは困難です。なぜなら、 ・転写開始のコンセンサス配列は短かく、バリエーションも多いので、偽者も多数ひっかかってくる。 ・ひとつの遺伝子に対し、複数の転写開始点があることがまれではない。 ・翻訳領域は第二エクソン以下にあることが多い。転写開始点直下の第一エクソンは、ORFを持たない一見無意味な配列であることが多く、ORFをもつエクソンから大きく離れていることもまれではないので、遺伝子としての一貫性が予測困難。 ということで、ゲノム配列からの遺伝子予測は、翻訳開始メチオニンコドン(ATG)から停止コドンまでを単位に行うのが普通です。 転写開始点予測は、ある興味のある遺伝子について、転写開始点がどこにあるのかを予測したり、候補を絞り込んだりするのには有効なんですけれどね。
補足
ご回答を頂きながらご返事がたいへん遅くなり申し訳ありません。ご教示いただいた内容が知らない言葉ばかりで意味が全く分からず、遺伝とゲノムに関する書籍を購入し勉強するのに今日までかかってしまいました。やっと、ご教示いただいた内容が概ね分かるようになりました。そのような事情ですので、何卒お許し賜りますようお願い申し上げます。 さて、ご教示いただいた内容は概ね理解できたように思うのですが、何分素人のため分からない言葉が多く、完全には理解できておりません。お手数をおかけして誠にもし訳ありませんが、あと少しお教えいただけないでしょうか。 (1)「コンセンサス配列」とは何でしょうか。 (2)第一エクソンは常に翻訳開始コドンであると理解しておりましたが、「転写開始点直下の第一エクソンは、ORFを持たない一見無意味な配列であることが多い」とはそのような理解が間違っているということでしょうか。 たくさんお尋ねして申し訳ありません。ご教示いただけましたらたいへん有り難く存じます。 よろしくお願いいたします。
- walkinoctopus
- ベストアンサー率40% (73/182)
>「同じ種に属する多くの固体のゲノムを解読し、固体間で差のある塩基対を見つけて、それを遺伝子であると推定する」 というのはちょっと違います。 なぜならば、ゲノム上では全ての塩基配列において突然変異が起こりえます(領域によって変異率には差があるのですが、ここでは割愛で・・・)。もし、遺伝子領域内のタンパクをコードしている領域や転写調節に重要な領域であった場合、生存に不利になるか致死になる場合が多くなります。一方、遺伝子のない領域ですと、突然変異が起こっても生存に関係しないことが多いのです。そのため、遺伝子外領域の方が個体差は大きくなります。 遺伝子かどうかの判別は原理的に#3の方のおっしゃる通りだと思います。古典的にはストップコドンの出現や、スプライシングのAG-GT則を参考にします。 ただ、現在では実験動物として使用されているものの多くはゲノム配列が解読されており、配列データベースが利用できるようになっています。そのため、20bp程度の配列がわかれば、ゲノム上のどこに位置する配列なのかがわかります。そして、ヒトやマウスにおいては、かなりの割合の遺伝子(EST)が既に同定されています。また未知の遺伝子であっても、そのようなデータベースには遺伝子予測情報もありますので、それを利用することが多いと思います。そのようなデータベースの遺伝子予測アルゴリズムは、他種生物の遺伝子との相同性や既知遺伝子の一部であるドメインとの相同性、その生物種で好んで使われるコドン傾向(一つのアミノ酸に対して多くは3種のコドンがありますが、どれを使用するかは生物種によって偏っています)などなど非常に様々な情報を元に予測しています。現在有名な遺伝子予測アルゴリズムとしてはGeneScanなどが知られています。
補足
ご回答を頂きながらご返事がたいへん遅くなり申し訳ありません。ご教示いただいた内容が知らない言葉ばかりで意味が全く分からず、遺伝とゲノムに関する書籍を購入し勉強するのに今日までかかってしまいました。やっと、ご教示いただいた内容が概ね分かるようになりました。そのような事情ですので、何卒お許し賜りますようお願い申し上げます。 さて、ご教示いただいた内容は概ね理解できたように思うのですが、何分素人のため分からない言葉が多く、完全には理解できておりません。お手数をおかけして誠にもし訳ありませんが、あと少しお教えいただけないでしょうか。 (1)「遺伝子外領域の方が個体差は大きくなる」とのご指摘は、意外でした。そうなんですね。「固体間で差のある塩基対を見つけて、それを遺伝子であると推定する」方法は全く見当違いということなんですね。よく分かりました。 (2)「ドメイン」とは何でしょうか。 (3)「予測しています」とのことですが、これを文字どおりに理解すると「遺伝子ではないかと思われるものを推定して、それを「遺伝子である」としている」というような意味ではないかと思いますがそのような理解でよろしいでしょうか。 もしよい場合は、現在ヒトには20,000個程度の遺伝子があると言われていますが、このうちには遺伝子であることが確実なものと恐らく遺伝子であろうと推定されるものとの2つが含まれているのではないかと思われますが、そのような理解でよろしいでしょうか。 たくさんお尋ねして申し訳ありません。ご教示いただけましたらたいへん有り難く存じます。 よろしくお願いいたします。
- 1fan9
- ベストアンサー率33% (209/622)
まず遺伝子の開始と終わりの配列は決まっていますから、大体、配列を見ただけで、どこに遺伝子があるか見当はつくのかもしれません。 あと個体(「固体」ではないです。毎度なので念のため。)のゲノムを解読を比較には、とんでもなく時間がかかりますから現実的ではないです。 アバウトな説明ですが、ほどかれて部分的に一本鎖になったDNAが一本鎖RNAに転写され、それがさらにタンパク質に翻訳される、基本的にはそのようなDNA配列が遺伝子と呼ばれるのだと思います。いちいち個体同士のゲノムを比較しなくてもいいと思います。 DNAから写し取られた転写産物であるRNAの配列をもとに、もととなるDNAの配列は推定可能だと思います。 そこを遺伝子の配列とするのでしょう。 遺伝子以外にも転写される部位はありますから一概にそうだといえませんが。
お礼
ご回答を頂きながらご返事がたいへん遅くなり申し訳ありません。ご教示いただいた内容が知らない言葉ばかりで意味が全く分からず、遺伝とゲノムに関する書籍を購入し勉強するのに今日までかかってしまいました。やっと、ご教示いただいた内容が概ね分かるようになりました。そのような事情ですので、何卒お許し賜りますようお願い申し上げます。 「開始と終わりの配列」が決まっているというのは開始コドンと終止コドンのことでしょうか。まずチェックしてみるのは開始コドンと終止コドンですね。 また、mRNAから逆に遺伝子を判別できるとのご指摘、確かにそうですね。 ご懇切なご回答有り難うございました。 今後ともよろしくお願いいたします。
- bzxjpjp
- ベストアンサー率36% (11/30)
遺伝子とはタンパク質をコードしている塩基配列のことです。 タンパク質はDNA情報を元に転写されてmRNAができ、 それが翻訳されてタンパク質ができます。 つまり、mRNAを塩基配列を調べてそれをコードしているDNAは遺伝子(遺伝情報)を保持していることが分かると思います。(厳密には違うと思いますが、そうお考えて結構だと思います。)
お礼
ご回答を頂きながらご返事がたいへん遅くなり申し訳ありません。ご教示いただいた内容が知らない言葉ばかりで意味が全く分からず、遺伝とゲノムに関する書籍を購入し勉強するのに今日までかかってしまいました。やっと、ご教示いただいた内容が概ね分かるようになりました。そのような事情ですので、何卒お許し賜りますようお願い申し上げます。 mRNAから逆に遺伝子を判別できるとのご指摘、確かにそうですね。とても確実な方法ですね。 有り難うございました。 今後ともよろしくお願いいたします。
補足
ご回答を頂きながらご返事がたいへん遅くなり申し訳ありません。ご教示いただいた内容が知らない言葉ばかりで意味が全く分からず、遺伝とゲノムに関する書籍を購入し勉強するのに今日までかかってしまいました。やっと、ご教示いただいた内容が概ね分かるようになりました。そのような事情ですので、何卒お許し賜りますようお願い申し上げます。 「質問の趣旨は、ゲノム配列がわかったところで、どうやって遺伝子がいくつあると推定されるなんてことが言えるのかという事」とのご指摘、そのとおりです。舌足らずな言い方でご迷惑をおかけしました。申し訳ありません。 ご教示いただいた内容は概ね理解できたように思うのですが、何分素人のため分からない言葉が多く、完全には理解できておりません。お手数をおかけして誠にもし訳ありませんが、あと少しお教えいただけないでしょうか。 (1)「コドンフレーム」とは何でしょうか。「塩基3つの並び」「順番を有する塩基3つを入れることができる大きさを持つ枠」というような意味でしょうか。 (2)「1塩基ずつずれた3通りがあり得る」とはどういう意味でしょうか。ゲノムの塩基の並びがあったときに、そのうちのある特定の1つの塩基Xを含むコドンとしては「X**」「*X*」「**X」の3とおりが考えられるということでしょうか。 (3)「正しいフレームは連続する」とはどういう意味でしょうか。「ゲノム上の検討している箇所が遺伝子であれば、「開始コドンまたは終止コドン」以外のアミノ酸に対応したコドンがある程度連続している」という意味でしょうか。 (4)「エクソン・イントロンの境界」とは、文字どおり「エクソンとイントロンの境界」という意味でしょうか。つまり、「ここまでがエクソンでここからがイントロンという場合の「ここ」にあたる位置」でしょうか。そのような意味であれば、「エクソン・イントロンの境界」は塩基を含まないと思いますが、そのような理解でよろしいでしょうか。 (5)「エクソン・イントロンの境界の配列」とは何でしょうか。 たくさんお尋ねして申し訳ありません。ご教示いただけましたらたいへん有り難く存じます。 よろしくお願いいたします。