clustalwにいれる配列のフォーマットについて

このQ&Aのポイント
  • ClustalWを使用して遺伝子配列の比較を行いたい。遺伝子配列がGenbankから取得したものであり、ClustalWに正しくコピー&ペーストできない問題が発生している。
  • Genbankで検索した遺伝子配列をClustalWにコピー&ペーストする方法を教えて欲しい。
  • Genbankフォーマットではなく、FASTAフォーマットの遺伝子配列をClustalWに使用したい。FASTAフォーマットの遺伝子配列を検索できるサイトも教えて欲しい。
回答を見る
  • ベストアンサー

clustalwにいれる配列のフォーマットについて

Clustalwを使って、2つの遺伝子配列を比べようと試みています。 チュートリアルを検索して、その中にあった FASTAフォーマットのサンプルの遺伝子配列を二つ比べたところ、問題なく結果を導きだしました。 しかし、Genbankから配列をコピーしてClustalwを使おうとしたところ、うまくいきません。 詳細を書かせていただきますと、genbankでnucleotideを検索して、 originの後にある1~//までをコピーして、 その間にあるスペースを全て消した配列を二つ並べました。 その結果、フォーマットが不明です、というメッセージが出てきました。 1 genbankで検索した遺伝子配列をどのようにclustalwにコピー、 ペーストしたらよいでしょうか? 2 genbankに載っている配列は、genbankフォーマットといわれているものだと認識しております。 このgenbankフォーマットではなく、FASTAフォーマットのみ clustalWに使用できるのならば、 fastaフォーマットの遺伝子配列の検索ができるサイトを教えてください。 なにか不明な点がございましたら、聞いてください。 よろしくお願い致します。

質問者が選んだベストアンサー

  • ベストアンサー
  • miya_0726
  • ベストアンサー率54% (94/173)
回答No.1

clustalWは、いわゆるFastA形式が連なっているMultiFastA形式の配列以外は受け付けてくれません。 GenBankフォーマットから配列をそのまま取ってもうまくいきません。 たとえばNCBIで http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nuccore&id=1131756 このような形で検索結果を見ているのでしたら、DisplayのところでFASTAを選択すればFastA形式で配列を得ることができます。 大体FastA形式で配列を取得できるような仕組みがあると思うのですが・・・。 より原始的には、GenBank形式の塩基番号だけ手で消して、先頭行に適当にコメントを挿入すればよいです。 Genetyxのような配列処理ソフトウェアにコピー&ペーストすることでも塩基番号の数字は消すことができます。(できないのもありますが)

Mickey_Hashida
質問者

お礼

ありがとうございました!! 無事に解決することができました。 とても助かりました。

関連するQ&A

  • 蛋白質のアミノ酸のFASTAのFormatのWebページを教えてください

    分子生物学の初心者です。Web上のフリーのソフト、たとえば相同性検索などのソフトを使うときに、既知の蛋白質のアミノ酸配列をFASTAのFormatで投入してくださいというような指示があった場合に、どこのWebのページから、既にアミノ酸の配列のわかっている蛋白質(FASTAのFormat)について調べたらよいか、教えていただけますでしょうか?。 また、アミノ酸配列を自分でFASTAのFormatに変換することは可能でしょうか?。どうぞよろしくお願いいたします。

  • Swiss-ProtでTranslateした結果に出てくるアミノ酸配列の「5'3' Frame 1」というのは何ですか?

    例えば、このページ http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=62240391 の一番下のORIGINのところにある、mRNAの配列をコピーアンドペーストで、 Swiss-ProtのTranslate tool ( http://kr.expasy.org/tools/dna.html )に入力してTRANSLATE SEQUENCEをクリックし、結果を見ると、 「5'3' Frame 1」「5'3' Frame 2」「5'3' Frame 3」 「3'5' Frame 1」「3'5' Frame 2」「3'5' Frame 3」という6つの配列が出てきますが、 この「5'3' Frame 1」等というのは何ですか? 基礎的なことがわかっていないからだと思うのですが、このように6つ出てくるのがどういうことなのか、わかりません。 初歩的な質問ですみませんが、よろしくお願いします。

  • 遺伝子のエンハンサーの配列が知りたい

    タイトル通り、ある遺伝子のエンハンサーの配列が 知りたいです。 pubmedのnucleotideの項目に、プロモーターの配列が のってたのですが、エンハンサーの配列はのっていません でした。 しかし、過去の論文ではエンハンサーをdeletionしたりして データを出しているので、エンハンサーの配列は分かってる んじゃないかと思います。 そこで、どのサイトでエンハンサーの配列を検索したらよいか よくわかりません。素人なもんなので、エンハンサーの配列も のってるサイトがあれば、教えてください。

  • 遺伝子の塩基配列の調べ方について教えてください

    初心者なので詳しい方,分かりやすく教えていただけたらと思います. 近々,PCRのプライマー作成のために遺伝子の塩基配列を調べることが必要となりました. ある蛋白のmRNAの塩基配列と,イントロンを含めたDNAの塩基配列を調べたいのですが,PubMedの『Nucleotide』というカテゴリーで検索したものの,どうも要領よく探せません.そこで質問なのですが, (1)Gene Bank accession No.の頭についているアルファベット2文字(NM,AC,DQ,NW,XM…その他…)にはどういった意味があるのでしょうか? (2)キーワードとは関係なさそうな遺伝子も大量にピックアップされてきました.これはなぜでしょうか?何かうまく調べられるコツみたいなものはありますか? (3)論文やPabMed以外で,目的の遺伝子のmRNA,ゲノムの塩基配列を簡単に入手できる方法は他にどういったものがあるのでしょうか? ひとつだけでもかまいませんので,ご教示賜りたいと思っています.

  • 卒論で遺伝子配列とアミノ酸配列を表記したいのですが・・・

     今卒論を書いています。遺伝子配列とその下にアミノ酸配列を表示させたいのですが、ワードやパワーポイントではコドンの下にアミノ酸が正しい位置に表示してくれません。具体的にいうとDNAsisやgenetyxでthanslateした後それをワードなどで開いたり、コピーandペーストしたりしています。  なにか正しい表示のさせかたを教えて下さい。

  • 転写因子の結合配列

    EMSAにて、ある転写因子のある遺伝子への結合活性を調べようと思っています。TRANSFACで検索した結果、-80bp付近への結合が予測されました。ただ予測されて配列は転写因子のコンセンサス配列ではないのですが (似てはいますが・・・)、大体の配列が似ていればコンセンサス配列でなくとも、転写因子が結合する可能性は十分あるものなのでしょうか? 追加で、もしあるとするなら、その理由もご教示よろしくお願います。

  • ヒトのDNA Photolyase(CRY3)

    優秀なゲノム研究者よりご解答をお待ち申し上げます。(自身の無いお方は、ご解答をお断り申し上げます) ヒトのDNA Photolyase(CRY3)のアミノ酸配列をFASTAフォーマットで記述したファイルの作成方法を,全くの初心者に1から丁寧にプロセスから解答まで、詳細に教えて下さい。(NCBI,Ensembl,PDB)を駆使して下さい。 質問の解答は1つしか無いと思いますが、解答に至るまでの、NCBI,Ensembl,PDB等をどのように使い、解答までたどりついたのか、データのどこを、どのように引用し結果を得られたのかも含めて、誰にでもわかるように詳細にご解答お願い申し上げます。

  • 配列、長さが未知intronのシークエンシング

    どこを探してもわからなく、最後の頼みとして質問させていただきます。 実は、ある遺伝子の5'-上流域3 kbをPCRで増やしたいのですが、どうしても内部特定の領域(100 bp程)が増やせません。具体的に言うと、1-2500までと2600-3000は増やせるのですが、2500-2600がどうしても増やせません。NCBIの配列を基にしており、その配列をBLASTで検索すると、やはりその100 bpがぽっかりと適合しません。そこでNCBIが間違っており、もっと長い配列が埋まっていると考えロングPCRを行いましたが、うまくいきません。そこで以下の二点についてご存じの方、教えていただけないでしょうか。 (1)Intronの未知配列(両端の配列はわかるが、その配列が何bpかは不明)をシークエンシングしたい場合、どう行うか。 (2)NCBIの配列に間違いがあるのか(人種やSNPなどではなく、大部分の配列)。 転写因子についての実験を行いたいので、配列がわからない、また増やせなければどうしようもありません。勉強不足ではありますが、未知exonならcDNAを使えば行けそうな気がしますが、intronはそうはいかず、またショットガンなどは大規模な処理装置が無い場合不可能と認識しております。配列および長さが未知のintronのシークエンシングは不可能なのでしょうか。何卒よろしくお願い申し上げます。

  • シークエンスについて

    全塩基配列が解読されている遺伝子に対して 自作のプライマーを使用して特定部位の増幅を行っています。 自作プライマーで増幅した断片が 目的遺伝子由来かどうか検証するために シークエンスして調べようと思うのですが その際のシークエンスサンプル本数はどのくらいで 信憑性がある結果と言えるのでしょうか?

  • VBSで配列の結果内容から任意の文字列を探す。

    VBS初心者です。 配列を1つにまとめた内容(strMSG)から 正規表現を利用して任意のキーワードを元に grepのような実行結果が欲しいです。 【実行サンプル】 ------------------------------------------- Option Explicit Dim TEST(4),i,strMSG TEST(1) = "001-AB1" TEST(2) = "001-AB2" TEST(3) = "AB1-001" TEST(4) = "AB2-001" For i = 1 To UBound(TEST) strMSG = strMSG + TEST(i) & vbCrLf next msgbox strMSG ------------------------------------------- strMSGの内容として4行分TESTの配列が格納されています。 ここでは例として、先頭001で始る文字列を検索かけたいです。 【理想の実行結果】 検索キーワード:先頭が001で始る行 ------------------------------------------- 001-AB1 001-AB2 ------------------------------------------- よろしくお願いします。 【備考】 1つ1つのTEST配列単位でgrepかけるより、配列を1つにまとめたものに 1度だけgrepかけたほうが処理速度が速いかな?と考えているためです。