手厳しいデータベースとは?

このQ&Aのポイント
  • 手厳しいデータベースの意味を解説
  • プロテインデータバンクの問題点とは?
  • データダンプについての疑問点
回答を見る
  • ベストアンサー

手厳しいデータベース

文章を読み終わって ハードデータと 厳しいデータが掛詞になっているのかと思いました。 プロテインデータバンクのあり方が書いてありました。 (1)Behind every great discovery is a pile of data; but, crucially, it should not be too far behind. 偉大なる発見の裏には必ずデータの蓄積が伴うが、重要なことは裏付けがはるか遠くにあってはならないのだ。 と訳しましたが言っていることがわかるようでわからないです。 用意周到なのもいいけど何事もtoo muchはいけないよってことでしょうか。 (2)So there was considerable worry at the database when Nature accepted a molecular map of HIV’s capsid protein shell last year (G. Zhao et al. Nature 497, 643–646; 2013). The multimillion-atom complex was larger than anything then in the PDB, and the database’s team had to devise a way to make the data dump available (and useful) at short notice. 40年以上もの間、プロテインデータバンクはその道の構造科学者たちによって密接にデータが関連付けられ保持されてきた。世界中の大半の生物学出版機関誌(もちろんわがNatureも含む)が出版の前にPDBへの構造データの蓄積をされることを望む。 の後にこの文章が続きます。 そのため、ネイチャーが昨年HIVのカプシド骨格の分子マッピングを承認したとき、このデータベースに載せる県で考慮すべき懸念が生まれた。このカプシドタンパクの殻は数百万の分子複合体がPDBに登録されているもの以上に莫大なものであったため、データベースのチームはぎりぎりでデータダンプを行える方法を考案しなければならなかった。 と訳しましたがここでanything thenの適切な訳がわからなかったこととdata dumpとはどういうことなのでしょうか。どうしてそのデータダンプを行う方法をカプシドには適応しなければならないのか登録上の問題が無知でわかりません。 考えたのはHIVのカプシドタンパクも当然レトロウイルス由来の逆転写翻訳によるものだからタンパクの翻訳も変性しまくるしそもそも巨大だから。と考えたのですがまず、ぎりぎりでデータダンプができるとは… その意味が恥ずかしながら理解できませんでした。

  • ligase
  • お礼率92% (997/1082)
  • 英語
  • 回答数3
  • ありがとう数3

質問者が選んだベストアンサー

  • ベストアンサー
  • sknuuu
  • ベストアンサー率43% (408/934)
回答No.3

it should not be too far behind この表現は大体、"時間的な遅れ"  簡単に言うと、遅れをとっちゃあかん、ということ >>40年以上もの間、プロテインデータバンクはその道の構造科学者たちによって密接にデータが関連付けられ保持されてきた。世界中の大半の生物学出版機関誌(もちろんわがNatureも含む)が出版の前にPDBへの構造データの蓄積をされることを望む。 40年以上もの間、プロテインデータバンクは[構造科学者たちがデータを保存していた場所]であった。世界中の大半の生物学出版機関誌(もちろんわがNatureも含む)は、出版の前にPDBへの構造データの蓄積(保存)を[条件とした](=PDBにデータ保存しなければ出版しない) >>(2)So there was considerable worry at the database when Nature accepted a molecular map of HIV’s capsid protein shell last year (G. Zhao et al. Nature 497, 643–646; 2013). The multimillion-atom complex was larger than anything then in the PDB, and the database’s team had to devise a way to make the data dump available (and useful) at short notice. at short notice 話しがあってから短時間で; 通知から短い時間で ... data dumpというのはコンピューターの専門の用語のようですが、データ出力に関することのようです だから、昨年Natureが受けたmolecular mapはとてつもなく大きなデータ(PDBが保管しているデータで一番大きかった)なので、出力にそれなりに(保存もそうでしょうが)長い時間が必要 それを短い時間でできるような新しい方法を考えなきゃいけなかった、ということ つまり、たぶん、出版までの短い間に、そのとてつもないデータ処理をなんとかしなきゃいけなかった larger than anything then in the PDBの部分は その当時(then)< = when Mature accepted a molecuar map>、PDBに保存されているどれよりも(どのデータよりも)大きいものだった データが大きいから時間がかかる → 遅れちゃあかん(should not be too far behind) 最初とつながりましたよね

ligase
質問者

お礼

感動しました。本当に最後が最初に繋がってますね!! また(1)ではwhereの的確な訳のご指導ありがとうございます。 then はその当時という意味合いなんですね。いつもその後という言い方でどうして今の話をしてるのに事後のことを?と勝手に悩んでました。 いつもありがとうございます。

その他の回答 (2)

noname#212313
noname#212313
回答No.2

>(1)Behind every great discovery is a pile of data; but, crucially, it should not be too far behind. >偉大なる発見の裏には必ずデータの蓄積が伴うが、重要なことは裏付けがはるか遠くにあってはならないのだ。  いいと思います。一応、別訳例も。 「全ての偉大なる発見の背景には、それぞれ山のように積み重なったデータがあるのだが、大事なのは、それ(=データの山)があまりにも遠い背景であってはいけないということだ。」  発見(≒論文)の基礎となったデータがtoo far behind(遠く後ろに離れすぎ)ではいけないのですから、発見に関するデータがちゃんと参照できるようにすべし、ということでしょう。直接的には論文が使ったデータが、査読者や追試者の誰でもアクセスできることでしょう。もしかすると論文そのものもデータからかけ離れた解釈をしないといったことを含むかもしれません(それをチェックするにはデータのアクセス性のよさが必要、という点に立ち返って来る)。 >(2)So there was considerable worry at the database when Nature accepted a molecular map of HIV’s capsid protein shell last year (G. Zhao et al. Nature 497, 643–646; 2013). The multimillion-atom complex was larger than anything then in the PDB, and the database’s team had to devise a way to make the data dump available (and useful) at short notice. >そのため、ネイチャーが昨年HIVのカプシド骨格の分子マッピングを承認したとき、このデータベースに載せる県で考慮すべき懸念が生まれた。このカプシドタンパクの殻は数百万の分子複合体がPDBに登録されているもの以上に莫大なものであったため、データベースのチームはぎりぎりでデータダンプを行える方法を考案しなければならなかった。 「そのため、ネイチャー誌がHIVの外衣タンパク質であるカプシドの分子地図を受領した時(G. Zhaoら、 Nature 497号(2013年)、643–646ページ)、データベースにおいて憂慮すべき事態が起こった。その何百万もの原子よりなる集合体は、当時の蛋白質構造データバンク(PDB)にあったどんなものよりも(データとして)大きかったのである。そのため、データベース班はデータダンプ(=情報をハードディスクなどに記録したもの)をすぐさま利用可能に(そして有用に)するための方法を工夫しなければならなかった。」  PDBに登録されるのは生物のタンパク質についての、原子レベルの構造データです。構造をPDBでのゴーマットに従って記号的に記述したものでないといけないわけです。数百万個の原子の絡み合いが、どれほど膨大なデータであるかは察しがつきます。  画像データ(写真や模式図)などから、何がどうつながっているかを記号としてデータ化するのは容易ではないでしょう。それを当該論文の出版前に済ませないといけないわけです。非常に短期間であるわけですね。あるいは、論文執筆者が提出した独自フォーマットのデータを、PDB向けに変換するということであったかもしれません(これはこれで別の苦労が生じますが割愛)。  そういう、コンピュータ利用技術の問題を述べています。お考えの通り、hard dataは「確かなデータ」以外に、「扱うのに苦労するデータ」という二重の意味のタイトルであるのでしょう。

ligase
質問者

お礼

いつも素敵な訳のご指導誠にありがとうございます。 教科書のcellだとかに付属のDVDのタンパクのの立体構造だとかも読み込むのにパソコンがキュルキュルフル稼働していたのを思い出しました。それが数百万の分子量というのだからダウンロードアップロードの円滑さ同行ではなく純粋に「重すぎる」データなんだということが非常に理解できました。 いつもありがとうございます。

  • Oubli
  • ベストアンサー率31% (744/2384)
回答No.1

(1) 偉大な発見の後ろにはデータの蓄積があるが、重要なことはデータがあまりにも後にあってはいけないということだ 背景データと発見(結論)の間に大きな距離がある場合は、結論の妥当性が疑わしくなるということでしょうか。 (2) any protein in the PDB at that timeの意味だと思います。 data dumpは(タンパク構造の)データをダウンロードすること 分子量がいままでに登録されたタンパクよりもはるかに大きいので、従来のデータベース構造ではダウンロードがうまくできず、短期間にそれが可能な仕組みを構築しなければならなかった(そして構築できた)、ということでしょう。

ligase
質問者

お礼

ご教授ありがとうございます。 ダウンロードがサーバーとデーター量の関係で構築が難しいほどの分子量ということなのですね。 タンパクの大きさを言われてもぱっとこないのですが複雑なものほど三次元の画像は重たくなるイメージしかなかったので非常にわかりやすい訳のご指導で大変助かりました。 いつもありがとうございます。

関連するQ&A

  • 手厳しいデータ(つづき)

    (1)The PDB is actually hosted by several organizations that provide access to the same data trove, each funded independently. プロテインデータバンクは際に7つの機構から組織されており、ここではタンパクのデータが同じかどうかを確かめることができる。そしてこのバンクの維持はそれぞれの独立的な支援によるものである。 と訳しましたがいかがでしょうか。 (2)A database must change with the times, or face extinction. この前の文章がIn the 1970s, protein structures were consumed by a small community of X-ray crystallographers interested in the nitty-gritty of individual enzymes. Now scientists use a range of techniques to determine structures, and researchers of many stripes want to know how proteins behave in a larger context, such as in a malignant cancer cell. です。 データベースは時間に伴い変化を求められ、そして一方では消滅の危機にも直面している。 と訳しましたがいいのでしょうか。 悪性がん細胞はタイムスケールでタンパクの立体構造が違うことからデータに登録してもすぐにかわってしまうよといいたいのでしょうか。 (3)The closure of a database is not so awful — as long as its useful information remains available elsewhere. データベースの閉鎖はそれほどまで恐ろしいものではない。それはどこでもこのデータが利用可能であるのと同じだ。 データの閉塞的な集約は広く利用できることとまったくもって変わらないよという意味合いで考えましたがつまるところどういう意味をいっているのでしょうか。 ちょっと漠然過ぎて内容理解がぱっとできませんでした。誰もが利用できるのはある意味恐ろしいが局所的になりすぎるのもまた問題である。といことなのか 一応この文章の後の締めでは EBIによってデータベース競合が繰り広げられ、これらのデータもその争いの的となった。しかし、PDBの100147の登録されている立体構造と週に200の立体構造が登録され続けていく事実を少なくとも垣間見ればこのデータバンクを押しとどめることは出来ないように思える。 と書いてありました。 なので最後のところで余計わからなくなりました。 プロテインデータバンク自体もその競合の中に入っていて誰かが自分の手中にのみ収めたいと思っている人たちへの批判が込められているのでしょうか? 長くなりましたがご指導お願い申し上げます。

  • 同様に共有せよ(2)

    (1)data journals provide publication venues appealing to the traditionally minded; and standards are emerging for citing other people’s data sets (see Nature 500, 243–245; 2013). データ版のジャーナルは伝統的な精神を魅了する出版のスペースを提供する。そしてこの基準はほかの人間がデータを引用したときのために用いられるものだ。 と訳してみましたがいかがでしょうか。 (2)Harder to surmount are the feeling of data ownership and the fear of being ‘scooped’. Years of toil to collect a data set that might support a decade of career-making publications could be rendered moot when another researcher jumps on the information online. This is a particular problem for early-career researchers, and for those working with unique data sets in small ecology or environmental-science laboratories. (1)の文章に続く文です。 さらに困難な課題としてデータの所有権のあいまいさや”出し抜き”に対する恐怖などがある。 所有権が生じる出版物の十年間の支援をする可能性があるデータの構築のために求められる数年の労力は、別の研究者がオンラインの情報を移動させてしまった場合などを考える議論の余地がある。特に初期の研究者の権利決めの場合やそのデータが小規模な集団や環境的な科学研究室などにおいて類を見ないものである研究成果だったりする場合に問題となる。 と訳しました。言ってることが分かるようでわからないあいまいなままの訳になってしまいました。 (2)Behind this fear is the worry that other scientists will not provide credit for the data they use. Research administrators place such importance on paper authorship that it is probably not enough for a study that leans significantly on another researcher’s hard-won data set to merely cite that researcher, perhaps depriving them of a publication. この恐怖を背景に科学者たちが彼らが用いるデータの信頼性を提供し続けることが出来ないのではないかという懸念があるのだ。研究管理者は論文の著作者が誰であるかということの重要さなどに重きを置き、これはおそらく単に研究者がほかの研究者が為した偉業のデータを他人が単に使うということにおける著しく偏る研究のためには十分なものではない。おそらく、彼らから出版権を奪うこととなるだろう。 とぐだぐだな訳になってしまいました。かなり大事なことを述べているパートだと思うのでちゃんと理解したいです

  • mysqli_stmtエラーの修正方法がわからない

    以下のエラーがわかりません。 Warning: mysqli_stmt::bind_param(): Number of variables doesn't match number of parameters in prepared statement in C:\xampp\htdocs\job_site4\search_criteria.php on line 62 Warning: mysqli_stmt::bind_result(): Number of bind variables doesn't match number of fields in prepared statement in C:\xampp\htdocs\job_site4\search_criteria.php on line 68 Warning: printf(): Too few arguments in C:\xampp\htdocs\job_site4\search_criteria.php on line 73 というエラーになりました。 以下ソースです。 /* 変数定義関連 */ /* mysqliの定義 */ global $mysqli; $mysqli = new mysqli('localhost', 'root', "", "db"); //$link = mysqli_connect('localhost', 'root', "", "db"); /* 接続状況をチェックします */ if (mysqli_connect_errno()) { printf("Connect failed: %s\n", mysqli_connect_error()); exit(); } print("<BR>"); /* 現在のデフォルトデータベース名を返します */ if ($result = $mysqli->query("SELECT DATABASE()")) { $row = $result->fetch_row(); printf("Default database is %s.\n", $row[0]); $result->close(); } print("<BR>"); /* データベースを a_db に変更します */ $mysqli->select_db("a_db"); /* 現在のデフォルトデータベース名を返します */ if ($result = $mysqli->query("SELECT DATABASE()")) { $row = $result->fetch_row(); printf("Default database is %s.\n", $row[0]); $result->close(); } // データベースのdump echo "<pre>";var_dump($mysqli);echo "</pre>"; /* プリペアドステートメントを作成します */ $sql = " SELECT * FROM `test_table` WHERE 1 "; // バインドデータ設定 $key = 1; if($stmt = $mysqli->prepare($sql)) { /* マーカにパラメータをバインドします */ $stmt->bind_param("i",$key); // バインドする変数に設定して送る /* クエリを実行します */ $stmt->execute(); /* 結果変数をバインドします */ $stmt->bind_result($col1,$col2); // バインドする変数分設定 /* 値を取得します */ $stmt->fetch(); printf("%s : %s\n", $col1.$col2); /* ステートメントを閉じます */ $stmt->close(); } // 切断 $mysqli->close(); よろしくお願いします。

    • ベストアンサー
    • PHP
  • 「リレーショナルデータベース」と「データベース」

    「リレーショナルデータベース」と「データベース」は何が違うのでしょうか? accessはリレーショナルデータベースとの事ですが,普通のデータベースと何が違うのでしょうか? [データベースはこうだけど、リレーショナルデータベースはこうだよ!] って教えて頂ければ助かります。

  • データベースでないデータベースを利用したい

    Linux上でMySQL、PostgreSQL、SQLiteなどのデータベースが一切使えない サーバ上でデータベース(もどき)を利用したいです。 そのサーバはXMLファイル操作も出来ません。 現段階だとテキストベースにfopen()などでごりごり追加・修正・削除を行うクラスを作って 利用するくらいしか思いつきません。 どなたか良い方法があればご教示下さい。 因みにPEARも利用しない事を前提です。

    • 締切済み
    • PHP
  • どのデータベースが良いか教えてください。

    データベースをほとんど知らない初心者です。 現在、会社の受注・経理処理等を複数のエクセルファイルで行っていますが、 いろいろなファイルを参照しあっているので、年度毎のファイル作成や、 レイアウト変更、フォマット変更、シート追加などをすると作業が面倒になってきています。 そのため業務を簡素化するために、 データベースを利用して管理を行いたいと思っているのですが、 いったい何のデータベースを、また何から勉強すればいのかがわかりません。 そこで ・下記の条件に合うデータベース ・それを勉強するためにおすすめの書籍やサイト ・ブラウザを介する場合は、phpを使用したほうが良いのか?  それとも別の方法を使用したほうが良いのか? を教えて頂けますようにお願いします。 希望 ・Windowsベースのデスクトップに導入出来ること ・無償or低価で使用できること ・動作が安定していること ・処理スピードが早いこと ・フリーレイアウトで印刷できること (現在のエクセルのレイアウトと同様に印刷したいです。) ・ブラウザを介してデータベースを使用予定 他にどのような情報を提示しないといけないのかわからないので、 『このような情報が無いと回答出来ない』と言ったことが有りましたら、 教えて頂けると幸いです。 宜しくお願いします。

  • データベースを作りたいんですが…

    ・個人データをシート枚に分ける。 ・入力用のフォーム(別のシート)にデータを入力し、ボタンを押すと個人のシートに入力される。 ・入力データは、名前と数字or記号。 ・集計用のシートで全体の統計を採る。 エクセルで上記のような物を作りたいのですが、個人シートの最終行へデータを蓄積させる方法が解りません。(他も微妙ですが…) よろしくお願いします。

  • データベースについて

    データベースとは一体なんなのでしょうか? プログラミングの経験はあるのですが、 SQLなどのデータベースを利用したことがありません。 ファイルか何かなんでしょうか? どのような場面で使われるのでしょうか? どんなことに使うと便利ですか?

    • ベストアンサー
    • MySQL
  • データベースの選び方

    社内システムを構築しようとしています。 本格的な設計は初めてで、他に頼れる人もいないという心細い状況です。 ・月に二万件程度ずつレコードが追加される ・主に範囲を指定して検索したり、修正したりする ・LANで複数の人がアクセスする というような仕様で、データベースをアクセスにするかSQLサーバにするか、 迷っています。 開発環境はWin98SE+Office97、SQLサーバの場合はVB5.0です。 それぞれのメリット・デメリットを教えてください。 また、データベースを選ぶ際のポイント、 参考になるサイトなどありましたら、ぜひ教えてください。 よろしくお願いします。

  • 助けてください!!データベースになると思うのですが!

    VB6を使い、データベースを作らなければならなくなりました。  仕様は、ローカルのファイルサーバを使い20人ほどでデータを共有し使うというものです。プログラムは、商品名をコンボボックスに入れておき、選択すると在庫状況や金額がわかるようにしたいのが一つです。まだあるのですがとりあえずこれだけでも教えてください。  ちなみにデータベースは初心者です!!  参考ページとかでもいいので教えてください。お願いします。