GB2312とGB18030についての疑問

このQ&Aのポイント
  • GB2312は文字コードではなく、文字の集合体と考えられます。
  • GB2312-80は文字コードとして使われることがあります。
  • GB18030も文字コードではなく、文字の集合体としてとらえられます。
回答を見る
  • ベストアンサー

GB2312って文字コード?文字の集合体?

http://ja.wikipedia.org/wiki/GB_2312 上記サイト(ウィキペディア)に 「GB2312-80は符号化文字集合(いわゆる文字コード)」と書いてあります。 しかし、「GB2312」自体は文字コードではなく、ただの文字集合と考えていいですよね? 「-80」がおしりにつくことによって文字コードという意味で使われる、という考え方でいいでしょうか? ちなみにGB18030というものもあり、これもこちらのウィキペディアのサイト(http://ja.wikipedia.org/wiki/GB_18030)に載っておりますが、これも「GB18030」自体は文字コードではなく文字の集合体という意味でとらえていいでしょうか? 会社で議論になりましたので・・・。よろしくお願いします。

noname#179333
noname#179333

質問者が選んだベストアンサー

  • ベストアンサー
  • Lchan0211
  • ベストアンサー率64% (239/371)
回答No.3

No.2です。お礼の内容の確認ですが、 > GB2312:文字コードは一意にEUC-CNとなる。よってGB2312という言葉はEUC-CNの代わりに用いられており、文字コードという意味で使われているのが実際。 「文字コードは一意にEUC-CNとなる」 →「文字コードはEUC-CNを使用する場合がほとんどである(HZ-GB-2312やISO-2022-CNという、 他の符号化方式もあるが、ほとんど使われていない)」 というのが私の認識です。 「文字コードという意味で使われているのが実際。」 →「文字集合/文字コードの両方の意味で区別されず使われているのが実際。」 > GB18030:IANAにも文字コードとして登録されている。よって文字コードとして使ってよい。 「よって文字コードとして使ってよい。」 →「よって文字集合/文字コードの両方の意味で区別せず使ってよい。」 > つまり、GB2312もGB18030もどちらも今日ではUNICODEなどと同様に、文字コードという意味として使われている。また、使ってもよい。 「文字コードという意味として使われている。」 →「文字集合/文字コードの両方の意味で区別せず使ってよい。」 「UNICODEなどと同様に」 →「UNICODE」は、狭義の意味では文字コード標準化団体(Unicode Conortium)が 提唱した文字集合の規格だと思います。ただ、その文字集合の符号化方式を表した 複数の文字コード(UTF-8やUTF-16等)の集合の意味で使われる場合もあると思います。 まとめると、 -------------------------------------------------------- GB2312もGB18030は、文字集合/文字コード両方の意味で区別されずに使用される。 たいていは区別しなくても困らない。どちらかに限定した意味として使用したい場合は、 文章でそれを補足しないと誤解される。(補足する時は「文字コードの意味です」と 言っても伝わらない。みんな文字集合と文字コードをあまり区別しないので。 「文字集合の符号化方式の意味です」と言えば、かろうじて伝わるかもしれない。) Unicodeは、本来文字集合の意味であるが、複数の文字コード(UTF-8,UTF-16等)の集合の 意味で使われる場合もある。明確に文字コードを表したい場合は、「UTF-8」や「UTF-16」と 表現する必要がある。 -------------------------------------------------------- というのが私の認識です。

noname#179333
質問者

お礼

回答ありがとうございます。 申し訳ございません、最後に一点だけ確認させてください。 「GB2312もGB18030もどちらも本来は文字の集合体という意味であるが、    今日では文字集合/文字コードの両方の意味で区別せず使ってよい」 上記の認識で間違いないでしょうか?

その他の回答 (2)

  • Lchan0211
  • ベストアンサー率64% (239/371)
回答No.2

「文字コード」が、文字集合の符号化方式を表したものを意味しているのであれば、 本来GB2312は文字集合の規格であり、文字集合の符号化方式はEUC-CNなのだと思います。 ただ、質問のwikiページ(http://ja.wikipedia.org/wiki/GB_2312 )にも書かれているように、 今日ではGB2312の符号化方式としては、もっぱらEUC-CNのみが使われるため、単にGB2312 といっただけでEUC-CNを意味している場合が多いということです。 つまり、GB2312は、EUC-CNの別名として文字コードの意味でも用いられるということです。 http://www.iana.org/assignments/character-sets を参照するとわかりますが、文字コードとしてEUC-JPとかEUC-KRという名前は登録されて いますが、EUC-CNは登録されていません。替わりにGB2312という名前が文字コード名として 登録されています。 GB18030は、質問のwikiページ(http://ja.wikipedia.org/wiki/GB_18030 )を 読む限り、追加の文字集合を定義した上で、その符号化方式も一緒に規定した ものであり、(文字集合+符号化方式)=文字コードであると言ってよいと思います。 IANAにも文字コード名とて登録されています。 中国の文字コードは、日本の文字コードのように、一つの文字集合(JIS X0208)を 複数の符号化方式(EUC-JP,SJIS,ISO-2022-JP)で表すようなことがあまりないため、 文字集合も文字コードも同じような意味で区別せず使われていると思います。

noname#179333
質問者

お礼

まとめると・・・・ GB2312:文字コードは一意にEUC-CNとなる。よってGB2312という言葉はEUC-CNの代わりに用いられており、文字コードという意味で使われているのが実際。 GB18030:IANAにも文字コードとして登録されている。よって文字コードとして使ってよい。 つまり、GB2312もGB18030もどちらも今日ではUNICODEなどと同様に、文字コードという意味として使われている。また、使ってもよい。 上記で認識に間違いはないでしょうか? ------------------------------------------ ●補足● IANAとは:インターネット上で利用されるアドレス資源(IPアドレス、ドメイン名、 プロトコル番号など)の標準化や割り当てを行っていた組織。

  • kokorone
  • ベストアンサー率38% (417/1093)
回答No.1

文字の集合体 と、 文字コード の違いは何?  JISコード、アスキーコード、GBと、含まれる文字種別は異なります。それは、言語圏の違いで、ひとつの集合体では網羅できないからです。 そう言う視点から見ると文字の集合体です。 一方、一昔前の活字印刷のように、活字を目でみながら1文字1文字探して、文章にしていた頃はまさに、集合体という表現でしたが、昨今のコンピュータ化により、上記の様々な集合体をコードに置き換えて、コンピュータ処理するようになり、そこで 必要になったのが1文字1文字に対応したコードなのです。 文字の集合体が異なれば、同じ文字でもコードが異なります。 いかがでしょうか?

noname#179333
質問者

お礼

回答ありがとうございます。 というと、GBもつまりは文字の見え方、ではなく記号として表現できる集合体という理解でよろしいでしょうか?つまりはアスキーコードなどと同じものという考え方でいいのでしょうか?

関連するQ&A

  • 文字コードEUC-JPは、文字集合なのか符号化方式なのか?

    文字コードEUC-JPは、文字集合なのか符号化方式なのか? 文字コードの文字集合・符号化方式についてWikipediaをみて 勉強をしていたのですが、途中で分からなくなりました。 とりあえず、文字集合・符号化方式それぞれの具体例を把握することにより まずはイメージをつかもうとしていました。 文字コード - Wikipedia http://ja.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89 「2(符号化)文字集合、文字符号化方式」の内容についてです。 以下の部分を読んだところ # 日本語には JIS X 0208 というひとつの文字集合に対して # ISO-2022-JP (JIS コード等と呼ばれることが多い)、EUC-JP、 # Shift_JIS など複数の符号化方式が存在する。 以下だと解釈しました。 →文字集合 :JIS X 0208 →符号化方式:ISO-2022-JP(JISコード)、EUC-JP、Shift_JIS 一方以下の部分を読んだところ # また、それぞれ異なる文字集合を同じ符号化方式とする関係もあり、 # 例えば符号化方式 EUC に対して EUC-JP、EUC-KR、GB2312 (EUC-CN) # などがある。 以下だと解釈しました…。 →文字集合 :EUC-JP、EUC-KR、GB2312 (EUC-CN) →符号化方式:EUC で、「EUC-JP」が文字集合なのか符号化方式なのか 分からなくなってしまいました。Wikipediaの記述が間違っているのか、 「EUC-JP」は文字集合でもあり符号化方式でもあるのか分かりません。 「EUC-JP」が文字集合なのでしょうか? それとも符号化方式なのでしょうか? その両方であるのでしょうか? Wikipediaの記述が間違っているのでしょうか? この辺について教えてください。よろしくお願いします。

  • GB2312とGB18030についての質問です。

    「GB2312もGB18030もどちらも本来は文字集合という意味であるが、    今日では文字集合/文字コードの両方の意味で区別せず使ってよい」 上記の認識で間違いないでしょうか?よろしくお願いします。

  • 日本語URLと文字コード。名称を教えてください。

    例えばブラウザのURL欄に入力した http://ja.wikipedia.org/wiki/日本語 という文字列は、IE以外では、それをテキストエディタなどにコピペすると http://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E となりますが、この「%(16進数)」の文字コードの名称を教えていただけないでしょうか。 よろしくお願いします。

  • GB 18030-2005について

    GB 18030-2005をいろいろ調べているのですが、情報が少なく、 分からないことがあり、教えてください。 Wikipediaでは、「GB18030-2005ではさらに1文字の割り当てが4バイト符号と入れ替えられた」 とあるので、UTF-32のようにすべて4バイト文字になったと思ったのですが、 Linuxのdebian6のgeditテキストエディタ(GB18030)確かめたら、 文字は1,2,4バイトでした。 以上、よろしくお願いします。

  • CSVファイルの改行コードについて。

    http://ja.wikipedia.org/wiki/Comma-Separated_Values http://www110.kir.jp/study/jissen/script3075.html http://ja.wikipedia.org/wiki/%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB http://ja.wikipedia.org/wiki/%E6%94%B9%E8%A1%8C%E3%82%B3%E3%83%BC%E3%83%89 上記のウェブページ群を拝見しましても、 「CSVファイルの改行コード」の読み方が分かりませんでしたので、 業務で困っておりますから、改行コードの値の具体例を教えて頂けませんでしょうか?

  • 実数全体集合を断りなしに「R」で表しても問題ない?

    実数全体集合はR 自然数全体集合はN で表せる、とWikipediaに書いてありました。 http://ja.wikipedia.org/wiki/%E9%9B%86%E5%90%88 では、大学入試の数学の答案で、何の断りも無しに、 xが自然数であることを「x∈N」と書いても問題ないでしょうか? また、そうだとしたら、Nは普通の大文字の「N」ではなく、 左の縦棒を2本にした、少し変わった「N」じゃないといけないのでしょうか?

  • 解析学:開集合についてです。

    解析学:連続写像の部分集合の話です。 ・実数R^nで作られた開集合の任意の個数の和集合は開集合になります。 ・開集合を有限個集めたときの共通部分も開集合となります。 ・しかし,開集合を無限個集めた時の共通部分は,必ずしも開集合になるとはかぎらないようなのですが,そのような例とはどのようなものなのでしょうか。 反例を提示していただけるかたいらっしゃいましたらよろしくお願いします。 http://ja.wikipedia.org/wiki/開集合 の性質(2)です。

  • UTF-8のコード表について

    UTF-8のコード表の中に「Ͱ」、「ͱ」、「Ͳ」、「ͳ」といったように行列式のような文字がたくさんあるのですが、これらの用途は何でしょうか? どうやら文字コードの16進数を示している所まではわかるのですが・・・ わざわざ入れなくとも不使用、未使用にしてしまえばいいのにと感じます。 現在、 http://ja.wikipedia.org/wiki/UTF-8%E3%82%B3%E3%83%BC%E3%83%89%E4%B8%80%E8%A6%A7_0000-0FFF を参照しています。 回答よろしくお願いします。

  • 日本語の文字列のみをURLエンコードする

    ある文字列の中から日本語の部分だけをURLエンコードしたいのですが、どのようにすれば良いのでしょうか。 例えば「http://ja.wikipedia.org/wiki/ウィキペディア」から「http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87%E3%82%A3%E3%82%A2」という形にURLエンコードする、という事です。 よろしくお願いいたします。

    • ベストアンサー
    • PHP
  • サイトの文字が読めない

    http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%90%E3%83%BC%E3%82%B9%E3%83%A2%E3%83%BC%E3%82%B2%E3%83%83%E3%82%B8 上記のサイトを観覧したいのですが私のPCで見ると文字が読み取りにくいです。 どのような設定をすれば見れるようになりますでしょうか?