• 締切済み

GB 18030-2005について

GB 18030-2005をいろいろ調べているのですが、情報が少なく、 分からないことがあり、教えてください。 Wikipediaでは、「GB18030-2005ではさらに1文字の割り当てが4バイト符号と入れ替えられた」 とあるので、UTF-32のようにすべて4バイト文字になったと思ったのですが、 Linuxのdebian6のgeditテキストエディタ(GB18030)確かめたら、 文字は1,2,4バイトでした。 以上、よろしくお願いします。

みんなの回答

  • ennalyt
  • ベストアンサー率29% (398/1331)
回答No.2

http://www.arphic.jp/news/epaper/AR%20News_CESI%20Certification.pdf こういうのがあって、読みまして、 人民共和国ではフォントががっちり制定されようとしてるんですね。 中文普通話に抵抗なければ、 あちらの仕様書にも目を通されてはいかがでしょうか。

  • ennalyt
  • ベストアンサー率29% (398/1331)
回答No.1

GB18030-2005とは何なのかの説明又は参照URLと、 何を訊きたいのかの明示をお願いしたいところではあります。

Tken38
質問者

お礼

4バイトのみは、私の読解力不足でした。

Tken38
質問者

補足

参照ページは以下です。 http://ja.wikipedia.org/wiki/GB_18030 知りたいことは、GB18030-2005のすべての文字が4バイトなのか? ASCII文字も4バイト? GB18030-2000は、UTF-8のようにASCII互換があり、1バイトだということは、 バイナリエディタで確認しました。

関連するQ&A

  • GB2312って文字コード?文字の集合体?

    http://ja.wikipedia.org/wiki/GB_2312 上記サイト(ウィキペディア)に 「GB2312-80は符号化文字集合(いわゆる文字コード)」と書いてあります。 しかし、「GB2312」自体は文字コードではなく、ただの文字集合と考えていいですよね? 「-80」がおしりにつくことによって文字コードという意味で使われる、という考え方でいいでしょうか? ちなみにGB18030というものもあり、これもこちらのウィキペディアのサイト(http://ja.wikipedia.org/wiki/GB_18030)に載っておりますが、これも「GB18030」自体は文字コードではなく文字の集合体という意味でとらえていいでしょうか? 会社で議論になりましたので・・・。よろしくお願いします。

  • テキストエディタで中国語&日本語

    テキストエディタで、中国語と日本語が混在しているファイルがどうしても文字化けしてしまいます。 UTF-8で開いても文字化けしたままです。 エディタのエンコードにはGB-2312やBIG5はあるのですが、 それを選択してもだめです。 なんとか文字化けせず開ける方法はないものでしょうか?

  • GB2312、BIG5でのテキスト出力

    ちょっと興味を持った内容なのですが…。 簡体字・繁体字テキストを開く場合は、(ツールにもよりますが)文字コードとして 掲題のものを指定して開けば問題無いかと思います。 またプログラミングでこれらのテキストを読み込む場合も、単に向こうのコードということを 念頭に置いて処理すれば同様に問題無いかと思います。 しかし、BIG5などをプログラムからテキスト出力させることは可能なのでしょうか? UNICODE系ならファイルの先頭に特定のコードを付与すれば良いようですが、 例えば「UTF8で書かれたテキストをGB2312にして出力」するには どのように設定すれば良いのでしょう?

  • 保存形式としてのUnicode、UTF-8

    「Unicode、UTF-8 違い」などでネットを検索すると Unicode・・・文字コード UTF-8・・・符号化方式 とのことで、同次元のものではないとのこと。 しかし、 さくらエディタ、TeraPadなどのテキストエディタの保存形式に Unicode、UTF-8などがあるのですが、この違いは何でしょうか? 前提として、iPhone/iPadにてテキストファイルを扱おうとすると Gmailの添付ファイル、Dropboxなどで文字化けする(デコードできない)ので どちらかの形式に統一しようと思ったのですが、 あとあと困るといやなので、正確に理解したいと思った次第です。 どうぞよろしくお願いします。

  • emacsでの文字化け

    お世話になります。 Linuxでemacsを使って日本語の文章の編集をしていたのですが、 あるときその文書を開いてみると突然文字化けしていました。 codingはどうもUTF8ぽいのですが、emacsで開くと文字化けして読むことができません。 geditやlessだとちゃんと読めますし、webブラウザでもちゃんと読めています(文字コードはUTF8で) どうやったらemacsで元通り読むことができるのでしょうか? linuxはFedoraCore6を使用しています。

  • 通常上書き出来ないconfファイル等の編集について

    私はwindowsからcentOSでlinuxを初めて一ヶ月くらいの初心者なのですが、 多分皆さんは、confファイル等の編集はviエディタを使って居らっしゃると 思うのですが、初心者の私にはどうにも使いづらくて、geditなどを使って その場をしのいでいたのですが、上書きが出来ないファイル(confファイル等) はviエディタくらいしか上書きしてくれなくて、やりづらいです。 ネットで調べたのですが、やはりviは鬼門だが慣れろ的な事が書いてあり、 やはり、上書きできるテキストエディタはviエディタくらいしかないのでしょうか。 非常に使いづらいです(汗)

  • 文字コードEUC-JPは、文字集合なのか符号化方式なのか?

    文字コードEUC-JPは、文字集合なのか符号化方式なのか? 文字コードの文字集合・符号化方式についてWikipediaをみて 勉強をしていたのですが、途中で分からなくなりました。 とりあえず、文字集合・符号化方式それぞれの具体例を把握することにより まずはイメージをつかもうとしていました。 文字コード - Wikipedia http://ja.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89 「2(符号化)文字集合、文字符号化方式」の内容についてです。 以下の部分を読んだところ # 日本語には JIS X 0208 というひとつの文字集合に対して # ISO-2022-JP (JIS コード等と呼ばれることが多い)、EUC-JP、 # Shift_JIS など複数の符号化方式が存在する。 以下だと解釈しました。 →文字集合 :JIS X 0208 →符号化方式:ISO-2022-JP(JISコード)、EUC-JP、Shift_JIS 一方以下の部分を読んだところ # また、それぞれ異なる文字集合を同じ符号化方式とする関係もあり、 # 例えば符号化方式 EUC に対して EUC-JP、EUC-KR、GB2312 (EUC-CN) # などがある。 以下だと解釈しました…。 →文字集合 :EUC-JP、EUC-KR、GB2312 (EUC-CN) →符号化方式:EUC で、「EUC-JP」が文字集合なのか符号化方式なのか 分からなくなってしまいました。Wikipediaの記述が間違っているのか、 「EUC-JP」は文字集合でもあり符号化方式でもあるのか分かりません。 「EUC-JP」が文字集合なのでしょうか? それとも符号化方式なのでしょうか? その両方であるのでしょうか? Wikipediaの記述が間違っているのでしょうか? この辺について教えてください。よろしくお願いします。

  • UTF-8での保存について

     エディットボックスに入力してある日本語の文字列をUTF-8やUTF-8Nでテキストファイルに保存したのですがうまくいきません。  UTF-8の場合はファイルの先頭に3バイトのBOMをつければいいらしいので、 ファイルの先頭に0xEF,0xBB,0xBFの3バイトを追加してテキストファイルに保存しましたがメモ帳で開くと文字化けします(メモ帳で開くときは文字コードをUTF-8にして開いてます)。 作成したテキストファイルをバイナリエディタで開いてみると先頭の3バイトはEFBBBFとなっているので何も問題はないと思うのですが、どうして文字化けするファイルができてしまうのでしょうか? --- 実行環境 --- Microsoft Visual C++ 2010 Express WIN32 ユニコードビルド C言語

  • ウィンドウズでlinuxのテキストを作成するには?

    linuxでjavaプログラムを作った。で、このファイルはテキストファイルを読んで動くことになる。このときGNOMEテキストエディタで作ったファイルなら問題ないがウィンドウズのメモ帳でUTF-8で保存しても動きがおかしくなる。ウィンドウズでGNOMEテキストエディタが作成するものとまったく同じものを作りたいがどうしたらいいですか?

  • テキストエディターの文字化け

    素人の者です。 これまで、PHPのプログラムの書き込みをSJISで行ってきましたが、どうもネット上を調べているうちにSJISはあまり使わないほうが良いようなことが書いてあったので、UTF-8で書くことにしようと思いました。そして、UTF-8で書いていてWEB上は特に問題なく文字化けもせず表示されるのですが、テキストエディターで再度ファイルを開くと、テキストエディター内で文字化けしていることがあります。メモ帳で開くときはファイルの文字コートをUTF-8に指定すれば文字化けしません。サクラエディターで開けば、何もしなくても文字化けしません。php_editor_stdで開けば、文字化けします。ez-HTMLで開けば、文字化けします。???とこんな具合です。テキストエディターを開くときにエンコードを指定して開けば、文字化けはしないであろうと考えて、設定の部分を色々と探していじってみても、文字化けの現象は変わりません。SJISですと、ダメ文字とかあるのでやはり切り替えていったほうが良いと思い試している最中です。テキストエディターで文字化けした場合、どのようにすれば解消するのかお分かりになる方がおりました教えていただけないでしょうか。よろしくお願いいたします。

    • ベストアンサー
    • PHP