締切済み

GB 18030-2005について

2012/07/08 15:03

GB 18030-2005をいろいろ調べているのですが、情報が少なく、分からないことがあり、教えてください。 Wikipediaでは、「GB18030-2005ではさらに1文字の割り当てが4バイト符号と入れ替えられた」とあるので、UTF-32のようにすべて4バイト文字になったと思ったのですが、 Linuxのdebian6のgeditテキストエディタ（GB18030）確かめたら、文字は１，２，４バイトでした。以上、よろしくお願いします。

Tken38
お礼率50% (1/2)

その他([技術者向] コンピューター)
回答数2
ありがとう数1

みんなの回答 （2）
専門家の回答

みんなの回答

ennalyt
ベストアンサー率29% (398/1331)

2012/07/10 00:17 回答No.2

http://www.arphic.jp/news/epaper/AR%20News_CESI%20Certification.pdf こういうのがあって、読みまして、人民共和国ではフォントががっちり制定されようとしてるんですね。中文普通話に抵抗なければ、あちらの仕様書にも目を通されてはいかがでしょうか。

ennalyt
ベストアンサー率29% (398/1331)

2012/07/08 20:44 回答No.1

GB18030-2005とは何なのかの説明又は参照URLと、何を訊きたいのかの明示をお願いしたいところではあります。

質問者

お礼 2012/07/09 23:11

4バイトのみは、私の読解力不足でした。

質問者

補足 2012/07/09 02:12

参照ページは以下です。 http://ja.wikipedia.org/wiki/GB_18030 知りたいことは、GB18030-2005のすべての文字が4バイトなのか？ ASCII文字も4バイト？ GB18030-2000は、UTF-8のようにASCII互換があり、1バイトだということは、バイナリエディタで確認しました。

関連するQ&A

GB2312って文字コード？文字の集合体？
http://ja.wikipedia.org/wiki/GB_2312 上記サイト（ウィキペディア）に「GB2312-80は符号化文字集合（いわゆる文字コード）」と書いてあります。しかし、「GB2312」自体は文字コードではなく、ただの文字集合と考えていいですよね？「-80」がおしりにつくことによって文字コードという意味で使われる、という考え方でいいでしょうか？ちなみにGB18030というものもあり、これもこちらのウィキペディアのサイト（http://ja.wikipedia.org/wiki/GB_18030）に載っておりますが、これも「GB18030」自体は文字コードではなく文字の集合体という意味でとらえていいでしょうか？会社で議論になりましたので・・・。よろしくお願いします。
- ベストアンサー
- その他([技術者向] コンピューター)
テキストエディタで中国語＆日本語
テキストエディタで、中国語と日本語が混在しているファイルがどうしても文字化けしてしまいます。 UTF-8で開いても文字化けしたままです。エディタのエンコードにはGB-2312やBIG5はあるのですが、それを選択してもだめです。なんとか文字化けせず開ける方法はないものでしょうか？
- 締切済み
- オフィス系ソフト
ＧＢ２３１２、ＢＩＧ５でのテキスト出力
ちょっと興味を持った内容なのですが…。簡体字・繁体字テキストを開く場合は、（ツールにもよりますが）文字コードとして掲題のものを指定して開けば問題無いかと思います。またプログラミングでこれらのテキストを読み込む場合も、単に向こうのコードということを念頭に置いて処理すれば同様に問題無いかと思います。しかし、ＢＩＧ５などをプログラムからテキスト出力させることは可能なのでしょうか？ＵＮＩＣＯＤＥ系ならファイルの先頭に特定のコードを付与すれば良いようですが、例えば「ＵＴＦ８で書かれたテキストをＧＢ２３１２にして出力」するにはどのように設定すれば良いのでしょう？
- 締切済み
- その他（プログラミング・開発）
保存形式としてのUnicode、UTF-8
「Unicode、UTF-8 違い」などでネットを検索すると Unicode・・・文字コード UTF-8・・・符号化方式とのことで、同次元のものではないとのこと。しかし、さくらエディタ、TeraPadなどのテキストエディタの保存形式に Unicode、UTF-8などがあるのですが、この違いは何でしょうか？前提として、iPhone/iPadにてテキストファイルを扱おうとすると Gmailの添付ファイル、Dropboxなどで文字化けする（デコードできない）のでどちらかの形式に統一しようと思ったのですが、あとあと困るといやなので、正確に理解したいと思った次第です。どうぞよろしくお願いします。
- ベストアンサー
- その他(ソフトウェア)
emacsでの文字化け
お世話になります。 Linuxでemacsを使って日本語の文章の編集をしていたのですが、あるときその文書を開いてみると突然文字化けしていました。 codingはどうもUTF8ぽいのですが、emacsで開くと文字化けして読むことができません。 geditやlessだとちゃんと読めますし、webブラウザでもちゃんと読めています（文字コードはUTF8で）どうやったらemacsで元通り読むことができるのでしょうか？ linuxはFedoraCore6を使用しています。
- ベストアンサー
- Linux系OS
通常上書き出来ないconfファイル等の編集について
私はwindowsからcentOSでlinuxを初めて一ヶ月くらいの初心者なのですが、多分皆さんは、confファイル等の編集はviエディタを使って居らっしゃると思うのですが、初心者の私にはどうにも使いづらくて、geditなどを使ってその場をしのいでいたのですが、上書きが出来ないファイル（confファイル等）はviエディタくらいしか上書きしてくれなくて、やりづらいです。ネットで調べたのですが、やはりviは鬼門だが慣れろ的な事が書いてあり、やはり、上書きできるテキストエディタはviエディタくらいしかないのでしょうか。非常に使いづらいです（汗）
- ベストアンサー
- Linux系OS
文字コードEUC-JPは、文字集合なのか符号化方式なのか？
文字コードEUC-JPは、文字集合なのか符号化方式なのか？文字コードの文字集合・符号化方式についてWikipediaをみて勉強をしていたのですが、途中で分からなくなりました。とりあえず、文字集合・符号化方式それぞれの具体例を把握することによりまずはイメージをつかもうとしていました。文字コード - Wikipedia http://ja.wikipedia.org/wiki/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89 「2（符号化）文字集合、文字符号化方式」の内容についてです。以下の部分を読んだところ # 日本語には JIS X 0208 というひとつの文字集合に対して # ISO-2022-JP （JIS コード等と呼ばれることが多い）、EUC-JP、 # Shift_JIS など複数の符号化方式が存在する。以下だと解釈しました。 →文字集合　：JIS X 0208 →符号化方式：ISO-2022-JP（JISコード）、EUC-JP、Shift_JIS 一方以下の部分を読んだところ # また、それぞれ異なる文字集合を同じ符号化方式とする関係もあり、 # 例えば符号化方式 EUC に対して EUC-JP、EUC-KR、GB2312 (EUC-CN) # などがある。以下だと解釈しました…。 →文字集合　：EUC-JP、EUC-KR、GB2312 (EUC-CN) →符号化方式：EUC で、「EUC-JP」が文字集合なのか符号化方式なのか分からなくなってしまいました。Wikipediaの記述が間違っているのか、「EUC-JP」は文字集合でもあり符号化方式でもあるのか分かりません。「EUC-JP」が文字集合なのでしょうか？それとも符号化方式なのでしょうか？その両方であるのでしょうか？ Wikipediaの記述が間違っているのでしょうか？この辺について教えてください。よろしくお願いします。
- ベストアンサー
- その他([技術者向] コンピューター)
UTF-8での保存について
　エディットボックスに入力してある日本語の文字列をUTF-8やUTF-8Nでテキストファイルに保存したのですがうまくいきません。　UTF-8の場合はファイルの先頭に３バイトのBOMをつければいいらしいので、ファイルの先頭に0xEF,0xBB,0xBFの３バイトを追加してテキストファイルに保存しましたがメモ帳で開くと文字化けします（メモ帳で開くときは文字コードをUTF-8にして開いてます)。作成したテキストファイルをバイナリエディタで開いてみると先頭の３バイトはEFBBBFとなっているので何も問題はないと思うのですが、どうして文字化けするファイルができてしまうのでしょうか？ --- 実行環境 --- Microsoft Visual C++ 2010 Express WIN32 ユニコードビルド C言語
- ベストアンサー
- C・C++・C#
ウィンドウズでlinuxのテキストを作成するには？
linuxでjavaプログラムを作った。で、このファイルはテキストファイルを読んで動くことになる。このときGNOMEテキストエディタで作ったファイルなら問題ないがウィンドウズのメモ帳でUTF-8で保存しても動きがおかしくなる。ウィンドウズでGNOMEテキストエディタが作成するものとまったく同じものを作りたいがどうしたらいいですか？
- ベストアンサー
- Linux系OS
テキストエディターの文字化け
素人の者です。これまで、ＰＨＰのプログラムの書き込みをＳＪＩＳで行ってきましたが、どうもネット上を調べているうちにＳＪＩＳはあまり使わないほうが良いようなことが書いてあったので、ＵＴＦ－８で書くことにしようと思いました。そして、ＵＴＦ－８で書いていてＷＥＢ上は特に問題なく文字化けもせず表示されるのですが、テキストエディターで再度ファイルを開くと、テキストエディター内で文字化けしていることがあります。メモ帳で開くときはファイルの文字コートをＵＴＦ－８に指定すれば文字化けしません。サクラエディターで開けば、何もしなくても文字化けしません。php_editor_stdで開けば、文字化けします。ez-HTMLで開けば、文字化けします。？？？とこんな具合です。テキストエディターを開くときにエンコードを指定して開けば、文字化けはしないであろうと考えて、設定の部分を色々と探していじってみても、文字化けの現象は変わりません。ＳＪＩＳですと、ダメ文字とかあるのでやはり切り替えていったほうが良いと思い試している最中です。テキストエディターで文字化けした場合、どのようにすれば解消するのかお分かりになる方がおりました教えていただけないでしょうか。よろしくお願いいたします。
- ベストアンサー
- PHP

GB 18030-2005について

みんなの回答

お礼 2012/07/09 23:11

補足 2012/07/09 02:12

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

GB 18030-2005について

みんなの回答

お礼 2012/07/09 23:11

補足 2012/07/09 02:12

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録