ユニコードのサロゲートペア文字の内部コードについて

2023/10/14 14:20

このQ&Aのポイント

ユニコードのサロゲートペア文字の内部コードについて調査しています。
Windows Vista以降では、JIS2004対応の文字コードとなり、ユニコード文字の中にカスケードペアの文字が存在することがわかっています。
カスケードペアは2バイトずつ4バイトで1文字を表現し、リトルエンディアンの場合にはどのような順番になるのか疑問です。

ベストアンサー

ユニコードのサロゲートペア文字の内部コードについて

2007/04/27 12:15

　Windows Vista　から、文字コードがＪＩＳ２００４対応となり、ユニコード文字の中に、カスケードペアの文字が存在すると聞き及んでいますが、当方は、まだ　ＸＰ　のままで、また、ＪＩＳ２００４対応のＭＳフォントもインストールしておりません。　１点お教えください。　カスケードペアは、ｘＤ８００～ｘＤＢＦＦ　及び、ｘＤＣ００～ｘＤＦＦＦ　の２バイトずつ、４バイトで１文字を表現するそうですが、たとえば、ユニコードｘ２０００Ｂ（丈の右上に犬のように点が付いた文字）の場合、計算すると、ｘＤ８４０　＋　ｘＤＣ０Ｂ　であらわせるようですが、リトルエンディアンでは、　　ｘ４０Ｄ８０ＢＤＣ　となるのでしょうか。　　それとも、　　ｘ０ＢＤＣ４０Ｄ８　となるのでしょうか。上段になるような気がするのですが、根拠がはっきりしません。　宜しくお願い致します。

kttn
お礼率86% (19/22)

Windows系OS
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

tabide
ベストアンサー率44% (148/331)

2007/04/27 12:58 回答No.1

リトルエンディアンということは、UTF-16LE形式（Windowsでの内部形式はこれ）ですね。実際にテキストエディタ上で入力して保存、バイナリエディタで開けて確認しました。 UTF-16LE: 40 D8 0B DC 参考までに、主な他の形式も掲げます。 UTF-16BE: D8 40 DC 0B UTF-8: F0 A0 80 8B

質問者

補足 2007/04/27 13:12

　tabide様　早速の回答ありがとうございます。　ＵＴＦ－１６ＬＥを前提としておりました。　２バイトずつのエンディアンということですね。シフトＪＩＳで、１バイトずつで、漢字／ＡＮＫを識別していたわけですから、ユニコードでは、２バイトずつで、サロゲートペアかどうかを識別するので、当然、２バイトとなるのでしょうね。　ありがとうございました。

関連するQ&A

WindowsのUNICODEをJavaのStringに変換したい
Windowsからソケット通信でUNICODE(little endian)文字列を受け取っています。 bufferはバイト配列で格納されているとして String text= new String(buffer);とか String text= = new String(buffer,"MS932");とか String text= new String(buffer,0,長さ,"UNICODE"); などとするのですが漢字コードが化けてしまいます。エンディアン並びを逆にしたりしましたがやはり同じです。半角の場合、例えば「abc」なら「 a b c」と 0x0の部分がスペースになっていました。ところでWindowsがメモ帳などではき出すunicodeはjavaのunicodeとは違うと聞きましたがどうなんでしょうか? 宜しくお願いします。 ※バイト配列をそのまま返すとそれをWindowsクライアントは表示するので通信部分でバイト配列が壊れている事は考えにくいです。
- ベストアンサー
- Java
メモ帳で保存した日本語テキストや日本語XMLをJavaで読込、保存。メモ帳での保存文字コードはなにが推奨されるでしょうか？
　Windows9x系ではないWindowsVistaやXP、NT、2000のメモ帳(Unicodeのbig endianは保存できるがおそらくUnicodeのbig endianでのBOMなし保存不可。UTF-8は保存できるがUTF-8でのBOMなし(UTF-8N)の保存不可。Unicodeのlittle endianは保存できるが仕様なので言うまでもないがUnicodeのlittle endianでのBOMなし保存不可。)で保存した日本語テキストや日本語XMLをJavaで読込、保存。メモ帳での保存文字コードはなにが推奨されるでしょうか？やはりJavaのString型に近いUnicode big endianがよいのでしょうか？それともJava側で自動認識してくれるのでしょうか？ XMLの場合は1行目でそのXMLファイルが使用している文字コードが何か宣言しますよね。でもテキストファイルだと文字コードを宣言する場所がないみたいですし・・・(ここでの文字コードを宣言する場所としてはBOMは例外ですよ　念のため) 補足:メモ帳だとUnicode big endianで保存すると必ずBOMが付くみたいです。メモ帳はLF改行が使えません。CR+LF改行のみ対応です。
- ベストアンサー
- Java
文字コード結果が違うのはなぜでしょうか？
文字コード結果が違うのはなぜでしょうか？いつも参考にさせていただいております。ありがとうございます。 VBAにて、文字コード(16進表記)を取得したいのですが、１．hex(ascw("あ")) ２．Dim ByteData() As Byte 　ByteData = "あ" Debug.Print Hex(ByteData(0)) & Hex(ByteData(1)) の２通り行っているのですが、結果が違いました。１．3042 ２．4230 となってしまいます。 UNICODEのリトルエンディアン・ビックエンディアンの違いなのかとも思いましたが、上記はどちらもVBAで行っているため、式によって扱いが違うとも考えられません。この違いはなぜなのでしょうか？ご教授よろしくお願いいたします。
- ベストアンサー
- Visual Basic
Unicode
先日は文字コードについて色々助言してくださりありがとうございました。おかげさまでJIS,EUC,SJISの変換はできましたが、 Unicodeについて詰まっているところがあります。 SJIS→UnicodeはSJISにあったU+XXXXに変換し、それを1～4バイトにさらに変換して文字表記されることで出来ます。後者の1～4バイトにさらに変換するやり方は出来ているのですが、前者のSJISにあったU+XXXXに変換するところで詰まっています。 ##SJIS Unicode Name Note 0x00 U+0000 # <control> 0x01 U+0001 # <control> 0x02 U+0002 # <control> 0x03 U+0003 # <control> 0x04 U+0004 # <control> 0x05 U+0005 # <control> 0x06 U+0006 # <control> 0x07 U+0007 # <control> ：：こういった変換表(テキストファイル)があるのですが、どのようにしたらこのファイルをプログラム上で操作？できるのでしょうか？例）SJISで0x07→U+0007→1～4バイト変換の 0x07→U+0007部分についてです。また、逆に変換する際の0x07←U+0007についてもわからないでいます。何かヒントをください。
- 締切済み
- C・C++・C#
文字コード体系について
WINDOWS９５の文字コードはシフトＪＩＳのみに対応していたと思うのですが、このときアメリカなど海外で販売されていた WIN９５の文字コードは何だったのかご存じありませんか？ WINDOWSｘｐの文字コードはシフトＪＩＳと、unicode対応してると思うのですが、海外で販売されている物は unicodeのみに対応してるのでしょうか。それとも他に特殊な文字コード体系を持っているのでしょうか。
- ベストアンサー
- Windows系OS
Unicodeで編集できるテキストエディタってありますか？
これまで「Unicode対応」を謳ったエディタの多くは「Unicodeテキストの読み書きが出来る」エディタに過ぎませんでした。つまりファイルを読み込むときにUnicode→シフトJISに変換し、編集はシフトJIS環境で行う……という。保存も同様でシフトJIS→Unicode変換したのち保存します。これだと確かにUnicodeテキストの読み書きは出来ますが、 Unicode最大に特徴であるJIS外文字のが入っているとシフトJIS変換時に「？」になってしまいます。編集もUnicode環境で行えて、Unicodeフォントを指定してやればJIS外文字も表示できる、そんなフリーエディタってありませんか？最近の「秀丸」で出来るようになったのは知ってるんですが……
- ベストアンサー
- フリーウェア・フリーソフト
サロゲートペアとは？
　サロゲートペアは4ケタの16進数を2個、つまり16進数8文字でユニコードの第1面以降のコードポイントを指定するはずなのに IMEパッドで出てくるコードポイントは「𠀋」ならU+2000Bというように5文字。マウスポインタをあてると「D840 DC0B」と出る。この5文字から8文字への変換は、 1番左の桁を"2"から"1"にする。これをXとする。 (2)Xを0x400で割ってその商を0xD800に足す。これを「上位サロゲート」とする。 (3)Xを0x400で割ってその剰余を0xDC00に足す。これを「下位サロゲート」とする。と、ウェブに書いてありました。しかし、5文字の1番左は必ず「5」なんでしょうか？
- ベストアンサー
- その他([技術者向] コンピューター)
文字について　ＵＮＩＣＯＤＥ
全くの初心者で恐縮です。ＷＥＢ環境で、画面入力した漢字をOracleDBに更新する。または、その逆を実施しようとしています。が、問題がありまして、端末で使用している文字が独自文字（２バイト系UNICODE準拠）なのです。端末はWINXPです。OS内ではS-JISですよね。そこで、画面の入出力やDB更新時に文字化けや強制変換が発生するか不安なのですが。 JAVAは、独自文字でも大丈夫なのでしょうか。とてもアバウトな質問ですみません。もしかしたらJAVAだけの話では無いのでしょうか。どなたか、そこら辺も含めて教えていただけますでしょうか。宜しくお願いします。
- ベストアンサー
- Java
visual studio2010 文字コード
visual studio2010を使っています。Cのプログラムを書いてます。文字セットを選ぶ箇所で・マルチバイト文字セットを使用する・Unicode文字セットを使用するという２つの選択肢がありますが、上を選ぶとshift-jisの文字コードが選ばれると認識してます。それで、下のUnicode文字セットを使用するを選んだ場合なんですが、これはutf-16のことですか？ utf-8が主流だと思っていたのでここでさすUnicodeが勝手に utf-8のことだと思ってたんですが、 visual studioで扱っている方はワイド文字で、 utf-8について調べたらASCIIにも対応できる可変長のマルチバイトという風に書いてあったので、あれ？と思い色々調べたらウィンドウズではメモ帳などでUnicodeという表記でutf-16を指すみたいなのでこれも同じでutf-16なのかなと思いました。ただ、visual studioで扱うUnicodeはワイド文字ということと、 utf-16は２バイト固定ではなく２バイト単位なだけで４バイトで１文字を表すこともあることが書いてあったので、これはワイド文字とは違う？？と混乱してます。それともワイド文字は２バイト固定と思ってたんですが wchar_tが２バイトずつなだけでワイド文字は１文字２バイトというわけではないということでしょうか？それとwchar_tで２個分で１文字を表したりする使い方はするんでしょうか？まとまりのない質問になってしまいましたがよろしくおねがいします。
- ベストアンサー
- その他([技術者向] コンピューター)
文字コードの利点・欠点について
おはようございます。文字コードには、大きく分けて４種類・JISコード・S-JIS ・EUC ・Unicode がありますが、それぞれの利点・欠点を教えていただけますでしょうか。あと、EUCはなぜ制御文字を使って、１バイト仮名や補助漢字の文字コードを割り当てているのかも教えてください。よろしくお願いします。
- 締切済み
- オープンソース開発