- ベストアンサー
UTF8からUnicode(コードポイント)へ変換
UTF-8の文字コードをUnicode(コードポイント)へ変換させたいのですが、参考URLの情報のように計算式を知りたいです 。 例えば下の「あ」は、16進では「E38182」、10進では「14909826」ですが、どちらかの値を利用してUnicodeのポイントコード「12354」を計算式を用いて求めたいです。 「あ」 Unicode = 12354 16進 = E38182 10進 = 14909826 参考 http://questionbox.jp.msn.com/qa500194.html
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
どこまでを「通常」と言っていいのでしょうか? いわゆる四則演算で求めるのは 「割り算。小数以下切り捨て」 「割り算の余り」 が必要になります。 0xE3 ÷ 0x10 = 0xE 余り 0x03 → この余りが 図中の4bit yyyy に相当 → これが15~12位に収まるので 0x03 * 2^12 0x81 ÷ 0x40 = 0x2 余り 0x01 → この余りが 図中の6bit yxxxxx に相当 → これが11~6位に収まるので 0x02 * 2^6 0x82 ÷ 0x40 = 0x2 余り 0x02 → この余りが 図中の6bit xxxxxx に相当 → これが5~0位に収まるので 0x01 * 2^0 全部合計したものが、Unicodeポイント また、値によって場合分けが必要です。 バイト長が一定では無いからです。 参考URLにあるものは、Unicodeを10進で表記したか、16進で表記したかの違いなので、単純な式で書けるだけです。
その他の回答 (1)
- kmee
- ベストアンサー率55% (1857/3366)
http://ja.wikipedia.org/wiki/UTF-8 E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。 全部まとめて10進数にしても、結局8ビット毎に分けて計算する必要があるので無意味。
補足
>E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。 はい。 その考え方で通常の足し算や掛け算の計算式でUnicodeのコードポイントを割り出すことはできますでしょうか?
お礼
3バイト文字はkmeeさんの計算式どおり出来ました。 1. 0xE3 ÷ 0x10 = 0xE 余り 0x03 * 2^12 ---> 12288 2. 0x81 ÷ 0x40 = 0x2 余り 0x01 * 2^6 ---> 64 3. 0x82 ÷ 0x40 = 0x2 余り 0x02 ---> 2 12288 + 64 + 2 = 12354 2バイト文字は、2.3.を求めることで出すことができました。 大変ありがとうございました。