ベストアンサー

UTF8からUnicode(コードポイント)へ変換

2013/07/27 18:53

UTF-8の文字コードをUnicode（コードポイント）へ変換させたいのですが、参考URLの情報のように計算式を知りたいです。例えば下の「あ」は、16進では「E38182」、10進では「14909826」ですが、どちらかの値を利用してUnicodeのポイントコード「12354」を計算式を用いて求めたいです。「あ」 Unicode = 12354 16進 = E38182 10進 = 14909826 参考 http://questionbox.jp.msn.com/qa500194.html

mrs646
お礼率75% (3/4)

その他（プログラミング・開発）
回答数2
ありがとう数2

みんなの回答 （2）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

kmee
ベストアンサー率55% (1857/3366)

2013/07/27 20:36 回答No.2

どこまでを「通常」と言っていいのでしょうか? いわゆる四則演算で求めるのは「割り算。小数以下切り捨て」「割り算の余り」が必要になります。 0xE3 ÷ 0x10 = 0xE 余り 0x03 → この余りが図中の4bit yyyy に相当 → これが15～12位に収まるので 0x03 * 2^12 0x81 ÷ 0x40 = 0x2 余り 0x01 → この余りが図中の6bit yxxxxx に相当 → これが11～6位に収まるので 0x02 * 2^6 0x82 ÷ 0x40 = 0x2 余り 0x02 → この余りが図中の6bit xxxxxx に相当 → これが5～0位に収まるので 0x01 * 2^0 全部合計したものが、Unicodeポイントまた、値によって場合分けが必要です。バイト長が一定では無いからです。参考URLにあるものは、Unicodeを10進で表記したか、16進で表記したかの違いなので、単純な式で書けるだけです。

質問者

お礼 2013/07/27 21:37

3バイト文字はkmeeさんの計算式どおり出来ました。 1. 0xE3 ÷ 0x10 = 0xE 余り 0x03 * 2^12 ---> 12288 2. 0x81 ÷ 0x40 = 0x2 余り 0x01 * 2^6 ---> 64 3. 0x82 ÷ 0x40 = 0x2 余り 0x02 ---> 2 12288 + 64 + 2 = 12354 2バイト文字は、2.3.を求めることで出すことができました。大変ありがとうございました。

その他の回答 (1)

kmee
ベストアンサー率55% (1857/3366)

2013/07/27 19:15 回答No.1

http://ja.wikipedia.org/wiki/UTF-8 E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。全部まとめて10進数にしても、結局8ビット毎に分けて計算する必要があるので無意味。

質問者

補足 2013/07/27 19:35

>E38182 ではなく、 E3,81,82と、1バイト目、2バイト目... と考えた方がいいと思う。はい。その考え方で通常の足し算や掛け算の計算式でUnicodeのコードポイントを割り出すことはできますでしょうか？

UTF8からUnicode(コードポイント)へ変換

質問者が選んだベストアンサー

お礼 2013/07/27 21:37

その他の回答 (1)

補足 2013/07/27 19:35

関連するQ&A

UTF-8とASCIIコードにおける互換性について

文字コードを相互変換するには？(JIS,SJIS,EUC,UTF-8,UTF-16,Unicode)

UTF-8とUnicodeの互換性

UTF-8で5～6バイトになる文字コード

HTMLユニコード？の変換

ワードの特殊文字【シーベルト】のユニコード変換

CIDコードからUNICODEへの変換？？？

文字コード変換の場合わけ。

UNICODEとは何なんですか

RubyでUTF8のコード値を文字に変換する方法

シフトＪＩＳをｕｎｉｃｏｄｅへ（逆）変換したい

保存形式としてのUnicode、UTF-8

UTF-8とUTF-16およびUTF-32について

UTF7について

UTF-8とUTF-16について質問です。

GmailでUnicode(UTF-8)をフィルタするには

文字コードの変換

UTF-8から1文字ずつ変換するには？

ＳＪＩＳ⇔ＵＴＦ-8の文字コード変換

Unicode文字エンコード（ASCIIまたはUTF-8）をEUCに変換する方法

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

UTF8からUnicode(コードポイント)へ変換

質問者が選んだベストアンサー

お礼 2013/07/27 21:37

その他の回答 (1)

補足 2013/07/27 19:35

関連するQ&A

UTF-8とASCIIコードにおける互換性について

文字コードを相互変換するには？(JIS,SJIS,EUC,UTF-8,UTF-16,Unicode)

UTF-8とUnicodeの互換性

UTF-8で5～6バイトになる文字コード

HTMLユニコード？の変換

ワードの特殊文字【シーベルト】のユニコード変換

CIDコードからUNICODEへの変換？？？

文字コード変換の場合わけ。

UNICODEとは何なんですか

RubyでUTF8のコード値を文字に変換する方法

シフトＪＩＳをｕｎｉｃｏｄｅへ（逆）変換したい

保存形式としてのUnicode、UTF-8

UTF-8とUTF-16およびUTF-32について

UTF7について

UTF-8とUTF-16について質問です。

GmailでUnicode(UTF-8)をフィルタするには

文字コードの変換

UTF-8から1文字ずつ変換するには？

ＳＪＩＳ⇔ＵＴＦ-8の文字コード変換

Unicode文字エンコード（ASCIIまたはUTF-8）をEUCに変換する方法

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録