• 締切済み

UTF8コードで1バイトの文字が2バイトで表現されているのですが・・・・?

UTF8コードで1バイトの文字が2バイトで表現されているのですが・・・・? とタイトルの通りデータに    UTF-8のデータを扱っていて  16進表記で『0xC341』と  データが入ってきました。 0xC3…11000011  0x41…01000001 UTF-8の仕様で2バイト目の文字は先頭ビットが 10 から始まる仕様となっていると思いますが  2バイト目の先頭ビットが 0 の場合はUTF-8コードが  壊れていると判定してもいいんですか?    それとも、2バイトの先頭ビットが0の場合  次のバイトを1バイト文字とし変換してあげて  0x41 → A として変換するなどといった  特殊な仕様が隠れていたりするのでしょうか?    今のところ壊れていると判断しているのですが、  UTF-8ではないコードだったりする可能性もあるかな?  っと思い質問いたしました。  少し不安だったので、しっていましたら、教えてください。                          以上   検索ワード UTF-8 2バイト目 1バイト文字

みんなの回答

  • necomimi
  • ベストアンサー率41% (633/1540)
回答No.1
sakurasiba
質問者

お礼

回答ありがとうございました。 返事が遅れてしまって申し訳ありません 質問内容なのですが、UTF8コード以外にも違うコードが入っていたみたいでうまくいってませんでした。 また、参考URL読ませてもらいました大変参考になりました。

関連するQ&A

専門家に質問してみよう