締切済み

UTF-8(日本語)の自動判別

2009/05/04 09:50

VC++6.0で日本語(漢字)を処理するプログラムを作成しています。以下のサイトを参考にして、下記 KanjiCode()関数にUTF-8の判別条件を入れたいのですが、判別のアルゴリズムとcodeの書き方がよくわかりません。参考になるサイトか、アドバイスがあればよろしくお願いします。出典: http://www-cms.phys.s.u-tokyo.ac.jp/~naoki/CIPINTRO/CCGI/kanjicod.html -------------------------------------------------------------------- #define ASCII 0x00 #define EUC 0x01 #define SJIS 0x02 #define JIS 0x04 #define UTF8 0x05 #define JAPANESE 0xff //---- 半角カナの存在を無視した漢字コードの判定関数 int KanjiCode( char* text ) { for( u_char* ptr=(u_char*)text; *ptr; ptr++ ){ if( *ptr == 0x1b && *(ptr+1) == '$' ) return JIS; if( *ptr < 0x80 ) continue; if( 0x81 <= *ptr && *ptr <= 0x9F ) return SJIS; if( 0xA1 <= *ptr && *ptr <= 0xDF ) return EUC; if( *(ptr+1) <= 0xA0 ) return SJIS; if( /* ここにutf-8 の判別条件を入れたい */ ) return UTF8; } return ASCII; } -------------------------------------------------------------------- UTF-8の自動判別が出来れば文字コード変換は、WindowsであればMultiByteToWideChar/WideCharToMultiByteでなんとかなると考えています。よろしくお願いします。

kahata
お礼率39% (66/168)

C・C++・C#
回答数1
ありがとう数2

みんなの回答 （1）
専門家の回答

みんなの回答

php504
ベストアンサー率42% (926/2160)

2009/05/04 12:41 回答No.1

http://ja.wikipedia.org/wiki/UTF-8 を参考にして考えてみました if( (*ptr & 0xE0) == 0xC0 && (*(ptr + 1) & 0xC0) == 0x80 || (*ptr & 0xF0) == 0xE0 && (*(ptr + 1) & 0xC0) == 0x80 && (*(ptr + 2) & 0xC0) == 0x80 || (*ptr & 0xF8) == 0xF0 && (*(ptr + 1) & 0xC0) == 0x80 && (*(ptr + 2) & 0xC0) == 0x80 && (*(ptr + 3) & 0xC0) == 0x80 || (*ptr & 0xFC) == 0xF8 && (*(ptr + 1) & 0xC0) == 0x80 && (*(ptr + 2) & 0xC0) == 0x80 && (*(ptr + 3) & 0xC0) == 0x80 && (*(ptr + 4) & 0xC0) == 0x80 || (*ptr & 0xFE) == 0xFC && (*(ptr + 1) & 0xC0) == 0x80 && (*(ptr + 2) & 0xC0) == 0x80 && (*(ptr + 3) & 0xC0) == 0x80 && (*(ptr + 4) & 0xC0) == 0x80 && (*(ptr + 5) & 0xC0) == 0x80 ) return UTF8; 判定はEUCよりも先にしないとだめでしょう

質問者

お礼 2009/05/06 08:00

ありがとうございました。お陰さまでできました。難しいアルゴリズムを解読して頂いて感謝します。

UTF-8(日本語)の自動判別

みんなの回答

お礼 2009/05/06 08:00

関連するQ&A

文字コードの違うデータを判別したい

日本語だけを抽出したい

文字コード(UTF-8)文字化けについて

文字コードの判別について

Ruby 文字コード判別

コード変換について

文字コードってUTF-8が主流に？

文字コード変換

文字コードsjisをUTF8に書き換えたい

JavaScriptが文字化けする

TeraPadの文字コード

文字化け（Shift-jis→UTF-8変換）で困ってます。

utf-8コードの指定

文字コード判別・変換について（JIS⇒UTF-8）

携帯の文字化け

EUCからSJISに上手く変換できない

Shift-JISからUTF-8への変換が出来ません

visual c++の文字コード判別

VC++でUTF-8のファイルを出力したい

確実に文字コードを自動判別させる方法ありますか？

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

UTF-8(日本語)の自動判別

みんなの回答

お礼 2009/05/06 08:00

関連するQ&A

文字コードの違うデータを判別したい

日本語だけを抽出したい

文字コード(UTF-8)文字化けについて

文字コードの判別について

Ruby 文字コード判別

コード変換について

文字コードってUTF-8が主流に？

文字コード変換

文字コードsjisをUTF8に書き換えたい

JavaScriptが文字化けする

TeraPadの文字コード

文字化け（Shift-jis→UTF-8変換）で困ってます。

utf-8コードの指定

文字コード判別・変換について（JIS⇒UTF-8）

携帯の文字化け

EUCからSJISに上手く変換できない

Shift-JISからUTF-8への変換が出来ません

visual c++の文字コード判別

VC++でUTF-8のファイルを出力したい

確実に文字コードを自動判別させる方法ありますか？

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録