ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：Stringオブジェクトの文字コードの変換）

Stringオブジェクトの文字コードの変換について

2009/08/16 12:12

このQ&Aのポイント

Stringオブジェクトの文字コードの変換に関して、iso-8859-1での変換後に日本語部分が3Fになる現象が起きています。
UTF-8への変換を試みてもうまくいかず、内部のコードをUTF-8にすることができません。
また、ファイルへの出力においても、Shift_JISでの文字コード変換が行われており、Unicodeの内部処理形式で出力されない理由がわかりません。

Stringオブジェクトの文字コードの変換

NewString = new String(b.getBytes("iso-8859-1"),"Shift_JIS"); でShift-Jisに変換できるとありましたが、どうも出力の日本語部分が3Fになってしまってうまくいきません。テスト用に以下のコードを作ってみました。 import java.io.File; import java.io.FileWriter; import java.io.BufferedWriter; import java.io.IOException; import java.io.FileOutputStream; public class Test { public static void main(String[] args) { try{ String regex_title; regex_title = "制限をしている場合"; System.out.println(getHexString(regex_title.getBytes())); System.out.println(getHexString(regex_title.getBytes("iso-8859-1"))); regex_title = "制限をしている場合"; regex_title = getUTF8(regex_title); System.out.println(getHexString(regex_title.getBytes())); System.out.println(getHexString(regex_title.getBytes("iso-8859-1"))); regex_title = "制限をしている場合"; regex_title = getShiftJIS(regex_title); System.out.println(getHexString(regex_title.getBytes())); System.out.println(getHexString(regex_title.getBytes("iso-8859-1"))); FileOutputStream fs = new FileOutputStream("./test.txt"); fs.write(regex_title.getBytes()); fs.close(); }catch(Exception ex){ } } public static String getHexString(byte[] b){ String buff=""; try{ for(int i=0;i<b.length;i++) buff += String.format("\\x%02x", b[i]); }catch(Exception ex){ } return buff; } public static String getUTF8(String b){ try { //UTF-8へ変換 return new String(b.getBytes(), "UTF-8"); } catch (Exception e) { e.printStackTrace(); return b; } } public static String getShiftJIS(String b){ try { //UTF-8へ変換 return new String(b.getBytes(),"Shift_JIS"); } catch (Exception e) { e.printStackTrace(); return b; } } // @Override } //////////////////////////////////////////////////////////// 1. System.out.println(getHexString(regex_title.getBytes("iso-8859-1"))); の部分の出力をみると3Fに変換されています。 regex_title.getBytes("iso-8859-1")の時点で3Fな事がわかります。何故でしょうか？私がやりたい事はStringの内部のコードをUTF8にする事です。 NewString = new String(b.getBytes("iso-8859-1"),"UTF-8"); では、出来ていないようでした。 2. また、以下のコードを実行するとtest.txt test2.txtともに文字コードがShiftJisで出力されるのはなぜでしょうか？変換を行わなければ内部処理形式のUnicodeで出力されるのではないのでしょうか？ regex_title = "制限をしている場合"; FileOutputStream fs = new FileOutputStream("./test.txt"); fs.write(regex_title.getBytes()); fs.close(); File file = new File("./test2.txt"); BufferedWriter bw = new BufferedWriter(new FileWriter(file)); bw.write(regex_title); bw.close(); 上はgetBytes()が変換してるのでしょうか？下はBufferedWriterかFileWriterが変換してる？ではString内部のByteをそのまま出力するにはどうしたら・・・。

JavaJavax2
お礼率97% (45/46)

Java
回答数1
ありがとう数6

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

salsberry
ベストアンサー率69% (495/711)

2009/08/16 19:30 回答No.1

> NewString = new String(b.getBytes("iso-8859-1"),"Shift_JIS"); > でShift-Jisに変換できるとありましたが、この時点で既に前提が間違っています。 > regex_title.getBytes("iso-8859-1")の時点で3Fな事がわかります。 > 何故でしょうか？ regex_titleはString型 (内部コードはUnicode) で、それをgetBytes()メソッドによってiso-8859-1のbyte配列に変換しています。iso-8859-1は西欧の文字コードなので、漢字やひらがなを表せません。getBytes()は、変換先の文字コードで表せない文字を見つけた場合はクエスチョンマーク (0x3F) に変換します。すなわち、getBytes()の引数に"iso-8859-1"を指定していること自体が誤りです。 > 私がやりたい事はStringの内部のコードをUTF8にする事です。 JavaのStringオブジェクトの内部コードはUnicodeと仕様で決まっているので、UTF8やShift_JISにすることはできません。 StringオブジェクトからUTF8やShift_JISのbyte配列を作ることは、getBytes()でできます。 > 上はgetBytes()が変換してるのでしょうか？ getBytes()を引数なしで呼ぶと、デフォルトの文字コードを引数に指定したのと同じ意味になります。日本語版Windowsであれば、デフォルト文字コードとしてはMS932 (Shift_JISの拡張版) が使われるはずです。他のOSや、他の言語環境ではまた違う文字コードが使われるでしょう。 > ではString内部のByteをそのまま出力するにはどうしたら・・・。 Stringの内部にあるのはchar型 (16進数で4桁) の配列であって、byte型 (16進数で2桁) の内部データは存在しません。char型のまま16進数で出力するなら、こんな感じ。 String str = "123ABC漢字"; int len = str.length(); for (int i = 0; i < len; i++) { char c = str.charAt(i); System.out.println(Integer.toString((int)c, 16)); } StringをUTF8のbyte配列に変換してから出力するならこうなります。 try { String str = "123ABC漢字"; byte[] b = str.getBytes("UTF8"); int len = b.length; for (int i = 0; i < len; i++) { System.out.println(Integer.toString(b[i] & 0xFF, 16)); } } catch (java.io.UnsupportedEncodingException e) { e.printStackTrace(); }

質問者

お礼 2009/08/16 22:04

大変詳しいご説明ですごくよく分かりました。おかげさまでやりたかった事ができました。感謝いたします。お手間のかかる回答本当にありがとうございました。！

Stringオブジェクトの文字コードの変換について

Stringオブジェクトの文字コードの変換

質問者が選んだベストアンサー

お礼 2009/08/16 22:04

関連するQ&A

String または byte[]を16進に変換するには

Java・ファイルへの書き込み

Javaの文字コード変換方法

文字化けします。

UNICODEへの文字コード変換

JISコード変換について

文字コードを変換する

オブジェクトのシリアル化について

文字化けをなおしたいです。

String <=> byte配列の際のエンコード

BufferedWriter(OutPutStream).write(String)で追記がしたい

文字コード

byte[]→String変換後の文字列が違うのはなぜ？

オブジェクトの参照渡しについて

日本語が文字コードによってはエンコード出来ない？

Javaのカウント方法について

HttpのResponseが文字化け

ファイルよりの文字列の取り込み(Properties)

クラスの継承について

[java]String型に格納されたunicodeの表示方法

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

Stringオブジェクトの文字コードの変換について

Stringオブジェクトの文字コードの変換

質問者が選んだベストアンサー

お礼 2009/08/16 22:04

関連するQ&A

String または byte[]を16進に変換するには

Java・ファイルへの書き込み

Javaの文字コード変換方法

文字化けします。

UNICODEへの文字コード変換

JISコード変換について

文字コードを変換する

オブジェクトのシリアル化について

文字化けをなおしたいです。

String <=> byte配列 の際のエンコード

BufferedWriter(OutPutStream).write(String)で追記がしたい

文字コード

byte[]→String変換後の文字列が違うのはなぜ？

オブジェクトの参照渡しについて

日本語が文字コードによってはエンコード出来ない？

Javaのカウント方法について

HttpのResponseが文字化け

ファイルよりの文字列の取り込み(Properties)

クラスの継承について

[java]String型に格納されたunicodeの表示方法

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

String <=> byte配列の際のエンコード

カテゴリ
一覧

専門家に質問してみよう
専門家登録