String <=> byte配列の際のエンコード（続）

2023/07/26 14:46

ranxの回答

ranx
ベストアンサー率24% (357/1463)

2002/03/25 12:31 回答No.2

SJISは文字を1～2バイトのコードで表します。したがって、UnicodeのString 型に変換すると、コードに応じて1バイトが1文字になったり2バイトが1文字になったりします。一方8859-1は常に1文字を1バイトで表しますから、String型に変換しても、そのバイト数に応じた文字数になります。したがって、 byte[] b = "あいうえお".getBytes("SJIS"); のbは10バイトで5文字を表すコードになります。ところが、 String str1 = new String(b, "8859_1"); とした場合のstr1は、元の"あいうえお"ではなく、10文字の文字列となります。 String str2 = new String(str1.getBytes("8859_1"), "SJIS"); では10バイトのコードを介してもとの"あいうえお"を復元していることになります。例えばSJISの"あ"が8859-1では別の2文字を表し、それをSJISに戻すとまた"あ"になる・・・ということだと思うのですが、実際のところ、私が参照したコード表では、 SJISで表された"あいうえお"にはISO-8859-1には定義されていないコードが含まれることになっていますので、上記の変換ができたのは、たまたま現在の実装がそうなっていただけのことかもしれません。いずれにせよ、一つのエンコーディングで処理されたバイト列をそのまま他のエンコーディングで解釈するというのは、かなり危険なものと言え、できれば避けるべきだと思います。

質問者

お礼 2002/03/25 13:23

回答ありがとうございます。さっきの質問補足で書いたコードでは省きましたが、 str1 の内容も、もちろん出力して確認はしていました。大部分が、「？」だったので、それが、ranxさんのおっしゃっている定義されていないコードなのだと思います。回答を読ませてもらいましたが疑問はまだ消えません。もしString型が内部でUnicodeを間にかませてしまうと、『 ???￠?????¨ 』という8859-1エンコードの文字列(str1)が Unicodeに変換された時点でバイトデータは破壊されてしまうと思うんです。8859-1でないエンコードを使った場合、先のコードと同様の変換ができないというのも腑に落ちません。コンストラクタ　String(byte[] bytes, String encode) がバイト列を指定のエンコードでエンコーディングされたものとして理解するだけなら、指定エンコードの種類を問わず、先のコードは必ず元の文字列を復元できるはずです。内部でUnicodeに変換されたらもちろんバイトデータは破壊されますが、8859_1 の場合、実際の動作を見る限りそれがあてはまりません。先のコードで正しい変換ができたのは、決して"たまたま"ではないと思います。なぜなら、質問中にふれたサーブレットのコードも、Propertiesクラス利用の際も同様の処理を行っているからです。でも危険なものであるという点は私も同じ意見です。実際、質問No,235091 のような文字化けの問題などがあるわけですから。 (このNo,235091 の質問の意味が最近やっとわかりました。)

質問者

補足 2002/03/25 13:34

一部訂正します。文字化けの問題はないです。あれは、Propertiesクラスがわざわざ内部でエスケープ処理をしてくれているのが裏目にでてるだけのようです。

この回答がついた質問に戻る

回答全件

ベストアンサー

Unicodeと8859-1の対応表を見つけることができました。参…

- ranx
2002/03/26 09:24

ご免なさい。参考URLを忘れていました。

- ranx
2002/03/26 09:41

> では、request.getParameter("test") の…

- ranx
2002/03/25 10:07

関連するQ&A

困ってます。
文字化けについて分からない事があります。環境は RedHatLinux7.2, Postgresql7.1, Tomcat3.2.4, JDK1.4.0 です。 HTMLフォームで入力されたパラメータをサーブレットで受け取り、そのパラメータをＤＢのテーブルにＳＱＬのINSERT文でデータを追加する際に日本語の部分(例：氏名)が文字化けしてしまいます。文字化けの防止策として、 (1)String KANJINAME = new String(request.getParameter("KANJINAME").getBytes("8859_1"), "JISAutoDetect"); (2)String KANJINAME = new String(request.getParameter("KANJINAME").getBytes("8859_1"), "EUC-JP"); としても、文字化けしてしまいました。今までサーブレット、ＪＳＰ等で上記の(1)、(2)のような方法で文字化けを防いできたのですが、今回のようにＤＢのテーブルにInsert文で日本語を含んだデータを追加しようとすると文字化けしてしまいました。これはコーディングの問題なのでしょうか？それともTomcat,Linux,Postgresqlに何らかの設定等が必要なのでしょうか？もし何か分かることがありましたら、ご教授お願い致します。
- 締切済み
- Java
JBuilderの文字化け
JBuilderでサーブレットでパラメータを渡す際に日本語が文字化けしてしまいます。 Enumeration enum=request.getParameterNames(); while(enum.hasMoreElements()){ String key=(String)enum.nextElement(); String value=new String(request.getParameter(key).getBytes("8859_1"),"JISAutoDetect"); out.println(value); } ソースは上記のようになっていますが日本語を表示できません。直す方法がわかる方どうかよろしくお願いします。
- 締切済み
- Java
文字コード
少し、聞かせてください。今、WEBアプリケーションを作っています。 HTMLからのリクエスト文字を受け取りServletで処理を考えています。そこで、 String para = request.getParameter(para); String param = new String(para.getBytes("8859_1","JISAutoDetect"); で、8859_1,Shift_JIS,EUC-JP,ISO-2022-JP の Unicode 変換することができるのは、分かりました。では、この HTML からのリクエスト文字が、どのタイプの文字コードでかかれているかを検出できるのでしょうか？自分では、バイト列をつかさどる方法が浮かぶのですが・・・。ＨＰでもかまいませんので、教えてください。
- ベストアンサー
- Java
サーブレットでデータベース操作。
サーブレットを使ってMySQL内のテーブルにレコードを追加、変更、削除できるようなプログラムを作っています。流れとしましては『HTML画面→サーブレット起動→レコード追加、変更、削除』といった具合です。追加、変更ができてなぜか削除だけできません。SQL文を書き換えるだけのはずなのですが・・。どなたか教えて下さい。windows2000Professional, j2sdk1.4.0_01, Tomcat3.3.1,MySQL3.23.47 略 . . Connection con = null; Statement stmt = null; try { con = DriverManager.getConnection( "jdbc:mysql://localhost/db_ichat", "root", "pen3"); stmt = con.createStatement(); String seqno = request.getParameter("seqno"); String name = request.getParameter("name"); String namejp = new String(name.getBytes("8859_1"), "JISAutoDetect"); String psw = request.getParameter("psw"); String pswjp = new String(psw.getBytes("8859_1"), "JISAutoDetect"); String email = request.getParameter("email"); StringBuffer buf = new StringBuffer(); buf.append("delete from t_id "); buf.append("where seqno = "); buf.append(seqno); stmt.executeUpdate(buf.toString()); try { stmt.close(); } catch (Exception e) {} try { con.close(); } catch (Exception e) {} . . 略。
- ベストアンサー
- Java
テキストBOXから取得した文字コードの扱いについて
JSPで記述したページのテキストBOXに入力されたSJIS形式の日本語文字データをサーブレットに送信してそれを取得して、文字のエンコードを行う際に気がついたのですが String text = request.getParameter("text"); byte[] bytes =text.getBytes("ISO8859_1"); text=new String(bytes, "SJIS"); のようにすればサーブレットで扱う時に正しく日本語表示できるのですが String text = request.getParameter("text"); byte[] bytes =text.getBytes("SJIS"); text=new String(bytes, "SJIS"); とすると正しく表示されません。 text.getBytes("SJIS");で取得格納されるbyteのデータに違いがあるようです。この場合取得されるbyteの配列は３つになっています。 ISO8859_1で取得するとbyte配列は２つになっています。このISO8859_1のbyte配列のデータと同じ中身のものを単にString(byteデータ,文字コード)のコンストラクタに入れるとSJISの文字コードで正しく変換出来ています。要するにもともとSJISの文字データをgetByte("SJIS")で変換したものがなんで、もとに戻せないのかということです。また、違う文字コードのISO8859_1ではSJISに対応したbyteの配列になるのかということです。ひどい乱文ですみませんが、よろしくお願いします。
- 締切済み
- Java
困ってます
HTMLファイルのフォームのパラメータをサーブレットに引渡し、サーブレット内で、ファイルに出力（ＣＳＶ形式）したいのですが、日本語が含まれていると文字化けしてしまいます。文字化け防止の為に下記のようなコードを書いているのですが、うまくいきませんでした。(フォームの"name"というパラメータをサーブレットに渡します。) ----------------------------------------------------- （サーブレットのファイルより一部抜粋） //変数＆定数の宣言 private static final String csvFile = "/home/csvFile.csv"; String name; FileWriter fw = new FileWriter(csvFile); PrintWriter pw = new PrintWriter(fw); //☆文字化け防止コード name = request.getParameter("name"); name = new String(name.getBytes("8859_1"),"SJIS"); //ファイルに出力 pw.print(name + ","); pw.close(); ----------------------------------------------------- 上記のようなコードの書き方だと駄目でしょうか？ちなみに"SJIS"を"euc-jp"、"JisAutoDetect"に変えてもうまくいきませんでした。実行方法は (1)．windowsでサーブレットをコンパイルし、 (2)．(1)で出来たクラスファイルをLinuxに転送し、 (3)．Linux上でTomcatの再起動をして実行しています。もし何か分かることがありましたらご教授お願い致します。
- 締切済み
- Java
バイト配列 unicode
java初心者です。以下のソースコードの「new String(strVal.getBytes("ISO-8859-1"),"JISAutoDetect」の部分の意味が分からなくこまっています。 <%@ page import="java.io.*" %> <%! public String strEncode(String strVal) throws UnsupportedEncodeingExcception{ if(strVal==null){ return null; }else{ return new String(strVal.getBytes("ISO-8859-1"),"JISAutoDetect")); } } %> そもそも「バイト配列とは何か」「なんで必要なのか？」など、わかりやすく説明していただけると幸いです。
- ベストアンサー
- Java
文字エンコードについて
文字エンコードについてなのですが、コンピュータでは文字１つ１つに何バイトかの値が割り振られていて、それを翻訳的なことをして表示していることがわかりました。で、エンコードによって同じ文字でも内部の値が異なっているということもわかりました。そこで質問なのですが、私はPHPを勉強しています。それで文字列のエンコードを変更する関数があるのですが、それで文字列をUnicodeに変更したとします。でも保存するときにANSIを選択した・・・これってどういうことなんでしょう？しかも、IE等のブラウザ上からも「表示」→「エンコード」→「Shift_JIS」と選択できます。プログラムの上からのエンコーディング　テキストエディタからのエンコーディングこれはどちらが優先されているのでしょう。エンコーディングについて詳しいサイトなどありましたらお願いします。
- ベストアンサー
- その他（プログラミング・開発）
文字化け
JSPで取ったデータをServletがGetParameterしています。文字化け防止のコーディングは以下のようにしています。 String adr = request.getParameter("adr"); //住所 if(adr !=null && adr.equals("")==false){ //文字化け防止（日本語変換) adr = new String(adr.getBytes("8859_1"), "JISAutoDetect"); }else{ adr = ""; } が、全角のハイフン（－）だけが文字化けしてしまいます。？になってしまいます。なにかいいページかヒントがありましたら教えてください。
- 締切済み
- Java
エンコード指定でコンパイルエラー
以下のソースで、UnsupportedEncodingExceptionと、コンパイルエラーが発生します。 byte[] sjisBytes; // 適当なバイト列を入れる String string = new String(sjisBytes, "Shift_JIS");　// エラー String s; // 適当な文字列を入れる byte[] b = s.getBytes( "Shift_JIS" ); // エラーサポートされている他のエンコーディング（UTF-8など）を入れても、同じエラーになります。原因がわかる方いらっしゃいますでしょうか？
- ベストアンサー
- Java

String <=> byte配列の際のエンコード（続）

ranxの回答

お礼 2002/03/25 13:23

補足 2002/03/25 13:34

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

String <=> byte配列 の際のエンコード（続）

ranxの回答

お礼 2002/03/25 13:23

補足 2002/03/25 13:34

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

String <=> byte配列の際のエンコード（続）

カテゴリ
一覧

専門家に質問してみよう
専門家登録