WEBアプリケーションでの文字コードの検出方法とは？

2023/10/12 17:39

このQ&Aのポイント

WEBアプリケーションでの文字コードの検出方法について教えてください。
HTMLからのリクエスト文字の文字コードを検出するための方法を教えてください。
文字コードの検出について、バイト列を使用する方法が浮かぶが、他にも方法はあるのか教えてください。

ベストアンサー

文字コード

2003/01/28 04:01

少し、聞かせてください。今、WEBアプリケーションを作っています。 HTMLからのリクエスト文字を受け取りServletで処理を考えています。そこで、 String para = request.getParameter(para); String param = new String(para.getBytes("8859_1","JISAutoDetect"); で、8859_1,Shift_JIS,EUC-JP,ISO-2022-JP の Unicode 変換することができるのは、分かりました。では、この HTML からのリクエスト文字が、どのタイプの文字コードでかかれているかを検出できるのでしょうか？自分では、バイト列をつかさどる方法が浮かぶのですが・・・。ＨＰでもかまいませんので、教えてください。

tosio_s
お礼率41% (34/82)

Java
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sasadora
ベストアンサー率68% (59/86)

2003/01/28 13:58 回答No.1

完全に判定することはできません。 HTTPの仕様ではそういった情報はクライアントから送られないため、受け取った側でどういった文字コードかを完全に判定する方法がないのです。じゃあどうするか？１．バイト列から判別する　バイト列からある程度推測できます。しかし、複数の文字コードで　重複する部分があるので、EUCである、Shift_JISであると必ずしも　特定できないケースがあるのです。　それを踏まえたうえでバイト列から判別するとしたら、　それをやってくれるのが　JISAutoDetectです。　JISAutoDetectの判別は納得いかないというのでしたら、　自分でバイト列から判断してもよいでしょう。２．きめうちする　クライアントから送られてくる文字列は、文字コード？？？だと　決め付ける方法です。　ブラウザが送信する文字コードは、表示しているページと同じ文字コードで　送信するのが普通です。EUCで表示したページからはEUCで送られてきます。　送信される元のページが決まっているのでしたら、きめうちしても　ほぼ大丈夫でしょう。　ただし、ブラウザの動作が一般的の動作の場合なので、ひょっとしたら　そういった動作をしないブラウザもあるかもしれません。

質問者

お礼 2003/01/29 02:00

回答ありがとうございます。やはり、完全に、判定する方法というのは、難しいんですね。そして、２つの例をあげていただきありがとうございました。私は、１つ目方法を取りたいと思いますが、どこか、解説している、ＨＰ、書籍等ありますか？

関連するQ&A

文字化けします
またまた質問で申し訳ないんですが、よろしくお願いします。 Servletで表示させる文字が化けます。 ServletのdoGet()を呼び出しています。 ServletをURLにて直接呼び出しているので、doGetで間違いないと思います。記述としては、 response.setContentType(text/html;charset=Shift_JIS); と記述しています。過去の質問等も調べて、byteに変換してJISAutoDetectを指定しても直りませんでした。 str = new String(str.getBytes("iso-8859-1"), "JISAutoDetect")としました。 8859-1も、同様に駄目でした。そして、tomcatを起動した時に出るDos窓に「Unsuported encoding: Shift_JIS」と出ているのですが、tomcat3-1-4ではサポートされてないのでしょうか？？なんとか、解決策ってないでしょうか？教えてください。よろしくお願いします。
- 締切済み
- Java
文字化け
JSPで取ったデータをServletがGetParameterしています。文字化け防止のコーディングは以下のようにしています。 String adr = request.getParameter("adr"); //住所 if(adr !=null && adr.equals("")==false){ //文字化け防止（日本語変換) adr = new String(adr.getBytes("8859_1"), "JISAutoDetect"); }else{ adr = ""; } が、全角のハイフン（－）だけが文字化けしてしまいます。？になってしまいます。なにかいいページかヒントがありましたら教えてください。
- 締切済み
- Java
宣言のタイミング
質問させてください。 Servletの中で、他クラスからの参照のできる static final String について何ですが、例えば、 public class goo extends HttpServlet{ static final String CODE = "text/html;charset=Shift_JIS"; public void doPost(HttpServletRequest req,HttpServletResponse res) thows servletException,IOException{ res.setContentType(CODE); など、実際の値を入れるやり方は、分かるのですが、 Servlet内で、何らかの処理後の String を static final String 宣言をするには、どうしたらよいのでしょうか？例えば、 public class goo extends HttpServlet{ public void doPost(HttpServletRequest req,HttpServletResponse res) thows servletException,IOException{ String para = req.getParameter(para); String param = new String(para.getBytes("8859_1"),"JISAutoDetect"); 等の時に、paramを static final String にしたいのです。自分でも文法が出来てないとは思いますが、よろしくお願いします。
- ベストアンサー
- Java
String <=> byte配列の際のエンコード（続）
前回の質問（４つほど前の）の続きですが、８８５９－１が日本語を扱うことができるという勘違いは、サーブレットで日本語のリクエストパラメータを使用する際の、次のようなコードに起因してます。 String param = new String(request.getParameter("test")).getBytes("8859_1"), "JISAutoDetect"); ここで、request.getParameter("test") から返ってくる String は 8859-1エンコーディングされたものだと単純に考えていたのですが、今回、あらためてこれについて考えてみました。 request.getParameter("test").getBytes("8859_1") で、ブラウザのエンコーディングを用いた、パラメータを表現するバイト列がちゃんと取得できています。では、request.getParameter("test") の結果返ってくる String はブラウザのエンコードでパラメータを表現するバイト列を用い、値はそのままで、エンコード名だけを8859-1として構築されたもの、になると思うのですが、そういう認識で正しいのでしょうか。また、それで正しいのなら、それと同じことを自分で行うにはどうすればよいのでしょうか。とても気になります。もしわかる方がいらっしゃったら、是非回答お願いします。
- ベストアンサー
- Java
困ってます。
文字化けについて分からない事があります。環境は RedHatLinux7.2, Postgresql7.1, Tomcat3.2.4, JDK1.4.0 です。 HTMLフォームで入力されたパラメータをサーブレットで受け取り、そのパラメータをＤＢのテーブルにＳＱＬのINSERT文でデータを追加する際に日本語の部分(例：氏名)が文字化けしてしまいます。文字化けの防止策として、 (1)String KANJINAME = new String(request.getParameter("KANJINAME").getBytes("8859_1"), "JISAutoDetect"); (2)String KANJINAME = new String(request.getParameter("KANJINAME").getBytes("8859_1"), "EUC-JP"); としても、文字化けしてしまいました。今までサーブレット、ＪＳＰ等で上記の(1)、(2)のような方法で文字化けを防いできたのですが、今回のようにＤＢのテーブルにInsert文で日本語を含んだデータを追加しようとすると文字化けしてしまいました。これはコーディングの問題なのでしょうか？それともTomcat,Linux,Postgresqlに何らかの設定等が必要なのでしょうか？もし何か分かることがありましたら、ご教授お願い致します。
- 締切済み
- Java
JBuilderの文字化け
JBuilderでサーブレットでパラメータを渡す際に日本語が文字化けしてしまいます。 Enumeration enum=request.getParameterNames(); while(enum.hasMoreElements()){ String key=(String)enum.nextElement(); String value=new String(request.getParameter(key).getBytes("8859_1"),"JISAutoDetect"); out.println(value); } ソースは上記のようになっていますが日本語を表示できません。直す方法がわかる方どうかよろしくお願いします。
- 締切済み
- Java
JavaScriptからServletに渡した文字列が文字化け
度々お世話になっています。今回もよろしくお願いします。 JavaScriptからServletに渡した文字列が文字化けしてしまい解決できずにいます。以下に使っているコードを抜粋します。１）HTML表示。２）HTML内のボタン押下でJavaScriptからServletに文字列を渡す。 <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP"> <SCRIPT LANGUAGE='JavaScript'>  </SCRIPT> <FORM action="pg_detail" METHOD="get" NAME="myform1" onSubmit=""> <INPUT type="button" value="詳細" onClick="subwinOpen();" /> </FORM> ３）Servlet側で文字列取得。 pg_detail.java public void doGet (HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { res.setContentType("text/html;charset=EUC-JP"); String v_details = new String( req.getParameter("detail").getBytes("8859_1"), "JISAutoDetect" ); } 以上のコードを実行すると、 ”国立競技場,”が”国立競技?E”となってしまいます。かなり端折ってしまいましたが、説明不足な個所があれば補足します。よろしくお願いいたします。
- 締切済み
- Java
EUC-JP-LINUXの文字化け
文字化けで困っているのですが，通常有名なエンコードをしても直りませんでした。それで String enc = System.getProperty("file.encoding"); で表示させたら EUC-JP-LINUX とでましたが、この時の strPar = new String(strPar.getBytes("ISO-8859-1"),"Shift_JIS"); はどうしたらよいのでしょうか？ちなみに画面は contentType = "text/html;charset=Windows-31J" としています。
- 締切済み
- Java
JISコード変換について
String str = "アイウエオ"; byte test[] = moji.getBytes("ISO2022JP"); String ret = new String(test); 上記のプログラムで半角カナをJISコードに変換すると文字化けしているのですが、文字化けしないようにするにはどうしたらよいでしょうか。なお、JISコードの String test = "アイウエオ"; ←　"アイウエオ"はJISコード（文字化け無しの半角カナ文字） String ret = new String(test .getBytes("ISO2022JP"),"JISAutoDetect"); これで、文字化けせずUnicodeに変換できたのですが、単純に逆に変換しただけでは、半角カナの文字は、JISコードに変換すると文字化けしてしまうのでしょうか？どなたか教えて頂けないでしょうか？
- ベストアンサー
- Java
テーブルにレコードを追加するサーブレット。
HTML画面からservletに接続してMYSQLにてつくったデータベースのテーブルにレコードを追加するプログラム(servlet)を作っています。テーブルを表示させるservlet(ext_db5_2_1.java)と、テーブルにレコードを追加して前出のservlet(ext_db5_2_1.java)を呼び出しテーブル表示をさせるservlet(ext_db5_2_2.java)をつくってます。 windows2000Professional, j2sdk1.4.0_01, MySQL3.23.47, tomcat3.3.1 テーブルにレコードを追加するサーブレット(ext_db5_2_2.java)の問題箇所。 // データベースに追加する値を取得 String number = request.getParameter("number"); String name = new String( request.getParameter("name").getBytes("8859_1"), "JISAutoDetect"); String from_pref =new String( request.getParameter("from_pref").getBytes("8859_1"), "JISAutoDetect"); // SQLを実行して、データベースに追加する StringBuffer buf = new StringBuffer(); buf.append("INSERT INTO OOIWA_SEM ("); buf.append("NUMBER, NAME, FROM_PREF) "); buf.append("VALUES ("); buf.append(number); buf.append(",'"); buf.append(name); buf.append("','"); buf.append(from_pref); buf.append("')"); stmt.executeUpdate(buf.toString()); // データベース表示するために、RequestDispatcherを取得 ServletContext cx = getServletContext(); RequestDispatcher rd = 　　　　　　　　　　　　　　　　　　　　　　　　　cx.getRequestDispatcher("/netjv/servlet/shuwa.ext_db5_2_1");
- 締切済み
- Java

WEBアプリケーションでの文字コードの検出方法とは？

文字コード

質問者が選んだベストアンサー

お礼 2003/01/29 02:00

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

WEBアプリケーションでの文字コードの検出方法とは？

文字コード

質問者が選んだベストアンサー

お礼 2003/01/29 02:00

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録