/** *有朋友有如此苦心之作,實(shí)在感謝,相信它不會(huì)怪我轉(zhuǎn)貼吧,他的email是vividq@china.com */
關(guān)于Servlet、Jsp中的多國(guó)語(yǔ)言顯示
因?yàn)橐恢辈恍臞ava竟會(huì)有不能混排顯示多國(guó)語(yǔ)言的BUG,這個(gè)周末研究了一下Servlet、Jsp的多國(guó)語(yǔ)言顯示的問(wèn)題,也就是Servlet的多字符集問(wèn)題,由于我對(duì)字符集的概念還不是很清晰所以寫(xiě)出的東西未必是準(zhǔn)確的,我是這樣理解Java中的字符集的:在運(yùn)行時(shí),每個(gè)字符串對(duì)象中存儲(chǔ)的都是編碼為UNICODE內(nèi)碼的(我覺(jué)得所有的語(yǔ)言中都是有相應(yīng)編碼的,因?yàn)樵谟?jì)算機(jī)內(nèi)部字符串總是用內(nèi)碼來(lái)表示的,只不過(guò)一般計(jì)算機(jī)語(yǔ)言中的字符串編碼時(shí)平臺(tái)相關(guān)的,而Java則采用了平臺(tái)無(wú)關(guān)的UNICODE)。 Java從一個(gè)byte流中讀取一個(gè)字符串時(shí),將把平臺(tái)相關(guān)的byte轉(zhuǎn)變?yōu)槠脚_(tái)無(wú)關(guān)的Unicode字符串。在輸出時(shí)Java將把Unicode字符串轉(zhuǎn)變?yōu)槠脚_(tái)相關(guān)的byte流,如果某個(gè)Unicode字符在某個(gè)平臺(tái)上不存在,將會(huì)輸出一個(gè)'?'。舉個(gè)例子:在中文Windows中,Java讀出一個(gè)"GB2312"編碼的文件(可以是任何流)到內(nèi)存中構(gòu)造字符串對(duì)象,將會(huì)把GB2312編碼的文字轉(zhuǎn)變?yōu)閁nicode編碼的字符串,如果把這個(gè)字符串輸出又將會(huì)把Unicode字符串轉(zhuǎn)化為GB2312的byte流或數(shù)組:"中文測(cè)試"----->"\u4e2d\u6587\u6d4b\u8bd5"----->"中文測(cè)試"。 如下例程: byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce, (byte)0xc4, (byte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//GBK編碼的"中文測(cè)試" java.io.ByteArrayInputStream bin = new java.io.ByteArrayInputStream(bytes); java.io.BufferedReader reader = new java.io.BufferedReader(new java.io. InputStreamReader (bin,"GBK")); String msg = reader.readLine(); System.out.println(msg) 這段程序放到包含"中文測(cè)試"這四個(gè)字的系統(tǒng)(如中文系統(tǒng))中,可以正確地打印出這些字。msg字符串中包含了正確的"中文測(cè)試"的Unicode編碼:"\u4e2d\u6587\u6d4b\u8bd5",打印時(shí)轉(zhuǎn)換為操作系統(tǒng)的默認(rèn)字符集,是否可以正確顯示依賴于操作系統(tǒng)的字符集,只有在支持相應(yīng)字符集的系統(tǒng)中,我們的信息才能正確的輸出,否則得到的將會(huì)是垃圾。 話入正題,我們來(lái)看看Servlet/Jsp中的多語(yǔ)言問(wèn)題。我們的目標(biāo)是,任一國(guó)家的客戶端通過(guò)Form向Server發(fā)送信息,Server把信息存入數(shù)據(jù)庫(kù)中,客戶端在檢索時(shí)仍然能夠看到自己發(fā)送的正確信息。事實(shí)上,我們要保證,最終Server中的SQL語(yǔ)句中保存的時(shí)包含客戶端發(fā)送文字的正確Unicode編碼;DBC與數(shù)據(jù)庫(kù)通訊時(shí)采用的編碼方式能包含客戶端發(fā)送的文字信息,事實(shí)上,最好讓JDBC直接使用UNICODE/UTF8與數(shù)據(jù)庫(kù)通訊!這樣就可以確保不會(huì)丟失信息;Server向客戶端發(fā)送的信息時(shí)也要采用不丟失信息的編碼方式,也可以是Unicode/Utf8。 如果不指定Form的Enctype屬性,F(xiàn)orm將把輸入的內(nèi)容依照當(dāng)前頁(yè)面的編碼字符集urlencode之后再提交,服務(wù)器端得到是urlencoding的字符串。編碼后得到的urlencoding字符串是與頁(yè)面的編碼相關(guān)的,如gb2312編碼的頁(yè)面提交"中文測(cè)試",得到的是"%D6%D0%CE%C4%B2%E2%CA%D4",每個(gè)"%"后跟的是16進(jìn)制的字符串;而在UTF8編碼時(shí)得到的卻是"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95",因?yàn)镚B2312編碼中一個(gè)漢字是16位的,而UTF8中一個(gè)漢字卻是24位的。中日韓三國(guó)的ie4以上瀏覽器均支持UTF8編碼,這種方案肯定包涵了這三國(guó)語(yǔ)言,所以我們?nèi)绻孒tml頁(yè)面使用UTF8編碼那么將至少可以支持這三國(guó)語(yǔ)言。 但是,如果我們html/Jsp頁(yè)面使用UTF8編碼,因?yàn)閼?yīng)用程序服務(wù)器可能不知道這種情況,因?yàn)槿绻麨g覽器發(fā)送的信息不包含charset信息,至多Server知道讀到Accept-Language請(qǐng)求投標(biāo),我們知道僅靠這個(gè)投標(biāo)是不能獲知瀏覽器所采用編碼的,所以應(yīng)用程序服務(wù)器不能正確解析提交的內(nèi)容,為什么?因?yàn)镴ava中的所有字符串都是Unicode16位編碼的,HttpServletRequest.request(String)的功能就是把客戶端提交的Urlencode編碼的信息轉(zhuǎn)為Unicode字符串,有些Server只能認(rèn)為客戶端的編碼和Server平臺(tái)相同,簡(jiǎn)單地使用URLDecoder.decode(String)方法直接解碼,如果客戶端編碼恰好和Server相同,那么就可以得到正確地字符串,否則,如果提交地字符串中包含了當(dāng)?shù)刈址敲磳?huì)導(dǎo)致垃圾信息。 在我提出的這個(gè)解決方案里,已經(jīng)指定了采用Utf8編碼,所以,可以避免這個(gè)問(wèn)題,我們可以自己定制出decode方法: public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } 這個(gè)方法可以指定encoding,如果把它指定為UTF8就滿足了我們的需要。比如用它解析:"%E4%B8%AD%E6%96%87%E6%B5%8B%E8%AF%95"就可以得到正確的漢字"中文測(cè)試"的Unicode字符串。 現(xiàn)在的問(wèn)題就是我們必須得到客戶端提交的Urlencode的字符串。對(duì)于method為get的form提交的信息,可以用HttpServletRequest.getQueryString()方法讀到,而對(duì)于post方法的form提交的信息,只能從ServletInputStream中讀到,事實(shí)上標(biāo)準(zhǔn)的getParameter方法被第一次調(diào)用后,form提交的信息就被讀取出來(lái)了,而ServletInputStream是不能重復(fù)讀出的。所以我們應(yīng)在第一次使用getParameter方法前讀取并解析form提交的信息。 我是這么做的,建立一個(gè)Servlet基類,覆蓋service方法,在調(diào)用父類的service方法前讀取并解析form提交的內(nèi)容,請(qǐng)看下面的源代碼: package com.hto.servlet;
import javax.servlet.http.HttpServletRequest; import java.util.*; /** * Insert the type's description here. * Creation date: (2001-2-4 15:43:46) * @author: 錢(qián)衛(wèi)春 */ public class UTF8ParameterReader { Hashtable pairs = new Hashtable(); /** * UTF8ParameterReader constructor comment. */ public UTF8ParameterReader(HttpServletRequest request) throws java.io.IOException{ super(); parse(request.getQueryString()); parse(request.getReader().readLine()); } /** * UTF8ParameterReader constructor comment. */ public UTF8ParameterReader(HttpServletRequest request,String encoding) throws java.io.IOException{ super(); parse(request.getQueryString(),encoding); parse(request.getReader().readLine(),encoding); } public static String decode(String s) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,"UTF8"); } public static String decode(String s,String encoding) throws Exception { StringBuffer sb = new StringBuffer(); for(int i=0; i<s.length(); i++) { char c = s.charAt(i); switch (c) { case '+': sb.append(' '); break; case '%': try { sb.append((char)Integer.parseInt( s.substring(i+1,i+3),16)); } catch (NumberFormatException e) { throw new IllegalArgumentException(); } i += 2; break; default: sb.append(c); break; } } // Undo conversion to external encoding String result = sb.toString(); byte[] inputBytes = result.getBytes("8859_1"); return new String(inputBytes,encoding); } /** * Insert the method's description here. * Creation date: (2001-2-4 17:30:59) * @return java.lang.String * @param name java.lang.String */ public String getParameter(String name) { if (pairs == null || !pairs.containsKey(name)) return null; return (String)(((ArrayList) pairs.get(name)).get(0)); }
|