PHP實現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法_PHP教程
推薦:PHP讀取漢字點陣數(shù)據(jù)背景知識: 簡體中文國標字庫(1981年訂,中國大陸)。7445個字符,其中漢字6773個,包括一級漢字3755個,二級漢字3008個。采用2字節(jié)(16位二進制)編碼。 區(qū)位碼:國標GB2312規(guī)定,所有的
通常情況下,我們的網(wǎng)頁要指定一個編碼字符集,如 GB2312、UTF-8、ISO-8859-1 等,這樣我們就可以在網(wǎng)頁上顯示我們指定編碼的文字了。但是我們很可能會遇到這種情況,那就是我們可能希望在 ISO-8859-1 編碼的網(wǎng)頁上顯示漢字,或者在 GB2312 編碼的網(wǎng)頁上顯示韓文等。當然一種解決辦法就是我們不用 ISO-8859-1 或者 GB2312 編碼,而統(tǒng)統(tǒng)都采用 UTF-8 編碼,這樣我們只要在這種編碼下,就可以混合顯示各國文字了,這是現(xiàn)在很多網(wǎng)站采用的方法。
而我這里所說的并非上面這種方法,因為上面這種方法必須要指定字符集為 UTF-8 才可以,一旦用戶手工指定為其他字符集,或者可能因為某些原因,那個字符集設置沒起作用,而瀏覽器又沒有正確自動識別的話,我們看到的網(wǎng)頁還是亂碼,尤其是在某些用框架作的網(wǎng)頁中,某個框架中的頁面如果字符集設置沒起作用,在 firefox 中顯示亂碼而且還沒法改變(我是說在不裝RightEncode插件的情況下)。
而我這里介紹的方法即使是把網(wǎng)頁指定為 ISO-8859-1 字符集,也能夠正確顯示漢字、日文等。原理很簡單,就是把除了 ISO-8859-1 編碼中前128個字符以外的所有其他的編碼都用 NCR(Numeric character reference) 來表示。比如“漢字”這兩個字,如果我們寫成“汉字”這種形式,那么它在任意字符集下都可以正確顯示。根據(jù)這個原理,我寫了下面這個程序,它可以把現(xiàn)有的網(wǎng)頁轉化為在任意字符集下都能顯示的網(wǎng)頁。你只需要指定源網(wǎng)頁的字符集和源網(wǎng)頁,點提交按鈕,就可以得到目標網(wǎng)頁了。你也可以只轉化某些文字,只需要把文字填寫到文本框中,并指定這些文字原來的字符集,點提交按鈕,就會在頁面上面顯示編碼后的文字了。另外我還編寫了WordPress 的插件,現(xiàn)在我的 Blog 已經(jīng)可以在任意字符集下都能正確顯示了。
實現(xiàn)方法:
首先第一步是要把源字符集的字符串轉化為UTF-16字符集,做這一步是因為UTF-16字符集中的每個字符都是兩個字節(jié),后面處理起來很容易,而如果在源字符集上直接做處理則很復雜。源字符集可以從原網(wǎng)頁中的meta標簽中獲得,也可以單獨指定,我的程序是讓用戶在表單中指定源字符集,因為我不能保證用戶提交的文件就一定是HTML文件(其他文件也是可以的,比如這個WordPress的漢化包源文件是個po文件,它里面的內容也可以這樣處理),而且即使是HTML文件,里面也不一定就有用于指定字符集的meta標簽,所以通過表單單獨指定字符集比較保險。你可能會覺得將一種字符集轉化為另一種字符集很復雜,確實如此,如果自己來實現(xiàn)的話,確實非常麻煩,但是用PHP來做卻很容易,因為它里面已經(jīng)包含這樣的函數(shù)了,你可以通過iconv函數(shù)很容易的來實現(xiàn)各種字符集之間的轉化,如果你的機器上沒有安裝iconv擴展,你也可以使用mb_convert_encoding函數(shù),如果Multibyte String擴展也沒有安裝,那就沒辦法了,因為你要自己實現(xiàn)那么多種編碼的轉化基本上是不可能的,除非你是頂級大牛!推薦使用iconv,因為這個效率高,支持的字符集也更多。
做完上面那一步之后,接下來是以每兩個字節(jié)為單位對字符串進行處理。這兩個字節(jié)直接轉化為數(shù)字就是&#xxxxx;中的xxxxx,如果這個數(shù)字小于128就直接使用這個字符(注意這里就變成單字節(jié)了),否則就使用&#xxxxx;的形式。這里有一點要注意,就是當這個數(shù)字是65279(16進制的0x FEFF)時,請把它忽略掉,因為這個是Unicode編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有iso-8859-1編碼中的前128個字符了,所以我們不需要它了。
好了,基本思路就是這樣,下面是實現(xiàn)的程序:
以下為引用的內容: <?php |
函數(shù)的參數(shù)中,$encode是源字符集,$str是需要進行轉化的字符串。返回結果是轉化以后字符串。
分享:PHP制作的仿百度的站內搜索引擎代碼以下為引用的內容: <E html PUBLIC "-//W3C//DTD XHTM " "1/
- 相關鏈接:
- 教程說明:
PHP教程-PHP實現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法。