PHP實現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法_PHP教程

      編輯Tag賺U幣
      教程Tag:暫無Tag,歡迎添加,賺取U幣!

      推薦:PHP讀取漢字點陣數(shù)據(jù)
      背景知識: 簡體中文國標字庫(1981年訂,中國大陸)。7445個字符,其中漢字6773個,包括一級漢字3755個,二級漢字3008個。采用2字節(jié)(16位二進制)編碼。 區(qū)位碼:國標GB2312規(guī)定,所有的

      通常情況下,我們的網(wǎng)頁要指定一個編碼字符集,如 GB2312、UTF-8、ISO-8859-1 等,這樣我們就可以在網(wǎng)頁上顯示我們指定編碼的文字了。但是我們很可能會遇到這種情況,那就是我們可能希望在 ISO-8859-1 編碼的網(wǎng)頁上顯示漢字,或者在 GB2312 編碼的網(wǎng)頁上顯示韓文等。當然一種解決辦法就是我們不用 ISO-8859-1 或者 GB2312 編碼,而統(tǒng)統(tǒng)都采用 UTF-8 編碼,這樣我們只要在這種編碼下,就可以混合顯示各國文字了,這是現(xiàn)在很多網(wǎng)站采用的方法。

      而我這里所說的并非上面這種方法,因為上面這種方法必須要指定字符集為 UTF-8 才可以,一旦用戶手工指定為其他字符集,或者可能因為某些原因,那個字符集設置沒起作用,而瀏覽器又沒有正確自動識別的話,我們看到的網(wǎng)頁還是亂碼,尤其是在某些用框架作的網(wǎng)頁中,某個框架中的頁面如果字符集設置沒起作用,在 firefox 中顯示亂碼而且還沒法改變(我是說在不裝RightEncode插件的情況下)。

      而我這里介紹的方法即使是把網(wǎng)頁指定為 ISO-8859-1 字符集,也能夠正確顯示漢字、日文等。原理很簡單,就是把除了 ISO-8859-1 編碼中前128個字符以外的所有其他的編碼都用 NCR(Numeric character reference) 來表示。比如“漢字”這兩個字,如果我們寫成“汉字”這種形式,那么它在任意字符集下都可以正確顯示。根據(jù)這個原理,我寫了下面這個程序,它可以把現(xiàn)有的網(wǎng)頁轉化為在任意字符集下都能顯示的網(wǎng)頁。你只需要指定源網(wǎng)頁的字符集和源網(wǎng)頁,點提交按鈕,就可以得到目標網(wǎng)頁了。你也可以只轉化某些文字,只需要把文字填寫到文本框中,并指定這些文字原來的字符集,點提交按鈕,就會在頁面上面顯示編碼后的文字了。另外我還編寫了WordPress 的插件,現(xiàn)在我的 Blog 已經(jīng)可以在任意字符集下都能正確顯示了。

      實現(xiàn)方法:

      首先第一步是要把源字符集的字符串轉化為UTF-16字符集,做這一步是因為UTF-16字符集中的每個字符都是兩個字節(jié),后面處理起來很容易,而如果在源字符集上直接做處理則很復雜。源字符集可以從原網(wǎng)頁中的meta標簽中獲得,也可以單獨指定,我的程序是讓用戶在表單中指定源字符集,因為我不能保證用戶提交的文件就一定是HTML文件(其他文件也是可以的,比如這個WordPress的漢化包源文件是個po文件,它里面的內容也可以這樣處理),而且即使是HTML文件,里面也不一定就有用于指定字符集的meta標簽,所以通過表單單獨指定字符集比較保險。你可能會覺得將一種字符集轉化為另一種字符集很復雜,確實如此,如果自己來實現(xiàn)的話,確實非常麻煩,但是用PHP來做卻很容易,因為它里面已經(jīng)包含這樣的函數(shù)了,你可以通過iconv函數(shù)很容易的來實現(xiàn)各種字符集之間的轉化,如果你的機器上沒有安裝iconv擴展,你也可以使用mb_convert_encoding函數(shù),如果Multibyte String擴展也沒有安裝,那就沒辦法了,因為你要自己實現(xiàn)那么多種編碼的轉化基本上是不可能的,除非你是頂級大牛!推薦使用iconv,因為這個效率高,支持的字符集也更多。

      做完上面那一步之后,接下來是以每兩個字節(jié)為單位對字符串進行處理。這兩個字節(jié)直接轉化為數(shù)字就是&#xxxxx;中的xxxxx,如果這個數(shù)字小于128就直接使用這個字符(注意這里就變成單字節(jié)了),否則就使用&#xxxxx;的形式。這里有一點要注意,就是當這個數(shù)字是65279(16進制的0x FEFF)時,請把它忽略掉,因為這個是Unicode編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有iso-8859-1編碼中的前128個字符了,所以我們不需要它了。

      好了,基本思路就是這樣,下面是實現(xiàn)的程序:

      以下為引用的內容:

      <?php
      function nochaoscode($encode, $str) {
      $str = iconv($encode, "UTF-16BE", $str);
      for ($i = 0; $i < strlen($str); $i ,$i ) {
      $code = ord($str{$i}) * 256 ord($str{$i 1});
      if ($code < 128) {
      $output .= chr($code);
      } else if ($code != 65279) {
      $output .= "&#".$code.";";
      }
      }
      return $output;
      }
      ?>

      函數(shù)的參數(shù)中,$encode是源字符集,$str是需要進行轉化的字符串。返回結果是轉化以后字符串。

      分享:PHP制作的仿百度的站內搜索引擎代碼
      以下為引用的內容: <E html PUBLIC "-//W3C//DTD XHTM " "1/

      來源:模板無憂//所屬分類:PHP教程/更新時間:2008-08-22
      相關PHP教程