XML入門的常見問題(三)_Xml教程

      編輯Tag賺U幣
      教程Tag:暫無Tag,歡迎添加,賺取U幣!

      如何加載有外國(guó)和特殊字符的文檔?

      文檔可以包含外國(guó)字符,例如:

      foreign characters (úóí?)

      例如 磲 的外國(guó)字符必須在前面加上 escape 序列。外國(guó)字符可以是 UTF-8 編碼或用不同編碼指定,如下所示:

      foreign characters (磲)

      現(xiàn)在可以正確加載 XML 了。

      其他字符是保留在 XML 中的,并且需要以不同的方式處理。下面的 XML:

      This & that

      產(chǎn)生如下錯(cuò)誤:

      此處不允許有空格。

      行 0000001: This & that

      位置 0000012: ----------^

      此處 & 是 XML 句法結(jié)構(gòu)的一部分,如果它僅僅放在 XML 數(shù)據(jù)源內(nèi)部,那么不能解釋為 &。您需要替換稱為“實(shí)體”的特殊字符序列。

      This & that

      下面的字符需要相應(yīng)的實(shí)體:

      以下為引用的內(nèi)容:

        < <
        & &
        > >
        " "
        ' &apos;

      引號(hào)字符被用作標(biāo)記中屬性值的定界符,因此通常不能在屬性值的內(nèi)部使用。例如,下面的內(nèi)容將返回錯(cuò)誤:

      此處的單引號(hào)既用作屬性定界符,又在屬性值自身中。為了糾正這個(gè)問題,可以將屬性定界符換成雙引號(hào):

      或者可以將單引號(hào)轉(zhuǎn)義為實(shí)體 &apos;

      上述兩種方式都將通過 XML 對(duì)象模型中的 getAttribute 方法返回屬性值 John's Stuff。同樣,對(duì)于雙引號(hào),您可以使用實(shí)體"。

      也可以通過將文本放在 CDATA 節(jié)中來處理元素內(nèi)容中的特殊字符。下面的內(nèi)容是正確的:

      在本例子中,XML 對(duì)象模型將 CDATA 節(jié)點(diǎn)顯示 xml 節(jié)點(diǎn)的子節(jié)點(diǎn),它將返回字符串

      This & that is just "text" content.

      作為 nodeValue。

      如何在 Visual Studio 6.0 C 中使用 MSXML COM 組件?

      在 Visual C 6.0 中使用 MSXML COM 組件M的最簡(jiǎn)便方式是使用 #import 指令:

      #import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace

      它定義了所有 IXML* 接口和接口 ID,從而可以在應(yīng)用程序中使用它們了。也可以從 INETSDK 獲取 MSXML 類型庫(kù)和頭文件(英文),以及包含類 IIDs 的 uuid.lib。

      如何在 XML 中使用 HTML 實(shí)體?

      下面的 XML 包含 HTML 實(shí)體:

      Copyright ? 2000, Microsoft Inc, All rights reserved.

      它產(chǎn)生下列錯(cuò)誤:

      引用未定義的實(shí)體 'copy'。

      行: 1, 位置:23, 錯(cuò)誤碼:0xC00CE002

      Copyright ? 2000, ...

      這是因?yàn)?XML 只有五個(gè)內(nèi)置實(shí)體。關(guān)于內(nèi)置實(shí)體的詳細(xì)信息,請(qǐng)參閱如何加載有外國(guó)和特殊字符的文檔?

      要使用 HTML 實(shí)體,需要用 DTD 定義它們。有關(guān) DTD 的詳細(xì)信息,請(qǐng)參閱 W3C XML 建議(英文)。要使用該 DTD,請(qǐng)將它直接包括在 DOCTYPE 標(biāo)記中,如下所示:

      Copyright ? 2000, Microsoft Inc, All rights reserved.

      要加載它,需要關(guān)閉 IXMLDOMDocument 接口的 validateOnParse 屬性。請(qǐng)嘗試將它粘貼到“Validator 測(cè)試頁(yè)”中,關(guān)閉 DTD 驗(yàn)證,然后單擊“驗(yàn)證”。請(qǐng)注意文檔將加載,并且版權(quán)字符將顯示在 validator 頁(yè)面的末尾的 DOM 樹中。

      如果已經(jīng)完成了 DTD 驗(yàn)證,那么必須將作為參數(shù)實(shí)體的 HTML 實(shí)體包括在現(xiàn)有的 DTD 中,如下所示:

      %HTMLENT;

      %HTMLENT;

      它將定義所有 HTML 實(shí)體,以便在 XML 文檔中使用它們。

      在元素內(nèi)容中如何處理空白字符?

      XML DOM 有三種訪問元素文本內(nèi)容的方式:

      屬性 行為

      nodeValue 按照原始的 XML 源中指定的那樣,返回 TEXT、CDATA、COMMENT 和 PI 節(jié)點(diǎn)上的原始文本內(nèi)容(包括空白字符)。對(duì)于 ELEMENT 節(jié)點(diǎn)和 DOCUMENT 本身,則返回空值。

      數(shù)據(jù)與nodeValue相同

      文本重復(fù)連接指定子樹中的多個(gè) TEXT 和 CDATA 節(jié)點(diǎn)并返回組合結(jié)果。

      注意:空白字符包括新行、tab 和空格。

      nodeValue 屬性通常返回原始文檔中的內(nèi)容,與文檔如何加載和當(dāng)前 xml:space 范圍無關(guān)。

      文本屬性連接指定子樹中的所有文本并擴(kuò)展實(shí)體。這與文檔如何加載、preserveWhiteSpace 開關(guān)的當(dāng)前狀態(tài)和當(dāng)前 xml:space 范圍有關(guān),請(qǐng)看如下所示:

      以下為引用的內(nèi)容:

        preserveWhiteSpace = true when the document is loaded
      preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false
      xml:space=preserve xml:space=default xml:space=preserve xml:space=default
      保留 保留 保留 保留并截?cái)?


        preserveWhiteSpace = false when the document is loaded
      preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false
      xml:space=preserve xml:space=default xml:space=preserve xml:space=default
      半保留 半保留并截?cái)?半保留 半保留并截?cái)?

      此處的保留表示和原始 XML 文檔中完全相同的原始文本內(nèi)容,截?cái)嘁馕吨皩?dǎo)和尾部空格已經(jīng)刪除,半保留意味著保留了“重要的空白字符”并規(guī)范化了“不重要的空白字符”。重要的空白字符是文本內(nèi)容內(nèi)部的空白字符。不重要的空白字符是標(biāo)記之間的空白字符,請(qǐng)看如下所示:

      以下為引用的內(nèi)容:
        \n
        \t  Jane\n
        \tSmith   \n

      在本示例中,紅色是可以忽略的不重要的空白字符,而綠色是重要的空白字符,因?yàn)樗俏谋緝?nèi)容的一部分,因此有不可忽略的重要含義。所以在本例中,文本屬性返回下列結(jié)果:

      狀態(tài) 返回值

      保留 "\n\t  Jane\n\tSmith  \n"

      保留并截?cái)?"Jane\n\tSmith"

      半保留 "  Jane Smith  "

      半保留并截?cái)?"Jane Smith"

      請(qǐng)注意“半保留”將規(guī)范化不重要的空白字符,例如,新行和 tab 字符將退化為單個(gè)空格。如果更改 xml:space 屬性和 preserveWhiteSpace 開關(guān),那么文本屬性將返回相應(yīng)的不同值。

      CDATA and xml:space="preserve" subtree boundaries

      在下面的例子中,CDATA 節(jié)點(diǎn)或“保留”節(jié)點(diǎn)的內(nèi)容將得到連接,原因是它們不參與不重要的空白字符規(guī)范化。例如:

      以下為引用的內(nèi)容:

        \n
        \t Jane \n
        \t   Smith   ]>\n

      在這種情況下,CDATA 節(jié)點(diǎn)內(nèi)部的空白字符不再與“不重要”空白字符“合并”,并且不會(huì)截?cái)唷R虼?ldquo;半保留并截?cái)?rdquo;情況將返回下列內(nèi)容:

      "Jane   Smith"

      在此,標(biāo)記之間的不重要的空白字符將包括在內(nèi),與 CDATA 節(jié)點(diǎn)的內(nèi)容無關(guān)。如果用下列內(nèi)容代替 CDATA,那么將返回相同結(jié)果:

      Smith

      實(shí)體是特殊的

      實(shí)體是作為 DTD 的一部分加載和分析的,并且顯示在 DOCTYPE 節(jié)點(diǎn)下。它們不一定要有任何 xml:space 范圍。例如:

      以下為引用的內(nèi)容:
        Jane \n
        \t\n
        ">
        ]>
        &Jane;

      假定 preserveWhiteSpace=false(在 DOCTYPE 標(biāo)記范圍內(nèi)),在分析實(shí)體時(shí)不重要的空白字符丟失。實(shí)體將不會(huì)有空白字符節(jié)點(diǎn)。樹將類似于:

      以下為引用的內(nèi)容:
        DOCTYPE foo
        ENTITY: Jane
        ELEMENT: employee
        ELEMENT: name
        TEXT: Jane
        ELEMENT: title
        TEXT>:Software Design Engineer
        ELEMENT: foo
        ATTRIBUTE: xml:space="preserve"
        ENTITYREF: Jane

      請(qǐng)注意,在 DOCTYPE 內(nèi)部 ENTITY 節(jié)點(diǎn)下顯露的 DOM 樹不包含任何 WHITESPACE 節(jié)點(diǎn)。這意味著 ENTITYREF 節(jié)點(diǎn)的子節(jié)點(diǎn)也沒有 WHITESPACE 節(jié)點(diǎn),即使實(shí)體引用在 xml:space="preserve" 的范圍內(nèi)也是這樣。

      給定文檔中引用的每個(gè) ENTITY 的實(shí)例通常都有相同的樹。

      如果實(shí)體必須絕對(duì)保留空白字符,那么它必須在自己內(nèi)部指定自己的 xml:space 屬性,或者文檔 preserveWhiteSpace 開關(guān)必須設(shè)置為 true。

      如何處理屬性中的空白字符?

      有幾種方式可以訪問屬性值。IXMLDOMAttribute 接口有 nodeValue 屬性,它等價(jià)于作為 Microsoft 擴(kuò)展的 nodeValue 和 text 屬性。這些屬性返回: 屬性 返回的文本

      以下為引用的內(nèi)容:
        attrNode.nodeValue
        attrNode.value
        getAttribute("name") 返回和原始文檔中完全相同的內(nèi)容(和擴(kuò)展的實(shí)體)。
        attrNode.nodeTypedValue Null
        attrNode.text 除了前導(dǎo)和尾部的空白字符已經(jīng)截?cái)嘀猓渌c nodeValue 相同。

      “XML 語(yǔ)言”規(guī)范為 XML 應(yīng)用程序定義了下列行為: 屬性類型 返回的文本

      CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、枚舉

      半規(guī)范化 全規(guī)范化

      在此半規(guī)范化代表將新行和 tab 字符轉(zhuǎn)換為空格,但是多個(gè)空格不會(huì)退化為一個(gè)空格。

      來源:模板無憂//所屬分類:Xml教程/更新時(shí)間:2008-08-22
      相關(guān)Xml教程