SQL Server 2008 數據加載創世界記錄_Mssql數據庫教程
推薦:SQL Server 2005 CE軟件環境需求由于SQL Server 2005 Compact Edition和SQL Server 2005是同時代的產品,所以它們之間的互操作和結合性較之以前的SQL Server版本要好,為此如果要考慮使用SQL Server 2005 Compact Edition中的
自今年2月推出的SQL Server 2008后 ,使用其SSIS( SQL Server Integration services)工具你可以就感覺到數據加載的世界級的性能記錄。微軟與Unisys公司宣布了一項紀錄,它是關于關系數據庫的數據提取,轉換和加載( ETL的)工具。它能在不足30分鐘加載超過1 TB的TPC- H的數據。我想在此提供以Q &A的紀錄形式提供一些背景材料,盡管很難提供更多的技術細節。我們也正在籌劃關于這方面的論文,希望對你了解這背景資料有用。- Len Wyatt
數據加載速度到底有多快?
在不到30分鐘,把超過1 T字節的數據從平面文件解析并通過網絡傳送,最終載入到目的地數據庫,這創造了一個世界紀錄,超過了以往發布的使用ETL工具的所有結果。這是一個速度超過每小時2TB( 650 MB/秒) 。更精確地說, 相當于1.18TB的單位檔案資料裝載僅用1794秒。這等價于25分20秒加載1.00TB數據或者2.36TB/每小時。
為什么這很重要?
企業日益增加的數據存儲在許多不同系統。 thay想知道有一個ETL工具,他們想選擇能夠支持任何數據卷的工具。微軟公司一直在SQL Server集成服務( SSIS )做出重大改進 ,這些記錄顯示出了SQL Server Integration Services2008的能力, SQL Server 2008及Unisys的ES7000服務器已經能夠以更快的速度來處理大量的數據。
為什么僅僅是做了大量的負荷數據加載?
對于今天的商業而言, 目標系統上一直可使用的數據資源是很寶貴的,并且它們無須加以規范或糾正錯誤就能夠加載。在如此情況下,大批量時代的散裝裝載數據非常有意義。數據集成可以涉及復雜的轉換規則,錯誤檢查和數據標準化技術。 如SSIS這樣的ETL的工具具備這些功能,如數據系統之間的遷移和格式化數據,完整性檢查,鍵查詢,跟蹤譜系以及更多。 SSIS已被證明是一個多功能的ETL工具,而現在是指出的是它還是性能最好的。
你如何選擇裝載的數據?
DBGEN工具,來自TPC-H benchmark性能測試工具用于產生1.18 TB的源數據。數據由DBGEN分割后,允許它被裝載在并行的多個系統中。 DBGEN生成數據的客戶,零部件,供應商,訂單和項目。這是具有廣泛代表性的一個典型。這些數據包含各種數據類型,包括日期,金額,整數,字符型及標識型。
請注意ETL裝載結果并非的TPC - H的基準測試結果,不應該和TPC - H的基準測試相比。
這是一個認證基準嗎?
有沒有一個被普遍接受的基準的ETL工具? 微軟認為應該有。基準測試的業界標準能導致良性競爭,從而提供更好的產品和采用更好的技術,以獲得更高的性能。
微軟可能會很高興有機會與業界其同仁一道確定一個共同的基準,以反映ETL工具的真實使用狀況。
TPC-H的數據的使用為這一項目提供了一個方便。這不是一個TPC-H的基準測試結果。
這是經過驗證的性能測試嗎?
多家競爭對手已經在TPC-H的數據上公布了結果。Informatica 此前曾報道,此前裝載1TB數據為45分鐘。SSIS已經超越了記錄,只需要15分鐘以上 。
盡管已經有了一些其他的標準,但對于非標準的數據集,并沒有足夠的資訊以進行全方位意義上的比較。基于這部分原因,微軟將支持建立一個行業標準的ETL的基準。
使用什么系統配置?
數據庫服務器運行一個ES7000/one Unisys的企業服務器, 32雙座雙核心Intel ® XEON tm 3.4千兆赫( 7140米)處理器, 256 GB的RAM和8雙端口4 Gbit HBA卡的。 SQL Server數據存儲在一個擁有165 ( 146 gb/15 krpm )針的EMC Clariion CX3-80 SAN上。數據庫服務器運行在Windows Server 2008x64數據中心版操作系統上面的SQL Server 2008 企業預覽版( v10.0.1300.4 , " 2008年2月的發布的CTP版本 " ) 。
四個服務器作為數據源,它們是來自現代企業的不同的數據系統中的建模事實數據。每一源服務器運行SSIS包通過網絡發送數據到數據庫服務器。源頭服務器運行著Windows Server 2008的SQL Server版本v10.0.1300.4上的SSIS 。源數據則來自DBGen產生的平面文件 。
源服務器, 4 臺Unisys的ES3220L windows2008 x64企業版服務器。每臺服務器配備2 × 2.0 GHz的四核Intel處理器, 4 GB的內存,雙端口4 Gbit Emulex的HBA和英特爾PRO1000/PT網 卡。源數據則來自于被讀出2 ×的EMC CLARiiON cx600 SAN存儲設備 。 數據源服務器通過雙端口1 GB的以太網連接到es7000/one Server數據庫服務器。
為什么要使用多數據源系統?
現代大型企業是包含復雜的業務活動。大型數據集往往是混合著多種數據源。這種測試更切合實際,酷似一個真實的ETL場景。
SSIS包看起來是什么樣子的呢?
這里有一個包, 通過源系統運行著多個實例。 它也是簡單的:存在有一個控制流 為每一個"流"所產生的數據DBGEN。通過OLEDB控制流為每一個表存在一個數據流,每一個數據流讀平面文件數據,并寫回SQL Server數據庫。在平面文件數據源和數據庫表之間存在的這個數據集有一個一對一的欄位之間的映射,。
讓我們看看Windows Server 2008技術重點:
Windows Server 2008做了許多創新的工作,其中包括內存管理的顯著改善, PCI和塊存儲輸入/輸出,以及核心網絡,從的業績。由于這些進展, Windows Server 2008能夠持續大約每秒960兆字節網路傳輸 。
做這項工作是否需要更多秘密的技巧?
不需要特別的版本和技巧,盡管這是一個預版本, 但它同時是一個正式的SQL Server 008企業版本。在產品使用上沒有任何特殊代碼。我們所做的一切足以讓別人仿效。
我們在關系型數據庫中完成了被稱為"Soft NUMA"的技術,它通過端口映射在系統內部得以獲得良好的分布式工作效果。 這是技術已經公開發表,你可以在 MSDN上找到文章。我們還設置X-flag,從一開始使用SQL Server起 , 這就降低了SQL Server花在收集性能統計在運行時間。
在SSIS中我們采用了使用SSIS數據流匹配的數據類型,因此從平面文件讀取的數據并不需要轉換,在文本文件字段被應用的時候就能獲得最快地解析 。
在服務器上的網絡連接使用了內建Intel PRO/1000 GbE控制器。發布版本的網絡驅動程序被使用,而且以太網Jumbo幀被配置好,以更好地支持這項散裝流的情況。Windows Server 2008年的新的TCP/IP接收窗口自動調諧默認為"限制" 。
后續將有一份完整的清單文件發表,它將包含系統的設置和優化等內容。
分享:剖析SQL Server 2005查詢通知之基礎篇在本系列文章中,我們將深入探討如何把.NET 2.0和SQL Server 2005的查詢通知特征聯合起來,以便通知應用程序何時關鍵數據發生變化進而達到消除反復查詢數據庫的目的。 一、引言 數據庫應用
- sql 語句練習與答案
- 深入C++ string.find()函數的用法總結
- SQL Server中刪除重復數據的幾個方法
- sql刪除重復數據的詳細方法
- SQL SERVER 2000安裝教程圖文詳解
- 使用sql server management studio 2008 無法查看數據庫,提示 無法為該請求檢索數據 錯誤916解決方法
- SQLServer日志清空語句(sql2000,sql2005,sql2008)
- Sql Server 2008完全卸載方法(其他版本類似)
- sql server 2008 不允許保存更改,您所做的更改要求刪除并重新創建以下表
- SQL Server 2008 清空刪除日志文件(瞬間日志變幾M)
- Win7系統安裝MySQL5.5.21圖解教程
- 將DataTable作為存儲過程參數的用法實例詳解
- 相關鏈接:
- 教程說明:
Mssql數據庫教程-SQL Server 2008 數據加載創世界記錄。