詳解PostgreSQL的TOAST大字段存儲方式_負載集群教程
TOAST:The Oversized-Attribute Storage Technique
特點:
PostgreSQL采用固定頁面大小(通常是8Kb,不象oracle在運行期間有多種選擇),元組不能跨越多個頁面,無法實現“大字段值“的直接存儲。TOAST提供了解決方法,允許大的字段值被壓縮或分裂為多個物理行。
PostgreSQL只為部分數據類型支提供TOAST支持,為支持TOAST,數據類型必須是變長(varlena)的類型。前32位存儲著以字節記的數值總長度(包括長度本身)。
TOAST采用最高的兩個二進制位用于標識壓縮與行外存儲,因此“大字段“的邏輯長度被限制在了1GB2^(32-2)-1)。
兩個位都是零,表示數值未經過TOAST方式的數值;
第32位為1,表示該數值被壓縮,使用前必須先解壓縮;
第31位為1,表示該數值采用行外存儲,此時只是存儲著一個指針,該指針指向其他的地方。另外30個位表示數據的實際尺寸,而不是解壓縮或者從線外數據抓過來之后的邏輯尺寸。
行外數據被分裂成(如果壓縮過,以壓縮后為參考)最多TOAST_MAX_CHUNK_SIZE(這個數值略小于BLCKSZ/4,或者缺省 2K字節)字節的塊,每個塊都作為獨立的行在TOAST表里為所屬表存儲。每個TOAST表都有字段chunk_id,chunk_seq和chunk_data。在chunk_id和chunk_seq上有一個唯一索引,提供對數值的快速檢索。
只有表中存儲超過BLCKSZ/4字節(通常是2Kb)的行才會觸發,對字段進行壓縮和行外存儲,直到小于BLCKSZ/4字節,或者無法得到更好的結果的時候才停止。UPDATE操作過程中,未改變的字段的數值通常原樣保存;因此UPDATE行外存儲的記錄時,如果行外數據值沒有變化,將不會帶來TOAST開銷存在。
TOAST代碼識別四種不同的存儲可TOAST字段的策略:
PLAIN避免壓縮或者行外存儲。只對那些非TOAST數據類型才有效。
EXTENDED允許壓縮和行外存儲。大多數TOAST數據類型的缺省值。首先進行壓縮,如果行仍然太大,則進行行外存儲。
EXTERNAL允許行外存儲,不許壓縮。使用 EXTERNAL將令那些在 text 和 bytea 字段上的子字串操作更快(代價是增加了存儲空間),因此這些操作是經過優化的:如果行外數據沒有壓縮,那么它們只抓取需要的部分。
MAIN允許壓縮,不允許行外存儲。當數據值壓縮過后仍然太大將會采用行外存儲。每個可以 TOAST 的數據類型都為該數據類型的字段聲明一個缺省策略,但是特定表的字段的存儲策略可以用ALTER TABLE SET STORAGE修改。
優點:
相對直接的存儲方式來說,數據經過TOAST方式后,單個或者連續數據塊中能夠存儲更多的數據值,對于訪問非“大字段”時,能夠大量減少掃描塊數或者物理IO次數;
對于極少訪問的含“大字段”記錄,經過手動修改存儲屬性,采用TOAST方式,即便值小于2K的情況下同樣能夠帶來很好的效果。
針對系統數據訪問特定,靈活的采用TOAST存儲策略總能夠為系統帶來性能的提升。
題外話:oracle的大字段的存儲采用了行外的方式,對大字段默認進行段存儲,同時系統默認創建索引。將大字段根據磁盤配置進行單獨存儲,也是提升oracle部署性能的常見方式。
- 相關鏈接:
- 教程說明:
負載集群教程-詳解PostgreSQL的TOAST大字段存儲方式。