Windows Server 2012 Data Deduplication

Data Deduplication คือ การลดพื้นที่การเก็บข้อมูลบน disk/storage ด้วยวิธีกำจัดข้อมูลที่ซ้ำๆ ออกไป ให้เก็บไว้เพียงชุดเดียว (unique chunk) โดยข้อมูลซ้ำๆ นั้นจะถูกแทนที่ด้วย Pointer ให้ชี้ไปตรงที่ๆ เก็บข้อมูลชุดเดียวที่กล่าวมา เช่น ถ้ามี data file แล้วบันทึกไว้หลาย version ยิ่งมีหลายๆ ครั้งซ้ำกันก็ยิ่งเปลือง disk การทำ data deduplication ก็เพียงสร้าง Pointer ชี้ไปตรงทีเก็บข้อมูลไว้จุดเดียวกัน เป็นต้น อย่างไรก็ตาม Windows จะไม่ deduplication กับ file ที่ compress แล้ว เช่น พวก zip file หรือ Office 2007 ขึ้นไป เป็นต้น

หลังจากที่เราได้ยินว่าผู้ผลิต Storage ทั้งหลายหรือแม้ผู้ที่ทำ virtualization บางรายก็ทำ deduplication ได้ Microsoft ได้เพิ่ม feature นี้ Windows Server 2012 ให้แล้ว ลองศึกษาแล้วนำไปใช้งานกัน หากมีอะไรน่าสนใจ ช่วย post reply มาด้วยครับ

Dedup เป็น Feature ใหม่ใน Windows Server 2012

วิธีเปิดใช้งาน Feature นี้ ขอแนะนำเป็นคำสั่งใน PowerShell โดยเรียกตามขั้นตอนในภาพด้านล่าง

กดปุ่น Windows + X เลือก Command Prompt (admin) พิมพ์ PowerShell กด Enter

แล้วพิมพ์คำสั่งตามตัวอย่างในภาพ

dedup-5

เมื่อติดตั้งเสร็จ จะมี Service Data Deplucation Serivce

image

ใน Server Manager หากเลือก File and Storage Service แล้วเลือก Volumes อีกที ก็จะเห็น column Deduplication Rate

image

 

image

เทคนิคของ Microsoft ที่ใช้ในการทำ Data Deduplication

การทำ dedup ต้องทำเป็น volume ตามปกติระบบมันจะกำหนดขนาดของข้อมูลจากไฟล์ที่นำมาประมวลผลเป็นก้อนๆ (Chunk) ขนาดอยู่ในช่วง 32 – 128 KB (มีเล็กกว่านี้ได้อีก) โดย Microsoft บอกว่าในทำงานจริงมันจะอยู่ที่ประมาณ 80 KB เมื่อเจอข้อมูลที่ซ้ำ มันจะ compress chunk แล้วไปเก็บในที่ๆ เรียกว่า chunk store ในส่วน system volume ถ้าหาก chunk ไหนถูกเรียกใช้งานบ่อยจะถูกเก็บไว้ที่ second location (ค่า default ของบ่อย =100 ครั้ง)

การทำ dedup มี 2 แบบคือ

1. Post-process deduplication

วิธีนี้เป็นแบบที่ Microsoft เลือกมาใช้ คือ เมื่อมีข้อมูลใหม่ มันจะถูกเขียนลงบน disk ก่อน หลังจากนั้นจะมี process มาตรวจหา duplication เพื่อไปทำ dedup ข้อดี คือ มันไม่ไปรบกวนการเขียนข้อมูลลง disk จึงไม่กระทบเรื่อง performance ข้อด้อย คือ อาจมีบ้างที่ข้อมูลเขียนจะ disk จะเต็มหรือเต็มไปแล้วค่อยมา dedup

2. In-line deduplication

แบบนี้ dedup จะทำแบบ realtime อาจไปรบกวนการ write ทำให้เครื่องช้าไปบ้าง

 

ข้อจำกัดของ Data Deduplication บน Windows Server 2012

1. ทำบน Boot Disk หรือ System Volume ไม่ได้

2. ทำได้บน NTFS (ไม่ support FAT)

3. ทำงานบน Windows Server 2012 (ต่ำกว่านี้ไม่ได้)

4.ไม่ support Cluster Share Volume (CSV มีบน Hyper-V, ถ้า virtual disk เก็บบน NTFS ทำได้ แต่ถ้าไปทำ CSV ตรง volume ของ CSV ทำ dedup ไม่ได้)

5. ไม่รองรับ file ที่ encrypt และ file เล็กกว่า 64 KB

 

Reference

  1.  Microsoft Adds Data Deduplication to NTFS in Windows 8
  2.  Configuring Windows Server 8 deduplication
  3.  Windows Server 8 data deduplication: What you need to know
  4.  Data deduplication
  5.  Introduction to Data Deduplication in Windows Server 2012
Advertisement