เรามักรอจนกว่าจะสิ้นสุดบทความเพื่อที่จะได้สรุปภาพรวมทั้งหมดและทำรีวิวได้อย่างสมบูรณ์ อย่างไรก็ตาม Dell PowerEdge XE9680 ได้นำเสนอเทคโนโลยีที่น่าตื่นเต้นมากขนาดที่เราไม่ไหวที่จะแบ่งปันความตื่นเต้นของเราในรีวิวอันสุดยอดนี้ โดยการออกแบบของ Dell มุ่งไปที่ความต้องการของ AI ซึ่งให้พลังการคํานวณจํานวนมหาศาลในฟอร์มแฟคเตอร์ 6U ด้วยความร่วมมือของ Dell กับ Intel และ NVIDIA บน XE9680 พวกเขาไม่ได้เสนอแต่เพียงความทรงพลังเท่านั้น แต่ยังสร้างระบบที่มีประสิทธิภาพสูงอย่างมาก
สเปกของเครื่องนี้ไม่มีอะไรน่าสนใจมากนัก: มีหน่วยประมวลผลที่ประกอบด้วย 2 ชิป Intel Xeon Scalable รุ่นที่ 4 แต่ละชิปมี 56 คอร์ และมี RAM DDR5 2TB เป็นหน่วยความจำหลักสำหรับ CPU ที่รองรับตัวเร่ง AI จากนั้นเพิ่ม GPU 8 หน่วย NVIDIA HGX H100 หรือ A100 โดยเชื่อมต่อผ่าน SXM และ NVLink พร้อมกัน เครื่องเซิร์ฟเวอร์นี้มีความสามารถในการจัดการกับโมเดลและภาระงานข้อมูลขนาดใหญ่ได้อย่างง่ายดาย
ความสามารถของ PowerEdge XE9680 ในการรองรับปริมาณ RAM ขนาดใหญ่ (สูงสุดถึง 4TB) ให้ความได้เปรียบที่สำคัญในการจัดการกับภาระงานทาง AI รายละเอียดของหน่วยความจำขนาดใหญ่เหล่านี้ช่วยให้เราสามารถจัดการโมเดลที่ซับซ้อนมากขึ้น ซึ่งให้ผลลัพธ์ที่มีประสิทธิภาพและแม่นยำมากยิ่งขึ้นด้วย
การกำหนดประกอบด้วย ช่องใส่ไดรฟ์ NVMe SSD U.2 8x ที่ด้านหน้า แต่อย่างที่เราเห็นกับ R660 Dell ตั้งใจที่จะนําเสนอแบ็คเพลน E3.S 16x ด้วย ซึ่งรองรับอุปกรณ์ที่ใช้เชื่อมต่อ E3.S และเซิร์ฟเวอร์ยังรองรับ NVMe BOSS-N1 ที่อยู่ด้านหลังของเซิร์ฟเวอร์
PowerEdge XE9680 ไม่ใช่แค่เรื่องพลังงานเท่านั้น มันยังให้ความสำคัญกับความปลอดภัยและความสามารถในการจัดการด้วย ด้วยคุณสมบัติต่างๆ เช่น เฟิร์มแวร์ที่ต้องได้รับการเข้ารหัสข้อมูล Data at Rest Encryption และ Secure Boot เซิร์ฟเวอร์ช่วยให้มั่นใจได้ว่าข้อมูลของคุณได้รับการปกป้องเสมอ ระบบ iDRAC9 แบบฝังตัวให้อินเทอร์เฟซการจัดการที่ใช้งานง่าย และมีอินเทอร์เฟซที่มาพร้อมกับหลายเครื่องมือและการผสมผสานที่ทำให้การจัดการเซิร์ฟเวอร์เป็นเรื่องง่ายและไม่ยุ่งยาก
เรานําระบบนี้ไปทดสอบเมื่อเราต้องการเปลี่ยนการติดตั้งระบบปฏิบัติการ (จะมีข้อมูลเพิ่มเติมเกี่ยวกับสิ่งนี้ในภายหลัง) บนเซิร์ฟเวอร์ และง่ายกว่าที่จะใช้ฟังก์ชัน Cryptographic Erase ของ iDRAC ด้วยการคลิกเพียงไม่กี่ครั้งเพื่อเริ่มต้นการทำงานด้วยระบบใหม่ทั้งหมด
ก่อนหน้านี้เราได้สำรวจเอกสารขาวของ Dell เกี่ยวกับ XE9680 และประสิทธิภาพของเซิร์ฟเวอร์ Dell PowerEdge XE9680 เมื่อประเมินเทียบกับเกณฑ์มาตรฐานเวลาแฝงในการสร้างภาพที่กําหนด ที่ตั้งขึ้นโดย Lambda ผลลัพธ์ของเซิร์ฟเวอร์ส่งผลให้ประสิทธิภาพเพิ่มขึ้นประมาณสองเท่า ซึ่งเป็นข้อพิสูจน์ถึงความแรงและประสิทธิภาพของ PowerEdge XE9680 อย่างน่าทึ่ง
คะแนน MLPerf เป็นที่รู้จักอย่างกว้างขวางและได้รับการยอมรับว่าเป็นตัวบ่งบอกประสิทธิภาพของระบบในระดับนี้ ดังนั้นเพื่อใช้ประโยชน์จากเวลาที่เรามีกับเซิร์ฟเวอร์ XE9680 A100 และ H100 เราตัดสินใจรันการเปรียบเทียบระหว่างการปรับแต่ง Meta's LLaMa กับระบบสองระบบนี้ ซึ่งเราทําตามขั้นตอนการฝึกอบรม Alpaca ของ Stanford ซึ่งพวกเขาประสบความสําเร็จโดยใช้ระบบ 4x A100
เราขอขอบคุณทีมงานที่ NVIDIA และ Dell สําหรับความช่วยเหลือในโครงการนี้ นี่เป็นเทคโนโลยีที่ทันสมัยจากมุมมองของฮาร์ดแวร์และซอฟต์แวร์ หากไม่มีคำแนะนำจากผู้เชี่ยวชาญในอุตสาหกรรมจากทั้งสองบริษัท กระบวนการนี้ก็จะเป็นกระบวนการที่ยุ่งยากและเสียเวลามาก
บนระบบ A100 โดยใช้กระบวนการที่ระบุไว้ใน GitHub ของ Stanford Alpaca เราสามารถทำซ้ำขั้นตอนในการสร้างช่วงเวลาของ Alpaca โดยการสร้างค่าเฉลี่ยของการฝึกเป็นรอบทั้งหมด 3 รอบ ซึ่งใช้เวลาประมาณ 90 นาทีต่อรอบถึงเสร็จสิ้น
เมื่อเราย้ายไปยังระบบ H100 เราพบการปรับปรุงด้วยรอบการทำงานที่เสร็จสิ้นในระยะเวลาประมาณ 70 นาทีต่อรอบ เนื่องจากความต้องการสูงและลักษณะที่จํากัดของระบบเหล่านี้ เราจึงไม่มีโอกาสที่จะปรับแต่งโค้ดเองเพื่อสำรวจประสิทธิภาพที่เป็นไปได้ และมันเป็นเรื่องชัดเจนว่าด้วยการปรับปรุงและเวลาที่ใช้ในการพัฒนา ทีมองค์กรสามารถบรรลุความเร็วในการปรับแต่งอย่างรวดเร็ว
ใน XE9680 รุ่น A100 ที่เราทำการทดสอบด้วยวิธีที่ไม่เหมาะสมและไม่เป็นไปตามกฏ ทางเราได้ติดตั้ง Windows Server 2022 บนระบบนี้! กระบวนการนี้เกี่ยวข้องการล้างข้อมูลของไดรฟ์ iDRAC เพื่อลบการติดตั้งของ Linux และใช้เคล็ดลับบางอย่างเพื่อนำเข้าไดรเวอร์เครือข่าย Intel โดยใช้ไฟล์ .iso และสื่อเสริมผ่านทาง iDRAC จากนั้นเราได้ทำการติดตั้งไดรฟ์ชิพเซตจากระบบ Dell PowerEdge ที่เทียบเท่า และจากนั้นใช้ไดรเวอร์ NVIDIA A100 อย่างเป็นทางการ
ระบบทำงานได้และมีความเสถียรโดยไม่มีปัญหาใดๆ อย่างไรก็ดีนี่เป็นกรณีการใช้งานที่ผิดปกติอย่างมากที่ Dell ไม่สนับสนุนอย่างเป็นทางการ ดังนั้นเมื่อมีการติดตั้ง Windows ใหม่และการมี GPUs แปดอันดีที่สุดในตลาด เราได้ทำสิ่งที่ถนัดที่สุดนั่นคือการทดสอบความเร็วในการคำนวณค่า Pi!
การ์ด NVIDIA A100 จำนวน 8 ตัวสามารถทําลายสถิติ GPU-Pi ได้อย่างง่ายดายโดยไม่ต้องปรับแต่งใดๆ และหน่วยประมวลผล Xeon Platinum สร้างตัวเลขที่ยอดเยี่ยมทั้งใน y-cruncher และ Cinebench โดยเราได้ลองรันการทดสอบทาง CPU/GPU มาตรฐานอื่นๆ โดยไม่คาดหวังมากว่าเราจะสามารถใช้งานได้ และตามที่คาดไว้ เราพบปัญหาซอฟต์แวร์/ตัวเข้ารหัสที่มีปัญหาเกี่ยวกับการรันเสมือนกับโปรแกรม Procyon ซึ่งไม่รู้จักกับ Tensor GPU ที่พร้อมใช้งานสำหรับการทดสอบ
เราต้องย้ำอีกครั้งว่า นี่เป็นเพียงการทดสอบของการกำหนดค่าที่ไม่ได้รับการรับรอง และความจริงที่ว่ามันสามารถทำงานได้เป็นสิ่งที่น่าประทับใจ และยังเป็นการยืนยันถึงความสามารถของ Dell ในการผลิตฮาร์ดแวร์ที่ทนทานในรูปแบบต่างๆ การใช้ Windows Server บนระบบนี้ภายใต้สภาพแวดล้อมการใช้งานจริงนั้นเป็นทางเลือกที่ไม่เหมาะสม
Test |
Result |
Cinebench Multi |
90,710 |
Cinebench Single |
174 |
CB MP Ration |
77.24 |
|
|
Geekbench 6 GPU |
197,669 |
Geekbench 6 Single |
1,678 |
Geekbench6 Multi |
16,425 |
|
|
Monster: |
855.080461 samples per minute |
Junkshop: |
546.636998 samples per minute |
Classroom: |
394.441850 samples per minute |
|
|
PU Pi 3.2 1Billion |
0.394 Seconds |
GPU Pi 3.3 1Billion |
0.317 Seconds |
เป็นที่น่าสังเกตว่าประสิทธิภาพที่น่าประทับใจดังกล่าวไม่เพียงแต่เป็นความเร็ว แต่ยังส่งผลต่อการใช้งาน AI ในทางปฏิบัติด้วย ด้วยความสามารถในการฝึกฝนและปรับแต่งอย่างรวดเร็ว ทางองค์กรสามารถปรับปรุงความเร็วได้อย่างมาก ทำให้พวกเขาสามารถตอบสนองต่อการเปลี่ยนแปลงของตลาด ความต้องการของลูกค้า และความต้องการภายในได้อย่างรวดเร็ว ตัวอย่างเช่น ทีมออกแบบสามารถประเมินและปรับปรุงแนวคิดแบบเรียลไทม์ การลดระยะเวลาขายสินค้าลง หรือทีมความปลอดภัยสามารถฝึกฝนและปรับแต่งรุ่นที่อัปเดตอย่างต่อเนื่องด้วยนโยบายและขั้นตอนการดำเนินการล่าสุดของ LLM ได้อย่างต่อเนื่อง
ที่มา : https://bit.ly/3QEeiXE
สนใจสั่งซื้อสินค้า Dell PowerEdge คลิกที่นี่ >> https://www.quickserv.co.th/server/DELL.html