Cisco กำหนดกลยุทธ์สำหรับเครือข่าย AI ที่ใช้อีเทอร์เน็ต

Cisco shapes its strategy for Ethernet based AI networks

อีเธอร์เน็ตที่รองรับอนาคตสำหรับ AI เป็นสิ่งสำคัญอันดับแรกของ Cisco ซึ่งวางตำแหน่งสวิตช์ศูนย์ข้อมูล Nexus ให้เป็นองค์ประกอบหลักของโครงสร้างพื้นฐานเครือข่าย AI

Cisco ได้อยู่ในภารกิจที่จะทำให้อีเธอร์เน็ต (Ethernet) ได้รับความมั่นใจ ว่าเป็นรากฐานหลักสำหรับเครือข่ายปัญญาประดิษฐ์ทั้งในปัจจุบันและอนาคต

ในช่วงหลายปีที่ผ่านมา Cisco ได้ให้การสนับสนุนอย่างมากต่อการพัฒนาอีเทอร์เน็ตในกลุ่ม IEEE และกลุ่มอุตสาหกรรมอื่นๆ และตอนนี้ก็เป็นหนึ่งในผู้จำหน่ายหลักที่ขับเคลื่อน Ultra Ethernet Consortium (UEC) ซึ่งเป็นกลุ่มที่ทำงานเพื่อพัฒนาทางกายภาพ ลิงก์ การขนส่ง และซอฟต์แวร์ ความก้าวหน้าของเลเยอร์สำหรับอีเธอร์เน็ต เพื่อให้สามารถรองรับโครงสร้างพื้นฐาน AI ได้มากขึ้น

“องค์กรต่างๆ กำลังนั่งอยู่บนข้อมูลจำนวนมหาศาล ที่พวกเขาพยายามจะทำให้เข้าถึงได้ง่ายและมีมูลค่าได้อย่างรวดเร็วมากยิ่งขึ้น และตอนนี้พวกเขากำลังพิจารณาเทคโนโลยี AI” โทมัส ไชบ์ รองประธานฝ่ายการจัดการผลิตภัณฑ์ เครือข่ายคลาวด์ของสายผลิตภัณฑ์ Cisco, Nexus และ ACI กล่าว

“ณ ตอนนี้ลูกค้าต้องการทราบว่าจะต้องทำอะไร สำหรับด้านเครือข่ายเพื่อให้สามารถรันคลัสเตอร์ GPU ขนาดใหญ่ที่พวกเขาต้องการและจัดการปริมาณข้อมูลที่พวกเขาสร้างขึ้น ซึ่งสำหรับลูกค้าส่วนใหญ่ มันจะเป็นอีเธอร์เน็ต” Scheibe กล่าว

ด้วยเหตุนี้ Cisco จึงได้รวบรวมพิมพ์เขียวที่กำหนดวิธีที่องค์กรต่างๆ สามารถใช้เครือข่ายอีเทอร์เน็ตของศูนย์ข้อมูลที่มีอยู่ เพื่อรองรับปริมาณงาน AI ในปัจจุบันได้

คุณลักษณะขั้นสูงของ Nexus 9000

องค์ประกอบหลักของพิมพ์เขียว AI ของ Cisco คือสวิตช์ศูนย์ข้อมูลของ Nexus 9000 ซึ่งรองรับแบนด์วิดท์สูงสุดถึง 25.6Tbps ต่อ ASIC และ “มีความสามารถด้านฮาร์ดแวร์และซอฟต์แวร์ที่มีอยู่ในปัจจุบันเพื่อมอบเวลาแฝงที่เหมาะสม กลไกการจัดการความแออัด และการวัดและส่งข้อมูลทางไกลเพื่อตอบสนองข้อกำหนดของแอปพลิเคชัน AI/ML” Cisco เขียนไว้ในพิมพ์เขียวระบบเครือข่ายศูนย์ข้อมูลสำหรับแอปพลิเคชัน AI/ML “เมื่อใช้งานร่วมกับเครื่องมือต่างๆ เช่น Cisco Nexus Dashboard Insights เพื่อการมองเห็นและ Nexus Dashboard Fabric Controller สำหรับระบบอัตโนมัติ สวิตช์ Cisco Nexus 9000 กลายเป็นแพลตฟอร์มที่เหมาะสมที่สุดในการสร้างแฟบริคเครือข่าย AI/ML ที่มีประสิทธิภาพสูง”

Scheibe กล่าวว่ามีสองเทคโนโลยีที่เปิดใช้งานเครือข่ายที่ใช้ Nexus AI คือ ระบบปฏิบัติการ NX-OS ของสวิตช์ที่รองรับการเข้าถึงหน่วยความจำโดยตรงระยะไกลผ่านอีเธอร์เน็ตแบบรวมเวอร์ชัน 2 (ROCEv2) และการแจ้งเตือนความแออัดที่ชัดเจน (ECN)
ROCEv2 เป็นเทคโนโลยีการประมวลผลเครือข่ายประสิทธิภาพสูง ที่ช่วยให้ถ่ายโอนข้อมูลได้โดยตรงระหว่างหน่วยความจำของอุปกรณ์ทั้งสอง โดยไม่ต้องเกี่ยวข้องกับ CPU ของเซิร์ฟเวอร์ ช่วยให้สามารถถ่ายโอนหรือกำหนดเส้นทางแพ็กเก็ตหลายรายการพร้อมกันผ่านการเชื่อมต่อเดียว ช่วยลดความหน่วงและความซับซ้อนตลอดจนเพิ่มปริมาณงาน

Scheibe กล่าวว่า ECN เปิดใช้งานเครือข่ายอีเทอร์เน็ตแบบไม่สูญเสียข้อมูล โดยการตรวจสอบความแออัดของเครือข่ายหรือสถานการณ์อื่นๆ ที่แพ็กเก็ตอาจหลุด และควบคุมปริมาณเครือข่ายกลับเพื่อให้แน่ใจว่าจะไม่เกิดขึ้น เครือข่าย Lossless Ethernet ไม่เพียงแต่เป็นข้อกำหนดหลักสำหรับเครือข่าย AI แต่ยังรวมถึงสภาพแวดล้อม VOIP หรือวิดีโอในปัจจุบันด้วย

เครื่องมืออีกอย่างหนึ่งคือ Priority Flow Control สามารถช่วยควบคุมความแออัดในเครือข่ายที่ใช้เลเยอร์ 3 และมีบทบาทสำคัญในการจัดการความแออัดโดยรวม

Scheibe กล่าวว่าเมื่อนำมารวมกัน เทคโนโลยีเหล่านี้จะช่วยให้เครือข่ายอีเธอร์เน็ตสามารถจัดลำดับความสำคัญของชุดเวิร์กโหลดบางชุดได้ เช่น เวิร์กโหลด AI ที่ไม่สามารถทนต่อแพ็กเก็ตที่ตกหล่น และจะได้รับลำดับความสำคัญของเครือข่ายเสมอแม้ว่าจะมีความแออัดก็ตาม

“เทคโนโลยีเหล่านี้สามารถนำไปใช้ในเครือข่าย Nexus ได้แล้วในปัจจุบัน และลูกค้าสามารถปรับแต่งสภาพแวดล้อมเพื่อรองรับปริมาณงานที่หลากหลายได้” Scheibe กล่าว “มีงานอย่างต่อเนื่องเพื่อจัดการกับปริมาณงาน AI ที่ใหญ่ขึ้นเรื่อยๆ และมีเทคนิคอื่นๆ ที่สามารถนำมาใช้ เพื่อให้แน่ใจว่าลูกค้าสามารถกระจายงานเหล่านั้นผ่านแบนด์วิดท์ที่มีอยู่ได้อย่างง่ายดาย”

Scheibe กล่าวว่า Cisco ยังได้เผยแพร่สคริปต์ เพื่อให้ลูกค้าสามารถทำการตั้งค่าเฉพาะทั่วทั้งเครือข่ายโดยอัตโนมัติ เพื่อตั้งค่าแฟบริคนี้และลดความซับซ้อนในการกำหนดค่า

Cisco กล่าวว่านอกจากนี้ สวิตช์ Nexus 9000 ยังมาพร้อมกับความสามารถในการส่งข้อมูลทางไกลในตัวที่สามารถใช้เพื่อเชื่อมโยงปัญหาในเครือข่าย และช่วยเพิ่มประสิทธิภาพสำหรับการขนส่ง RoCEv2

“สวิตช์ตระกูล Cisco Nexus 9000 ให้ข้อมูลการวัดและส่งข้อมูลทางไกลของโฟลว์ฮาร์ดแวร์ผ่านตารางโฟลว์และเหตุการณ์ตารางโฟลว์ ด้วยคุณสมบัติเหล่านี้ ทุกแพ็กเก็ตที่ผ่านสวิตช์สามารถตรวจสอบ สังเกต และมีความสัมพันธ์กับพฤติกรรม เช่น การระเบิดของไมโครหรือแพ็กเก็ตลดลง” Cisco เขียน ลูกค้าสามารถส่งออกข้อมูลนี้ไปยังแพ็คเกจการจัดการ Cisco Nexus Dashboard Insights และแสดงข้อมูลต่ออุปกรณ์ ต่ออินเทอร์เฟซ ลงไปจนถึงรายละเอียดระดับต่อโฟลว์ ตามข้อมูลของ Cisco

นอกเหนือจาก Nexus 9000

องค์ประกอบอีกประการหนึ่งของโครงสร้างพื้นฐานเครือข่าย AI ของ Cisco คือโปรเซสเซอร์ Silicon One ที่ตั้งโปรแกรมได้ระดับไฮเอนด์ตัวใหม่ ซึ่งมุ่งเป้าไปที่โครงสร้างพื้นฐาน AI/ML ขนาดใหญ่สำหรับองค์กรและไฮเปอร์สเกลเลอร์

Cisco เพิ่ม 5nm 51.2Tbps Silicon One G200 และ 25.6Tbps G202 ให้กับตระกูล Silicon One ที่มีสมาชิก 13 รายในขณะนี้ โปรเซสเซอร์สามารถปรับแต่งสำหรับการกำหนดเส้นทางหรือการสลับจากชิปเซ็ตตัวเดียว ช่วยลดความจำเป็นในการใช้สถาปัตยกรรมซิลิคอนที่แตกต่างกันสำหรับฟังก์ชันเครือข่ายแต่ละอย่าง ซึ่งสามารถทำได้โดยใช้ระบบปฏิบัติการทั่วไป รหัสการส่งต่อแบบตั้งโปรแกรมได้ P4 และ SDK

Cisco กล่าวว่าอุปกรณ์ใหม่ซึ่งอยู่ในตำแหน่งสูงสุดของตระกูล Silicon One จะนำมาซึ่งการปรับปรุงเครือข่ายที่ทำให้เหมาะอย่างยิ่งสำหรับการใช้งาน AI/ML ที่มีความต้องการสูงหรือแอปพลิเคชันอื่นๆ ที่มีการกระจายตัวสูง

แกนหลักของระบบ Silicon One คือการรองรับคุณสมบัติอีเธอร์เน็ตที่ได้รับการปรับปรุง เช่น การควบคุมการไหลที่ดีขึ้น การรับรู้ถึงความแออัด และการหลีกเลี่ยง

ระบบยังรวมความสามารถในการปรับสมดุลโหลดขั้นสูงและ "การพ่นแพ็กเก็ต" ที่กระจายการรับส่งข้อมูลไปยัง GPU หรือสวิตช์หลายตัวเพื่อหลีกเลี่ยงความแออัดและปรับปรุงเวลาแฝง การกู้คืนความล้มเหลวของลิงก์ที่ใช้ฮาร์ดแวร์ยังช่วยให้แน่ใจว่าเครือข่ายทำงานได้อย่างมีประสิทธิภาพสูงสุด ตามที่ Cisco กล่าว

Cisco กล่าวว่าการผสมผสานเทคโนโลยีอีเธอร์เน็ตที่ได้รับการปรับปรุงและพัฒนาไปอีกขั้นนี้ ช่วยให้ลูกค้าสามารถตั้งค่าสิ่งที่ Cisco เรียกว่า Scheduled Fabric ได้ในที่สุด ใน Scheduled Fabric ส่วนประกอบทางกายภาพ เช่น ชิป ออพติก สวิตช์ จะเชื่อมโยงเข้าด้วยกันเหมือนแชสซีโมดูลาร์ขนาดใหญ่ และสื่อสารระหว่างกันเพื่อให้มีพฤติกรรมการกำหนดเวลาที่เหมาะสมที่สุดและปริมาณงานแบนด์วิธที่สูงขึ้นมาก โดยเฉพาะอย่างยิ่งสำหรับโฟลว์เช่น AI/ML

มุ่งมั่นสู่ความยั่งยืนของศูนย์ข้อมูล

Scheibe กล่าวว่า แม้ว่า AI ดูเหมือนจะครอบคลุมทุกด้านในปัจจุบัน แต่ก็มีหัวข้ออื่นๆ ที่ท้าทายผู้ให้บริการเครือข่ายศูนย์ข้อมูล ตัวอย่างเช่น ลูกค้ากำลังมองหาการขยายเครือข่ายศูนย์ข้อมูลที่มีอยู่อย่างมีประสิทธิภาพเพื่อรองรับเวิร์กโหลดขนาดใหญ่ ดังนั้นพวกเขาต้องการค้นหาวิธีที่ดีที่สุดในการรวม 400G เข้ากับเครือข่าย ความท้าทายที่สำคัญอีกสองประการคือ ลดการใช้พลังงานของศูนย์ข้อมูลและเพิ่มแนวทางปฏิบัติด้านความยั่งยืน

“องค์กรต่างๆ กำลังมองหาความช่วยเหลือในการทราบข้อมูลพื้นฐานเกี่ยวกับปริมาณพลังงานที่พวกเขาใช้ และการเรียนรู้ว่าการปล่อยก๊าซคาร์บอนไดออกไซด์ในปัจจุบันเป็นอย่างไร เพื่อให้พวกเขาสามารถตัดสินใจอย่างชาญฉลาดว่าจะก้าวไปข้างหน้าอย่างไร”

Cisco Nexus Cloud นำเสนอบริการการใช้พลังงานเครือข่ายที่ช่วยให้ลูกค้าทราบถึงผลกระทบต่อสิ่งแวดล้อมของศูนย์ข้อมูล เมื่อเร็วๆ นี้ Cisco ประกาศว่า Nexus Dashboard จะให้ข้อมูลเชิงลึกแบบเรียลไทม์และประวัติย้อนหลัง สำหรับการใช้พลังงานของอุปกรณ์ไอทีทั้งหมดในศูนย์ข้อมูล และประเมินปริมาณพลังงานของการดำเนินงานของศูนย์ข้อมูล

นอกจากนี้ Nexus Dashboard ยังจัดเตรียมพิมพ์เขียวศูนย์ข้อมูล AI สำหรับระบบเครือข่าย ซึ่งจะทำให้องค์กรต่างๆ ที่ต้องการพัฒนาแอปพลิเคชันที่ใช้ AI มีวิธีการตั้งค่าเครือข่ายเพื่อรองรับปริมาณธุรกรรมที่เพิ่มขึ้น ตัวอย่างเช่น จะให้รายละเอียดวิธีการใช้การย้ายเครือข่าย InfiniBand-to-Ethernet และแฟบริคแมชชีนเลิร์นนิงขนาดใหญ่

ที่มา : https://bit.ly/47t34en