Please wait...
SOLUTIONS CORNER
4 ขั้นตอนในการทำ Big Data Project ให้ประสบความสำเร็จ

4 ขั้นตอนในการทำ Big Data Project ให้ประสบความสำเร็จ

วิธีที่จะช่วยให้องค์กรได้รับมุมมองแบบ end-to-end เกี่ยวกับ Data Pipeline ของพวกเขา

 

หนึ่งในเทคโนโลยีที่ทำให้ธุรกิจมากมายประสบความสำเร็จนั่นก็คือ Big Data ด้วยข้อมูลจำนวมหาศาลที่อยู่ในมือ โดยที่พวกเขาสามารถนำมันมาประมวลผลและวิเคราะห์เพื่อนำผลที่ได้มาสร้างมูลค่าทางธุรกิจ และใช้ในการแก้ปัญหาสำคัญๆ ในขณะที่ เครื่องมือทั้งหมดของระบบนิเวศ (Ecosystem) ได้มีการพัฒนาขึ้นมาในช่วงเวลาที่ไล่เลี่ยกันกับ Hadoop เพื่อช่วยในการวิเคราะห์และจัดการกับข้อมูลนั้น แต่เครื่องมือต่างๆ เหล่านั้นก็มีความเชี่ยวชาญเพียงแค่บางส่วนของกระบวนการที่มีขนาดใหญ่นี้

 

เมื่อองค์กรสามารถใช้ประโยชน์จาก Hadoop ได้อย่างมีประสิทธิภาพ อาจจะส่งผลให้ศักยภาพทางด้านไอทีและผลประโยชน์ที่องค์กรจะได้รับ (Business Benefit) มีขนาดใหญ่เป็นพิเศษ ซึ่งก็เช่นเดียวกับเทคโนโลยีอื่นๆ ที่เพิ่งจะเริ่มมีการพัฒนาอย่างเต็มที่ โดยมีอุปสรรคในการเข้ามาเป็นคู่แข่งรายใหม่จึงกลายเป็นเรื่องที่ท้าทาย โดยเฉพาะในเรื่องของการนำ Hadoop ไปใช้เป็นเครื่องมือในการวิเคราะห์ผลการดำเนินงานตามแนวคิดมูลค่าเพิ่ม (Value-Added Analytics) ได้สำเร็จ

 

เพื่อให้ได้ประโยชน์สูงสุดจาก Hadoop องค์กรต่างๆ จำเป็นที่ต้องหยุดเพื่อทบทวน และทำการตรวจวิเคราะห์เกี่ยวกับ Data Pipeline ของพวกเขา โดยใช้มุมมองแบบ end-to-end โดยที่องค์กรควรที่จะต้องรักษาหลักการสำคัญ ดังต่อไปนี้

 

1.มั่นใจได้ถึงวิธีการที่ยืดหยุ่นและปรับขนาดได้เพื่อการนำข้อมูลเข้า (Data Ingestion) อย่างมีประสิทธิภาพ

โดยทั่วไปแล้ว ขั้นตอนแรกใน Data Pipeline ขององค์กรนั้น จะเกี่ยวข้องกับระบบต้นทางของการสื่อสารข้อมูล (Source Systems) และข้อมูลดิบ (Raw Data) โดยจะถูกส่งถ่ายข้อมูลจากต้นทางมายังปลายทาง (Ingest), ผสมผสาน (Blended) และวิเคราะห์ (Analyze) ในที่สุด และจากประสบการณ์ทางการตลาดเราสามารถบอกได้ว่า ข้อมูลเชิงลึกที่สำคัญที่สุดนั้นเกิดจากการผสมผสานของข้อมูลที่หลากหลาย ซึ่งในตอนแรกอาจจะถูกแยกเก็บใน Silo ซึ่งเป็นการเก็บแบบแยกส่วนตามโครงสร้างขององค์กร ที่จะต้องทำการรวบรวมจากทั่วทั้งองค์กร

 

ในปัจจุบัน องค์กรไม่เพียงแต่จะต้องเตรียมพร้อมสำหรับข้อมูลที่พวกเขาวางแผนที่จะรวมเข้ากับ Hadoop แล้ว แต่พวกเขายังมีข้อมูลที่จะต้องจัดการสำหรับ Use Cases อื่นๆ ที่เป็นไปได้ในอนาคต รวมถึงการวางแผนเพื่อลดภาระ (Effort) งานที่จะต้องทำในลักษณะ Manual ในขณะที่พวกเขายังต้องมองหาการออกแบบเวิร์กโฟลว์การนำเข้าข้อมูล เพื่อสร้างวิธีการแบบไดนามิก (Dynamic) และสามารถนำข้อมูลกลับมาใช้ใหม่ได้ 

 

2.ขับเคลื่อนการประมวลผลและการทำ Data Blending ข้อมูลที่มีขนาดใหญ่

เมื่อองค์กรประสบความสำเร็จในการดึงข้อมูลที่หลากหลายเข้าสู่ Hadoop ในรูปแบบที่ยืดหยุ่นและปรับขนาดได้แล้วนั้น ขั้นตอนต่อไป ก็จะนำไปสู่ขั้นตอนของการประมวลผล (Processing), การแปลงสภาพข้อมูล (Transforming) และการทำ Data Blending กับข้อมูลที่มีขนาดใหญ่บนคลัสเตอร์ของ Hadoop

 

นอกจากนี้ การวิเคราะห์ข้อมูลจาก Big data ยังต้องอาศัยหลักการพื้นฐานและเทคนิคบางอย่าง ในการดึงข้อมูลสำคัญออกจากชุดฐานข้อมูลขนาดใหญ่ซึ่งเต็มไปด้วยข้อมูลหลากหลายรูปแบบ เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์ทางธุรกิจ ไม่ว่าจะด้วยการใช้ Hadoop หรือเครื่องมืออย่างอื่นก็ตาม ดังนั้น การบำรุงรักษาและพัฒนาแอพพลิเคชั่นที่ใช้ข้อมูลจำนวนมากเหล่านี้ จึงกลายเป็นสิ่งที่ทุกคนสามารถเข้าถึงได้ นอกเหนือไปจากกลุ่มเล็กๆ ของผู้เชี่ยวชาญด้านการเขียนโค้ด เท่านั้น

 

ในโลกที่เต็มไปด้วยข้อมูลขนาดใหญ่ (Big Data) ที่มีการพัฒนาไปอย่างรวดเร็ว แผนกไอทีก็ยังต้องรักษาและออกแบบการแปลงสภาพของข้อมูล (Data Transformation) โดยที่ไม่ต้องกังวลกับการเปลี่ยนแปลงของโครงสร้างต้นแบบ (Underlying Structure) แทนที่จะใช้กล่องดำ (Black Box) เป็นแนวทางในการแปลงสภาพของข้อมูลบน Hadoop แต่องค์กรควรที่จะต้องพยายามหาแนวทางที่เป็นการผสานรวมระหว่างการการควบคุม (Control) และความสามารถในการมองเห็น (Visibility) ในเชิงลึก ที่จะช่วยให้การใช้งานง่ายยิ่งขึ้น

 

3.การส่งมอบข้อมูลเชิงลึกที่สมบูรณ์ เกี่ยวกับการวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data Analytic) ไปยังธุรกิจ

สิ่งสำคัญที่จะช่วยปลดล็อคการวิเคราะห์ เพื่อให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์สูงสุดจาก Hadoop นั่นก็คือ การพิจารณาอย่างรอบคอบถึงผู้ใช้ทางธุรกิจที่เกี่ยวข้องทั้งหมด ซึ่งก็รวมถึงกระบวนการทางธุรกิจและแอปพลิเคชั่นต่างๆ (ทั้งภายในและภายนอก) ที่มีส่วนเกี่ยวข้องกับโครงการ โดยข้อมูลผู้บริโภคที่แตกต่างกันนั้นก็อาจจำเป็นที่จะต้องใช้เครื่องมือและวิธีการที่แตกต่างกัน ทั้งนี้ก็ต้องขึ้นอยู่กับความต้องการข้อมูลและระดับความซับซ้อนของพวกเขา

 

ในขณะที่นักวิทยาศาสตร์ด้านข้อมูลและนักวิเคราะห์ที่มีความเชี่ยวชาญขั้นสูง เริ่มทำการสืบค้นและสำรวจชุดข้อมูลแบบผสมผสานใน Hadoop พวกเขามักจะใช้คลังข้อมูล (Data Warehouse) และเทคโนโลยีประมวลผลสำหรับ Hadoop ที่เป็นภาษาคล้าย SQL (SQL-like) เช่น Hive (ที่ทำหน้าที่ในการแปล SQL like ให้มาเป็น MapReduce) และ Impala (ซึ่งเป็นเครื่องมือที่คล้ายกับ Hive) นับว่าโชคดีที่เครื่องมือเหล่านี้ใช้เวลาในการเรียนรู้ไม่นาน เนื่องจากมันเป็นภาษาที่ใช้สำหรับค้นหาข้อมูลจากฐานข้อมูลหรือ Query Language (QL) ที่เราคุ้นเคยนั่นเอง

 

นี่ก็เป็นหนึ่งสถานการณ์ ที่การพิจารณา Hadoop จะเป็นส่วนหนึ่งที่สำคัญของการทำ Analytic Pipeline ที่กว้างขึ้น โดยเฉพาะในหลายๆ องค์กรที่คุ้นเคยกับฐานข้อมูลเชิงสัมพันธ์ (Relational Databases) ที่มีประสิทธิภาพสูง ที่ได้รับการปรับเพื่อให้เหมาะสำหรับการวิเคราะห์ของผู้ใช้ปลายทางแบบโต้ตอบ (Interactive) หรือเป็นที่รู้จักกันในชื่อของ "ฐานข้อมูลเชิงวิเคราะห์" (Analytic Databases) ซึ่งองค์กรต่างๆ เหล่านี้พบว่า การส่งมอบชุดข้อมูลที่ได้รับการปรับปรุงจาก Hadoop ไปยังฐานข้อมูลเหล่านี้ เป็นอีกหนึ่งวิธีที่จะช่วยให้การปลดปล่อยพลังการประมวลผลของ Hadoop มีประสิทธิภาพมากยิ่งขึ้น

 

4.ใช้วิธีการ "มุ่งเน้นไปที่วิธีการแก้ปัญหา" (Solution-Oriented) เป็นสำคัญ

ในช่วงไม่กี่ปีที่ผ่านมา ความก้าวหน้าหลายๆ อย่างได้ถูกสร้างขึ้นใน Hadoop Ecosystem ขณะที่มันก็ยังคงเติบโตในฐานะของแพลตฟอร์มเพื่อการปรับใช้กับองค์กรการผลิต (Production Enterprise) ในส่วนของข้อกำหนดต่างๆ ที่เกี่ยวกับโครงการริเริ่มด้านเทคโนโลยีขององค์กร  (Technology Initiatives) มีแนวโน้มที่จะได้รับการพัฒนาและอยู่ในช่วงของการ  "กำลังดำเนินการ" (Works in Progress) ซึ่ง Hadoop ก็ได้แสดงให้เห็นถึงองค์ประกอบใหม่ที่สำคัญใน Data Pipeline ที่กว้างขึ้น และความคิดริเริ่มที่เกี่ยวข้อง ซึ่งตามปกติแล้วจะต้องมีวิธีการแบบค่อยเป็นค่อยไป (Phased Approach)

 

ผู้ประเมินซอฟต์แวร์ต่างก็รู้ว่า พวกเขาจะไม่สามารถพบกับอุปกรณ์แม้แต่ชิ้นเดียวที่มีทุกอย่างพร้อม ( Off-the-shelf ) เพื่อที่จะตอบสนองความต้องการด้านข้อมูลและการวิเคราะห์ของ Hadoop ได้ทั้งหมด ทั้งในปัจจุบันและในอนาคตข้างหน้า ซึ่งในปัจจุบันนี้คำว่า "รองรับอนาคต" (Future-proof) ได้ถูกนำมาใช้มากเกินไปในเรื่องที่เกี่ยวกับ Big Data แต่ยังมีสิ่งที่ต้องคำนึงถึงนั่นก็คือ ความสามารถในการขยายระบบและความยืดหยุ่นเพื่อรองรับการทำงานที่สูงขึ้น  ซึ่งทั้งสองอย่างนี้ควรจะเป็นส่วนสำคัญของแบบสำรวจรายการ (Checklist) ของโครงการทั้งหมด

 

อย่างไรก็ตาม ความสามารถในการแปลงสภาพข้อมูล (Transformations) เพื่อให้ทำงานได้อย่างราบรื่น ด้วยการแบ่งไฟล์ออกเป็นไฟล์ย่อยๆ ที่เรียกว่า Block แล้วนำไปเก็บกระจายตาม Node ต่างๆ ที่ถูกจัดอยู่ในรูปแบบ Cluster เพื่อนำไปสู่ความสามารถในการรองรับข้อมูลที่ไม่จำกัดของ Hadoop นั้น เป็นเพียงจุดเริ่มต้น แต่ความคงทน (Durability) ที่แท้จริงของข้อมูลนั้น จำเป็นต้องใช้วิธีการโดยรวมของแพลตฟอร์ม เพื่อให้มีความยืดหยุ่นที่สอดคล้องกับนวัตกรรมแบบเปิด (Open Innovation) ที่ขับเคลื่อนด้วย Hadoop Ecosystem

ควิกเซิร์ฟ
สินค้า
งานระบบ
บริการ
กิจกรรม
ออนไลน์
Server
Hyper converged
Storage
UPS
Networking
PC
All in one
Notebook
Monitor
Printer
Hosting
Google cloud
AWS
Microsoft Azure
SSL