Data Cleansing คืออะไร ทำไมบริษัทคุณจึงต้องทำ
Please wait...
1726202978.png
1731393918.jpg
1732076627.jpg
1730459076.jpg
1730782055.jpg
1730966771.jpg
1731999875.jpg
ENTERPRISE IT UPDATE
Data Cleansing คืออะไร ทำไมบริษัทคุณจึงต้องทำ

Data Cleansing คืออะไร ทำไมบริษัทคุณจึงต้องทำ?

What is data cleansing

 

แพลตฟอร์มการคลีนข้อมูล (Data Cleansing) สามารถช่วยให้ข้อมูลที่ไม่ถูกต้องมีประโยชน์ขึ้นมาได้ แต่วิธีการอาจไม่ได้ง่ายเหมือนชื่อ

 

บทเรียนสำหรับผู้นำ

  • ข้อมูลส่วนมากของบริษัทมักเป็นข้อมูลที่ไม่สมบูรณ์ ไม่ต่อเนื่อง หรือไม่ถูกต้อง

  • ต้องมีการคลีนข้อมูลก่อนนำไปใช้ในการสร้างแบบจำลองการคาดการณ์

  • ต้องมีผู้เชี่ยวชาญในสาขาเฉพาะมาช่วยในการระบุว่าข้อมูลใดสำคัญที่สุดสำหรับธุรกิจ และตั้งกฎเกณฑ์ในการคลีนข้อมูลนี้

 
บางครั้งเราอาจรู้สึกเหมือนกำลังนั่งกินบุฟเฟต์ข้อมูลกันอยู่ เพราะปริมาณของข้อมูลนั้นเพิ่มขึ้นทีละสองเท่าในทุก  ๆ สองปี พร้อม ๆ กับการใช้ “การขับเคลื่อนการตัดสินใจด้วยข้อมูล” ซึ่งเป็นคติใหม่สำหรับธุรกิจไปแล้ว
 
แต่ว่าแม้ปริมาณของข้อมูลจะกำลังเพิ่มขึ้นอย่างทวีคูณ ความสามารถในการใช้งานข้อมูลให้ได้ประโยชน์ของบริษัทกลับไม่ได้เป็นไปตามนั้น ส่วนใหญ่แล้วเป็นเพราะว่าข้อมูลนั้นมีความเละเทะอยู่ ความไม่สอดคล้องต่อเนื่อง หรือไม่ก็ไม่สมบูรณ์นั่นเอง
 
ผลวิจัยล่าสุดโดย Experian เผยว่า มีบริษัทเพียงครึ่งเดียวเท่านั้นที่เชื่อว่าข้อมูลในระบบ CRM หรือ ERP ของตนเรียบร้อยพอใช้งานได้ เกือบหนึ่งในสามเชื่อว่า ข้อมูลลูกค้าหรือข้อมูลผู้มีโอกาสเป็นลูกค้าบางส่วนนั้นไม่ถูกต้องอยู่บ้าง
 
ข้อมูลของ Gartner ชี้ว่า ข้อมูลคุณภาพต่ำทำให้องค์กรเสียไปเกือบ 13 ล้านดอลลาร์ต่อปี และสามารถนำไปสู่การตัดสินใจที่ไม่มีประสิทธิภาพ ชื่อเสียงที่เสียหาย และการพลาดโอกาส David Sweenor ผู้อำนวยการอาวุโสฝ่ายการตลาดด้านผลิตภัณฑ์ที่ Alteryx ซึ่งเป็นแพลตฟอร์มระบบวิเคราะห์อัตโนมัติกล่าว
 
“การมีรากฐานที่มั่นคงแข็งแรงสำหรับธุรกิจของคุณนั้น คุณจะต้องมีข้อมูลที่เชื่อถือได้ซึ่งคุณสามารถใช้ในตัดสินใจได้อย่างมีเหตุผล” Sweenor บอก “การคลีนและยกระดับคุณภาพข้อมูลของคุณ คือจุดเริ่มต้นสำหรับทุกอย่างที่จะตามมา”
 
บรรดาคำที่สะกดผิดต่าง ๆ หรือการใช้คำต่างกันโดยไม่ต่อเนื่องสม่ำเสมอ การใส่รายการไม่ถูกต้อง รูปแบบฟอร์แมตที่ผิด ข้อมูลซ้ำหรือไม่สมบูรณ์ ทั้งหมดนี้เป็นสิ่งที่ทำให้ข้อมูลดี ๆ เสียไปได้ และเนื่องจากองค์กรต่าง ๆ พึ่งพาการวิเคราะห์เชิงคาดการณ์ (Predictive) กันมากขึ้นเรื่อย ๆ เพื่อขับเคลื่อนการตัดสินใจทางธุรกิจ การรับรองความน่าเชื่อถือของข้อมูลจึงเป็นสิ่งสำคัญ
 
"ต่อให้คุณใช้อัลกอริทึมแมชชีนเลิร์นนิงล้ำสมัย ข้อมูลคุณภาพต่ำก็จะไม่ให้ผลลัพธ์หรือมีความแม่นยำเท่าที่ต้องการอยู่ดี" Saravanan Natarajan นักวิทยาศาสตร์ด้านข้อมูลของ HPE กล่าว "แล้วแบบจำลองการคาดการณ์นี่ คุณภาพสำคัญกว่าปริมาณมาก" หรือก็คือ ข้อมูลคือเชื้อเพลิงสำหรับเครื่องยนต์ AI ของบริษัท เช่นเดียวกันกับยานพาหนะ การใส่น้ำมันสกปรกเข้าไปจะทำลายความสามารถในการเคลื่อนที่ไปข้างหน้าของมันในที่สุด
 

Data cleansing 101

พูดง่าย ๆ การคลีนข้อมูลหรือที่เรียกกันว่า Data Cleansing ไม่ก็ Data Scrubbing นั้นเป็นกระบวนการที่ใช้ในการระบุและแก้ไขความผิดพลาดหรือความไม่สม่ำเสมอกันของข้อมูล ซึ่งเป็นสิ่งที่ฟังดูง่ายในเชิงหลักการ แต่ซับซ้อนมากในความเป็นจริง

คุณภาพของข้อมูลนั้นแบ่งออกได้เป็นเก้ามิติ นับตั้งแต่ความเข้าถึงได้และความแม่นยำของข้อมูล ไปจนถึงความสม่ำเสมอและสมบูรณ์ครบถ้วนของข้อมูล Stewart Bond ผู้อำนวยการฝ่ายวิจัยด้านการรวมข้อมูลและบริการซอฟต์แวร์อัจฉริยะของ IDC กล่าว ตัวอย่างเช่น บางรายการอาจเขียนเป็นตัวย่อในขณะที่บางรายการไม่ใช่  เช่น Inc. หรือ Incorporated, Corp. หรือ Corporation, International หรือ Intl. นั่นเอง ฐานข้อมูลของคุณอาจลงทะเบียนบริษัทเดียวกันแยกเป็นสองหน่วยงานที่แตกต่างกัน
 
วันที่ สกุลเงิน และจำนวนตัวเลขอาจมีความแตกต่างกันไป ฟิลด์ทั้งหมดใช้หน่วยวัดเดียวกันหรือเปล่า เป็นนิ้วหรือเป็นเซ็นฯ ดอลลาร์หรือยูโร ใช้ระบบ 12 ชั่วโมงหรือ 24 ชั่วโมง มีที่ว่างเกินมาในฟิลด์หรือเปล่า สมองคุณจะระบุพวกมันเป็นสิ่งเดียวกันโดยอัตโนมัติ แต่คอมพิวเตอร์ไม่ทำแบบนั้น ฐานข้อมูลคุณเขียนว่าลูกค้าแต่งงาน แต่บอกด้วยหรือเปล่าว่าเขาอายุแค่ 10 ขวบ? อย่างน้อยก็มีอย่างใดอย่างหนึ่งถูก แต่ว่าเป็นข้อมูลตัวไหนกันล่ะที่ถูก?
 
ฟิลด์ที่ต้องใช้ในการรันแบบจำลองการคาดการณ์นั้นอาจจะโล่งหรือไม่สมบูรณ์ก็ได้ ในกรณีที่ว่านี้ คุณอาจต้องเลือกแทนค่าเป็นค่าเฉลี่ยแทน หรือใช้ข้อมูลสังเคราะห์ขึ้นใหม่จากคอมพิวเตอร์เพื่อให้การคำนวณเสร็จสมบูรณ์
 
ข้อมูลยังเสื่อมค่าลงได้เหมือนเวลาผ่านไป Bond กล่าวเสริม ผู้คนไปต่อ เปลี่ยนงาน ต่างงาน เปลี่ยนชื่อ แล้วก็ตาย ดังนั้น องค์กรอาจต้องใช้ข้อมูลจากบุคคลที่สามเพื่อรู้ว่าฐานข้อมูลตัวเองยังเป็นปัจจุบันอยู่หรือไม่
 
มีโปรแกรมซอฟต์แวร์เฉพาะสำหรับคลีนฐานข้อมูลประเภทต่าง ๆ ที่แตกต่างกัน เช่น ฐานข้อมูลผู้ติดต่อ ที่ตั้ง ประเภทธุรกิจ ผลิตภัณฑ์ และอื่น ๆ Bond กล่าว โดยแอปเหล่านี้กำลังใช้ AI และแมชชีนเลิร์นนิงในการทำเรื่องยาก ๆ แทนมากขึ้น เช่น การสร้างกฎ (ลบช่องว่างเพิ่มเติม เปลี่ยนอินสแตนซ์ทั้งหมดของ "แคลิฟอร์เนีย" เป็น "CA" เป็นต้น) และให้คำแนะนำในการคลีนข้อมูล โดย Bond ไม่ลืมบอกให้เราทราบว่า คุณไม่สามารถทำให้กระบวนการทั้งหมดเป็นแบบอัตโนมัติได้ เมื่อถึงจุดหนึ่ง คุณจะต้องให้ผู้เชี่ยวชาญเฉพาะด้านที่เป็นมนุษย์เข้ามามีส่วนร่วมและทำหน้าที่ตัดสินใจ

ที่มา: 
https://bit.ly/3WdSuTA

ควิกเซิร์ฟ
สินค้า
งานระบบ
บริการ
กิจกรรม
ออนไลน์