ข้อมูลส่วนมากของบริษัทมักเป็นข้อมูลที่ไม่สมบูรณ์ ไม่ต่อเนื่อง หรือไม่ถูกต้อง
ต้องมีการคลีนข้อมูลก่อนนำไปใช้ในการสร้างแบบจำลองการคาดการณ์
ต้องมีผู้เชี่ยวชาญในสาขาเฉพาะมาช่วยในการระบุว่าข้อมูลใดสำคัญที่สุดสำหรับธุรกิจ และตั้งกฎเกณฑ์ในการคลีนข้อมูลนี้
บางครั้งเราอาจรู้สึกเหมือนกำลังนั่งกินบุฟเฟต์ข้อมูลกันอยู่ เพราะปริมาณของข้อมูลนั้นเพิ่มขึ้นทีละสองเท่าในทุก ๆ สองปี พร้อม ๆ กับการใช้ “การขับเคลื่อนการตัดสินใจด้วยข้อมูล” ซึ่งเป็นคติใหม่สำหรับธุรกิจไปแล้ว
แต่ว่าแม้ปริมาณของข้อมูลจะกำลังเพิ่มขึ้นอย่างทวีคูณ ความสามารถในการใช้งานข้อมูลให้ได้ประโยชน์ของบริษัทกลับไม่ได้เป็นไปตามนั้น ส่วนใหญ่แล้วเป็นเพราะว่าข้อมูลนั้นมีความเละเทะอยู่ ความไม่สอดคล้องต่อเนื่อง หรือไม่ก็ไม่สมบูรณ์นั่นเอง
ผลวิจัยล่าสุดโดย Experian เผยว่า มีบริษัทเพียงครึ่งเดียวเท่านั้นที่เชื่อว่าข้อมูลในระบบ CRM หรือ ERP ของตนเรียบร้อยพอใช้งานได้ เกือบหนึ่งในสามเชื่อว่า ข้อมูลลูกค้าหรือข้อมูลผู้มีโอกาสเป็นลูกค้าบางส่วนนั้นไม่ถูกต้องอยู่บ้าง
ข้อมูลของ Gartner ชี้ว่า ข้อมูลคุณภาพต่ำทำให้องค์กรเสียไปเกือบ 13 ล้านดอลลาร์ต่อปี และสามารถนำไปสู่การตัดสินใจที่ไม่มีประสิทธิภาพ ชื่อเสียงที่เสียหาย และการพลาดโอกาส David Sweenor ผู้อำนวยการอาวุโสฝ่ายการตลาดด้านผลิตภัณฑ์ที่ Alteryx ซึ่งเป็นแพลตฟอร์มระบบวิเคราะห์อัตโนมัติกล่าว
“การมีรากฐานที่มั่นคงแข็งแรงสำหรับธุรกิจของคุณนั้น คุณจะต้องมีข้อมูลที่เชื่อถือได้ซึ่งคุณสามารถใช้ในตัดสินใจได้อย่างมีเหตุผล” Sweenor บอก “การคลีนและยกระดับคุณภาพข้อมูลของคุณ คือจุดเริ่มต้นสำหรับทุกอย่างที่จะตามมา”
บรรดาคำที่สะกดผิดต่าง ๆ หรือการใช้คำต่างกันโดยไม่ต่อเนื่องสม่ำเสมอ การใส่รายการไม่ถูกต้อง รูปแบบฟอร์แมตที่ผิด ข้อมูลซ้ำหรือไม่สมบูรณ์ ทั้งหมดนี้เป็นสิ่งที่ทำให้ข้อมูลดี ๆ เสียไปได้ และเนื่องจากองค์กรต่าง ๆ พึ่งพาการวิเคราะห์เชิงคาดการณ์ (Predictive) กันมากขึ้นเรื่อย ๆ เพื่อขับเคลื่อนการตัดสินใจทางธุรกิจ การรับรองความน่าเชื่อถือของข้อมูลจึงเป็นสิ่งสำคัญ
"ต่อให้คุณใช้อัลกอริทึมแมชชีนเลิร์นนิงล้ำสมัย ข้อมูลคุณภาพต่ำก็จะไม่ให้ผลลัพธ์หรือมีความแม่นยำเท่าที่ต้องการอยู่ดี" Saravanan Natarajan นักวิทยาศาสตร์ด้านข้อมูลของ HPE กล่าว "แล้วแบบจำลองการคาดการณ์นี่ คุณภาพสำคัญกว่าปริมาณมาก" หรือก็คือ ข้อมูลคือเชื้อเพลิงสำหรับเครื่องยนต์ AI ของบริษัท เช่นเดียวกันกับยานพาหนะ การใส่น้ำมันสกปรกเข้าไปจะทำลายความสามารถในการเคลื่อนที่ไปข้างหน้าของมันในที่สุด
พูดง่าย ๆ การคลีนข้อมูลหรือที่เรียกกันว่า Data Cleansing ไม่ก็ Data Scrubbing นั้นเป็นกระบวนการที่ใช้ในการระบุและแก้ไขความผิดพลาดหรือความไม่สม่ำเสมอกันของข้อมูล ซึ่งเป็นสิ่งที่ฟังดูง่ายในเชิงหลักการ แต่ซับซ้อนมากในความเป็นจริง
คุณภาพของข้อมูลนั้นแบ่งออกได้เป็นเก้ามิติ นับตั้งแต่ความเข้าถึงได้และความแม่นยำของข้อมูล ไปจนถึงความสม่ำเสมอและสมบูรณ์ครบถ้วนของข้อมูล Stewart Bond ผู้อำนวยการฝ่ายวิจัยด้านการรวมข้อมูลและบริการซอฟต์แวร์อัจฉริยะของ IDC กล่าว ตัวอย่างเช่น บางรายการอาจเขียนเป็นตัวย่อในขณะที่บางรายการไม่ใช่ เช่น Inc. หรือ Incorporated, Corp. หรือ Corporation, International หรือ Intl. นั่นเอง ฐานข้อมูลของคุณอาจลงทะเบียนบริษัทเดียวกันแยกเป็นสองหน่วยงานที่แตกต่างกัน
วันที่ สกุลเงิน และจำนวนตัวเลขอาจมีความแตกต่างกันไป ฟิลด์ทั้งหมดใช้หน่วยวัดเดียวกันหรือเปล่า เป็นนิ้วหรือเป็นเซ็นฯ ดอลลาร์หรือยูโร ใช้ระบบ 12 ชั่วโมงหรือ 24 ชั่วโมง มีที่ว่างเกินมาในฟิลด์หรือเปล่า สมองคุณจะระบุพวกมันเป็นสิ่งเดียวกันโดยอัตโนมัติ แต่คอมพิวเตอร์ไม่ทำแบบนั้น ฐานข้อมูลคุณเขียนว่าลูกค้าแต่งงาน แต่บอกด้วยหรือเปล่าว่าเขาอายุแค่ 10 ขวบ? อย่างน้อยก็มีอย่างใดอย่างหนึ่งถูก แต่ว่าเป็นข้อมูลตัวไหนกันล่ะที่ถูก?
ฟิลด์ที่ต้องใช้ในการรันแบบจำลองการคาดการณ์นั้นอาจจะโล่งหรือไม่สมบูรณ์ก็ได้ ในกรณีที่ว่านี้ คุณอาจต้องเลือกแทนค่าเป็นค่าเฉลี่ยแทน หรือใช้ข้อมูลสังเคราะห์ขึ้นใหม่จากคอมพิวเตอร์เพื่อให้การคำนวณเสร็จสมบูรณ์
ข้อมูลยังเสื่อมค่าลงได้เหมือนเวลาผ่านไป Bond กล่าวเสริม ผู้คนไปต่อ เปลี่ยนงาน ต่างงาน เปลี่ยนชื่อ แล้วก็ตาย ดังนั้น องค์กรอาจต้องใช้ข้อมูลจากบุคคลที่สามเพื่อรู้ว่าฐานข้อมูลตัวเองยังเป็นปัจจุบันอยู่หรือไม่
มีโปรแกรมซอฟต์แวร์เฉพาะสำหรับคลีนฐานข้อมูลประเภทต่าง ๆ ที่แตกต่างกัน เช่น ฐานข้อมูลผู้ติดต่อ ที่ตั้ง ประเภทธุรกิจ ผลิตภัณฑ์ และอื่น ๆ Bond กล่าว โดยแอปเหล่านี้กำลังใช้ AI และแมชชีนเลิร์นนิงในการทำเรื่องยาก ๆ แทนมากขึ้น เช่น การสร้างกฎ (ลบช่องว่างเพิ่มเติม เปลี่ยนอินสแตนซ์ทั้งหมดของ "แคลิฟอร์เนีย" เป็น "CA" เป็นต้น) และให้คำแนะนำในการคลีนข้อมูล โดย Bond ไม่ลืมบอกให้เราทราบว่า คุณไม่สามารถทำให้กระบวนการทั้งหมดเป็นแบบอัตโนมัติได้ เมื่อถึงจุดหนึ่ง คุณจะต้องให้ผู้เชี่ยวชาญเฉพาะด้านที่เป็นมนุษย์เข้ามามีส่วนร่วมและทำหน้าที่ตัดสินใจ
ที่มา: https://bit.ly/3WdSuTA