“วิทยาศาสตร์ข้อมูล” There is more to “Data Science” than “Data”

“Data is the new oil” เป็นคำพูดที่มีมานานแล้วในโลกธุรกิจและการลงทุน  เมื่อ Data เข้ามามีบทบาทในการสร้างสิ่งใหม่ๆ เป็นตัวกำหนดทิศทางการปรับเปลี่ยนสินค้า การบริโภคสินค้าหรือการบริการ รวมถึงโอกาสและความท้าทายใหม่ๆที่จะเกิดขึ้นจากการมี Data ไว้ในครอบครอง Data เองส่งเสียงไม่ได้ แต่ซ่อน “insight” หรือ ความเข้าใจและความสัมพันธ์ข้อมูลเชิงลึก และ นั่นคือที่มาของความแพงของ Data และ ผู้ที่จะทำความเข้าใจ Data ทำให้ Data ถูกสื่อสาร และ ถูกใช้ พูดให้เข้าใจง่ายก็คือ การเป็น  “Voice of Data” หรือ ทำให้ Data พูดได้ และ นำทางเราไปสู่การตัดสินใจ การสร้าง หรือ การเปลี่ยนแปลง

ในบทความนี้อาจจะไม่เน้นการมาชวนคุยเรื่องความหมายหรือคำจัดกัดความ อะไรเหมือน อะไรต่าง อะไรทับซ้อน ไม่ว่าจะเป็น data science, machine learning หรือว่า AI แต่อยากชวนให้เริ่มจากการมองทักษะ ที่เริ่มต้นได้ไม่ว่าจะเป็นผู้เรียนระดับประถมหรือมัธยม และ ก็ได้ทดสอบมาแล้วกับผู้ที่ไม่ได้มีความรู้ด้านการ programming ใดๆเลย แต่ก็มาเริ่มฝึกทักษะการคิดและหา insight จากข้อมูลแบบนัก data scientist

หลังจากลองกิจกรรม hands-on หรือจะเรียก unplugged ก็ได้ เราค่อยมาสรุปไปด้วยกันนะคะ ว่าเราได้อะไรจากการทำความเข้าใจ Data และ การทำความเข้าใจ Data Science

กิจกรรม “Banana-Apple Classification” หรือ จำแนกแยกกล้วยแอปเปิ้ล

เตรียมกิจกรรมด้วยรูปผลไม้ทั้งสองชนิด ในหลากหลายรูปแบบ (ตัวอย่างรูปผลไม้ Download ได้เลย)

แบ่งผลไม้กล้วยและแอปเปิ้ลผสมกันออกเป็น 2 set คือ Training Set และ Testing Set

data science - blog 03

เราเรียก set แรกว่า Training Set หรือ กลุ่มสอน เป็นกลุ่มที่มี label หรือมีฉลากให้เราเรียบร้อยแล้วว่าสิ่งนี้เรียกว่า “กล้วย” นะ สิ่งนี้เรียกว่า “แอปเปิ้ล” นะ และสิ่งที่ติดฉลากเหล่านี้จะไปอยู่ตรงไหนตาม model การจำแนก หรือ criteria ที่เราวางไว้

การวาง criteria สามารถทำได้หลายรูปแบบ จะเป็นการสร้าง tree-branch model หรือ แบบจำลองต้นไม้ก็ได้ หรือ ถ้าแนะนำให้ง่ายและเหมาะกับการเริ่มต้นในระดับประถม คือ การสร้างแกน และ เกณฑ์

ทำได้โดย กำหนดแกน X และ Y และวางกลุ่มกล้วยแอปเปิ้ลจาก Training Set ตามแกนที่วางไว้ และวาดเส้นจำแนกกล้วย และ แอปเปิ้ล หรือเส้นแบ่งขอบเขตว่าสิ่งใดคือ กล้วย หรือ คือ แอปเปิ้ล

เส้นนี้จะถูกเรียกว่าเส้น AI (Artificial Intelligence) ที่จะนำไปใช้ทดสอบกลุ่ม Testing Set ว่า หากเรายังใช้เส้นนี้แบ่ง ความแม่นยำ ถูกต้อง จะเป็นอย่างไร

์Note: ขอยังไม่แจกนิยามหรือให้ความหมายของ AI ณ จุดนี้ นะคะ แต่อยากให้รู้ว่ามันก็คือ AI ในรูปแบบของ กิจกรรม hands-on and unplugged activity — AI ก็ unplugged ออกมาได้นะ เชื่อสิ

data science - blog 05

จากการได้ทดลองใช้กิจกรรมนี้กับกลุ่มผู้ร่วมเรียนหลากหลาย พบว่า มีทั้งการสร้างแกนหลายมิติ เช่น

  • แกน X  แทน สี แกน Y แทน ความยาว
  • แกน X แทน เส้นผ่านศูนย์กลาง แกน Y แทน ความยาว
  • แกน X แทน  ความเป็นกรด (Acidity) แกน Y แทน เส้นใย (Fiber)

เป็นต้น

data science - blog 07
Fig 1: การจำแนกกล้วยและแอปเปิ้ลโดยใช้สีและรูปทรงเป็นเกณฑ์
data science -blog 06
Fig 2: การจำแนกกล้วยและแอปเปิ้ลโดยใช้สีและรูปทรงเป็นเกณฑ์

จุดประสงค์ของกิจกรรม (ที่สามารถเป็นไปได้ ส่วนจะไปถึงไหม ขึ้นอยู่กับ background ของผู้เรียน การเตรียมกิจกรรม hands-on ข้างต้น และ การ facilitate กิจกรรมด้วยเช่นกัน)

  • สร้าง criteria หรือ เกณฑ์ในการแยกกล้วยและแอปเปิ้ลได้
  • สร้าง model การจำแนกผลไม้ทั้งสองชนิด
  • ทดสอบ criteria หรือ model ที่สร้างกับกลุ่มผลไม้กลุ่มหนึ่งที่ไม่รู้ว่ามันชื่อกล้วยหรือชื่อแอปเปิ้ล ส(Testing Set หรือ กลุ่มทดสอบ)
  • ประเมิน criteria หรือ model ภายหลังจากการทดสอบ – ความแม่นยำ ความผิดพลาด
  • ปรับรูปแบบเพื่อให้ model มีความแม่นยำขึ้น
  • อภิปรายและสะท้อนบทบาทของ training set และ testing set
  • อภิปรายการสร้าง model และ การนำ model ไปทดสอบ สะท้อนความผิดพลาดหรือ error ของ model ในการจำแนกกล้วยแอปเปิ้ล (ในมุมนี้อาจชี้ให้เห็นว่ายิ่ง data มาก หรือ ข้อมูลมาก เรายิ่งสามารถครอบคลุมกรณีที่หลากหลาย และทำให้เส้นแบ่งที่เราสร้างมีความแม่นยำมากขึ้น)

ตัวอย่างการจำแนกและวาดเส้น AI ในรูป Fig 1 และ Fig 2 แม้จะใช้เกณฑ์เป็นสีและรูปทรงเหมือนกัน แต่กลับได้ผลที่ต่างกัน สิ่งนี้ก็นำมาใช้ตั้งคำถามต่อได้ว่า

  • Machine ที่สร้างกราฟแบบ Fig 1 และ Fig 2 มีเกณฑ์อะไร ทำงานต่างกันอย่างไร
  • ถ้าจะเลือกซื้อเครื่องแยกกล้วยและแอปเปิ้ล เราจะเลือกซื้อเครื่อง Fig 1 หรือ Fig 2

หากพิจารณาข้อมูลในเชิงปริมาณ ไม่ใช่ข้อมูลเชิงคุณภาพแบบข้างต้นล่ะ

รูป Fig 3 แสดงเกณฑ์ในการแยก และเส้น AI ที่แบ่งด้วยเส้นแบบขั้นบันได จะเห็นว่าก็ยังมีบริเวณที่มีกล้วยและแอปเปิ้ลปะปนกันอยู่ หรือ model การจำแนกของเรายังมีความผิดพลาดอยู่นั่นเอง

data science - blog 08
Fig 3: การจำแนกกล้วยและแอปเปิ้ลโดยใช้เส้นผ่านศูนย์กลางและความสูงเป็นเกณฑ์

Fig 3: แม้จะมีความผิดพลาด แต่เป็นการสร้างเกณฑ์เชิงปริมาณที่สามารถวัดได้ และสามารถให้คำสั่งกับ machine และ เกณฑ์ได้ง่าย เช่น เราจะจัดกลุ่มข้อมูลในกรอบสีชมพูตามรูปด้านล่างว่าเป็นแอปเปิ้ลนะ เราอาจต้องให้ criteria ว่า “ถ้าเส้นผ่านศูนย์กลางไม่เกิน 8 cm และ ความสูงอยู่ระหว่าง 10.6 cm กับ 12.5 cm สิ่งที่อยู่ในกรอบนี้จะคือแอปเปิ้ล”

data science - blog 09.jpg

สิ่งที่บทความนี้อยากจะสื่อสารผ่านกิจกรรมนี้ คือ “วิทยาศาสตร์ข้อมูล” หรือ Data Science ที่ใครๆก็ให้ความสนใจ ทักษะที่เป็นจุดเริ่มต้นอาจไม่ใช่ทักษะพวก Technical Skills เช่น การเขียนโปรแกรม การคำนวณทางสถิติ หรือ คณิตศาสตร์ขั้นสูง แต่เป็นทักษะด้าน Problem-solving Skills เช่น

  • Organizing การจัดการ — หาความสัมพันธ์ จัดให้อยู่ในรูปที่ต่อยอดได้ นำไปใช้ได้ และ เข้าใจได้
  • Analyzing การวิเคราะห์ — เชื่อมโยงจากองค์ความรู้ที่มี มีข้อมูลสนับสนุน  ประเมินความเป็นไปได้ สมเหตุสมผล
  • Communication การสื่อสาร —  สร้างและนำเสนอข้อมูลให้มีมูลค่าและเป็นประโยชน์ นำเสนอให้ผู้อื่นเข้าใจได้

จะเห็นว่าทักษะพวกนี้ ในมุมมองของครูก็อาจจะบอกว่า “ก็ทำอยู่ทุกวัน ในทุกๆบทเรียนก็ให้นักเรียนได้สื่อสาร และแก้ปัญหาอยู่แล้ว”  ซึ่งก็เป็นที่มาของการเกริ่นไว้ที่หัวเรื่องเลยว่า Data Science เริ่มต้นได้ ไม่ยากอย่างที่คิด หากใครที่ใช้ในห้องเรียน ปรับกิจกรรมบางอย่างให้มีรูปแบบการศึกษาข้อมูลโดยใช้ทักษะการแก้ปัญหา อย่างรูปด้านล่างนี้ก็สามารถทำได้นะคะ จะอยู่ในวิทยาศาสตร์ คณิตศาสตร์ หรือ สิ่งแวดล้อมก็ได้ ลองเปลี่ยนจากกล้วย และ แอปเปิ้ล เป็น เบอร์โทรศัพท์ บิลค่าไฟ ปริมาณขยะ ก็เป็น Data หรือ ข้อมูลได้หมด แถมยังสร้างความตระหนักจากการเข้าใจด้วยตนเองในเชิงลึกได้ด้วย….ลองดู

ป.ล. กิจกรรมที่แจกไปวันนี้ คือ Machine Learning หรือการเรียนรู้ของเครื่องจักรในรูปแบบที่มีผู้สอนหรือ Supervised Learning ในรูปแบบของ unplugged and hands-on activity เรามีข้อมูลที่ถูกสอนมาแล้วว่านี่คือ กล้วย และ นี่คือแอปเปิ้ล และนำสิ่งที่สอนไปสร้าง model ต่อ เพื่อทำนายสิ่งที่จะนำมาทดสอบต่อไป

Machine Learning ยังมีอีกหลายแบบและก็ unplugged ออกมาให้เข้าใจง่ายๆได้ด้วย แต่ขอมาต่อบทความหน้านะคะ (เริ่มยาวไปละ)

By SupaDaow

 

Leave a comment