ความสัมพันธ์ของชุดข้อมูลมีกี่แบบ

ทำความรู้จักกับสัมประสิทธิ์สหสัมพันธ์ตั้งแต่พื้นฐาน รวมไปถึงสูตรที่จะใช้ในการคำนวณ รายละเอียดที่เกี่ยวข้องทั้งหมดว่าประกอบไปด้วยเรื่องอะไรบ้าง รวมไปถึงวิธีการใช้งาน

หลายคนที่กำลังเริ่มฝึกฝนตนเองเพื่อจะเป็น ”นักวิทยาศาสตร์ข้อมูล” หรือ “Data Scientist” นั้นคงกำลังเจอกับองค์ความรู้ใหม่ที่อาจจะไม่คุ้นชิน รวมไปถึงบางครั้งอาจจะเข้าใจยากส่งผลให้เกิดความสับสนได้ โดยหนึ่งในนั้นอาจจะมีคำว่า “สัมประสิทธิ์สหสัมพันธ์” หรือ “Correlation Coefficient” คนที่เพิ่งเริ่มสนใจจะเป็นนักวิทยาศาสตร์ข้อมูลแล้วไม่ได้มีพื้นฐานทางด้านสถิติมาอาจจะมีหลายคำถามในใจตั้งแต่ สัมประสิทธิ์สหสัมพันธ์คืออะไร ไหนจะมีเรื่องของ Pearson Correlation Coefficient, Intraclass Correlation Coefficient รวมไปถึง Formula  ต่าง ๆ ที่เกี่ยวข้องกับ Correlation Coefficient ที่ใช้ในการคำนวณ เยอะแยะไปหมด

วันนี้ DIGI จะพาคุณไปทำความรู้จักกับสัมประสิทธิ์สหสัมพันธ์ตั้งแต่พื้นฐาน รวมไปถึงสูตรที่จะใช้ในการคำนวณ รายละเอียดที่เกี่ยวข้องทั้งหมดว่าประกอบไปด้วยเรื่องอะไรบ้าง รวมไปถึงวิธีการใช้งานครับ

“Correlation Coefficient” คืออะไร? 

Correlation Coefficient ค่าสัมประสิทธิ์สหสัมพันธ์ หรืออีกชื่อคือ Pearson Correlation เป็นค่าที่บ่งชี้ถึงความสัมพันธ์ระหว่างตัวแปร 2 ตัวโดยจะแทนด้วยสัญลักษณ์ “r” พูดง่าย ๆ คือเป็นค่าที่บ่งบอกถึงความสัมพันธ์ของตัวแปร 2 โดยที่ค่าสัมประสิทธิ์สหสัมพันธ์จะมีค่าอยู่ระหว่าง -1.0 จนถึง +1.0 โดยหากพบว่าค่า r เข้าใกล้ -1.0 หมายความว่าตัวแปรทั้งสองตัวมีความสัมพันธ์กันในเชิงตรงกันข้าม แต่หากค่า r มีค่าเข้าใกล้ +1.0 หมายความว่าตัวแปรทั้งสองมีความสัมพันธ์ไปในทิศทางเดียวกัน แต่ถ้าตัวแปรทั้งสองมีค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0 หมายความว่าตัวแปรทั้งสองไม่มีความสัมพันธ์กัน โดยสูตรในการคำนวณหาค่าจะเป็นดังนี้

ความสัมพันธ์ของชุดข้อมูลมีกี่แบบ

โดยกำหนดให้

rxy คือค่าสัมประสิทธิ์สหสัมพันธ์

xi  คือค่าตัวแปร x ณ ชุดข้อมูลที่ i

x̄  คือค่าเฉลี่ยของตัวแปร x

yi  คือค่าตัวแปร y ณ ชุดข้อมูลที่ i

ȳ  คือค่าเฉลี่ยของตัวแปร y

เมื่อเราคำนวณหาค่าสัมประสิทธิ์สหสัมพันธ์ได้แล้วหลายคนมักจะมีความเข้าใจว่า ค่าที่ได้เป็นตัวบ่งบอกถึงตัวแปร x มีความสัมพันธ์เป็นเหตุเป็นผลกับ y ในลักษณะของการหาค่า y จากตัวแปร x ซึ่งในความเป็นจริงนั้นเป็นความเข้าใจที่ไม่ถูกต้อง ตัวอย่างเช่น กำหนดให้ค่าสัมประสิทธิ์สหสัมพันธ์ของตัวแปร x และ y เท่ากับ 0.9 ไม่ได้หมายความว่า x จะมีค่าเป็น 0.9 เท่าของ y แต่เป็นการบ่งบอกว่าเมื่อนำค่า x และ y มาพลอตกราฟก็จะพบว่าจุดได้เรียงกันเกือบจะเป็นเส้นตรงนั่นเองเพราะค่าที่ได้เข้าใกล้ 1 แต่ในทางกลับกัน ถ้าค่าสัมประสิทธิ์สหสัมพันธ์มีค่าเข้าใกล้ 0 กราฟที่ได้จะกระจัดกระจายและเรียงกันไม่เป็นเส้นตรง โดยถ้าเราต้องการหาค่าตัวแปร y จาก x จำเป็นจะต้องนำค่า x และ y ไปหา Linear Regression ต่อนั่นเอง

“Intraclass Correlation Coefficient” คืออะไร?

Intraclass Correlation Coefficient หรือสัมประสิทธิ์สหสัมพันธ์ภายในชั้นเป็นวิธีการทางสถิติที่ใช้ในการทดสอบและประเมินความน่าเชื่อถือระหว่างผู้สังเกต (Inter-rater Reliability) การทดสอบและการทดสอบซ้ำ (Test-retest Reliability) และความน่าเชื่อถือภายในผู้ประเมิน (Intra-rater Reliability) โดยทั้งหมดมีเป้าหมายเพื่อทดสอบหาความสอดคล้องกันของข้อมูลที่เป็นในลักษณะของข้อมูลชนิดต่อเนื่อง ซึ่งวิธีการทางสถิติเพื่อหาสัมประสิทธิ์สหสัมพันธ์ภายในชั้นมักจะใช้กันในวงการแพทย์เพื่อหาความสอดคล้องกันของข้อมูล เช่น การนำมาใช้เพื่อเปรียบเทียบวิธีการรักษาโรคแบบเก่ากับแบบใหม่นั้นมีความสอดคล้องกันหรือไม่ ถ้าวิธีรักษาโรคแบบใหม่มีความสอดคล้องกับแบบเก่ารวมไปถึงมีการใช้ต้นทุนในการรักษาที่ต่ำกว่าก็อาจจะพิจารณาเปลี่ยนไปใช้วิธีการรักษาโรคแบบใหม่

  1. ประเมินความน่าเชื่อถือระหว่างผู้สังเกต (Inter-rater Reliability)
    เป็นการประเมินโดยใช้ผู้ประเมิน 2 ขึ้นไปสังเกตหรือทำแบบทดสอบชนิดเดียวกันโดยผลลัพธ์ที่ได้มีความคล้ายคลึงกันแสดงว่าแบบทดสอบนั้นมีความน่าเชื่อถือ
  2. การทดสอบและการทดสอบซ้ำ (Test-retest Reliability)
    เป็นการทดสอบหาสัมประสิทธิ์ของความคงที่โดยทำการนำแบบทดสอบไปทดสอบกลุ่มตัวอย่างเดิม 2 ครั้งในระยะเวลาที่ห่างกันแล้วนำค่าที่ได้ไปหา Pearson Correlation
  3. ความน่าเชื่อถือภายในผู้ประเมิน (Intra-rater Reliability)
    เป็นการประเมินด้วยการให้ผุ้ทดสอบคนเดิมทำแบบทดสอบภายใต้เงื่อนไขเดียวกันซ้ำ 2 รอบถ้าคำตอบที่ได้เหมือนกันทุกประการทั้ง 2 ครั้งความหมายคือแบบทดสอบนั้นมีความน่าเชื่อถือเป็น 1

ตัวอย่างการนำเอา Correlation Coefficient ไปประยุกต์ใช้

การนำเอา Correation Coefficient ต้องขึ้นอยู่กับว่าเป้าหมายของการนำเอาไปประยุกต์ใช้คืออะไร ถ้าต้องการนำไปหาความสัมพันธ์ของตัวแปร 2 ตัวว่ามีความสัมพันธ์กันมากน้อยแค่ไหนก็จะใช้ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (Pearson Correlation Coefficient) เช่น การหาความสัมพันธ์ของความเข้มของแสงแดดกับการเจริญเติบโตของต้นแคคตัสโดยจะเป็นการหาความสัมพันธ์ของสองตัวแปรที่มีความแตกต่างกันว่ามันมีผลต่อกันในรูปแบบใด แต่ถ้าในส่วนของถ้าต้องการหาในเรื่องของการสอดคล้องกันก็จะใช้เป็น Intraclass Correlation Coefficient ตัวอย่างเช่น การทดสอบวัดอุณหภูมิร่างกายของคนไข้ด้วยการใช้เครื่องมือวัดแบบ Manual และ Digital โดยถ้าทั้งสองเครื่องวัดค่าออกมาได้ใกล้เคียงกันแสดงว่าเครื่องมือทั้งสองมีความสอดคล้องกัน

โดยสรุปแล้วสัมประสิทธิ์สหสัมพันธ์ หรือ Correlation Coefficient นั้นเป็นหลักทางสถิติที่ไว้ใช้เพื่อหาความสัมพันธ์กันของตัวแปร รวมไปถึงความสอดคล้องกันของข้อมูลซึ่งเป็นความรู้พื้นฐานที่นักวิทยาศาสตร์ข้อมูลหรือ Data Scientist ประยุกต์ใช้ร่วมกับการเขียนโปรแกรมและความรู้ต่าง ๆ เพื่อนำไปปรับใช้ให้เกิดประโยชน์ต่อการดำเนินธุรกิจ และแก้ปัญหาที่เกิดขึ้น