ทำไมต้องจับยกกำลังสองใน Variance และ SD

Neng Liangpornrattana
2 min readAug 18, 2019

--

คือกำลังศึกษาพื้นฐานของสถิติอยู่ครับ ในชีวิตนี้ อันนี้คือรอบที่ 3 ที่ศึกษาด้วยความจริงจัง ลืมไปหมดแล้ว 5555

เจอค่าเฉลี่ย(mean) ผ่านไปอันแรก เข้าใจได้ไม่มีปัญหา

สมมติตัวอย่างเป็นความสูงของนักเรียนในห้องละกัน(และจะใช้ตัวอย่างนี้ตลอดใน post นี้) ค่าเฉลี่ยจะหมายความว่า เอาทุกๆ คนมาวัดความสูงกัน แล้วพยายามตบๆ เกลี่ยๆ(เฉลี่ยนั่นแหละ) ให้เท่ากัน อันนี้น่าจะเข้าใจกันหมด ไม่ต้องอธิบายมาก

ต่อมาเป็นค่าความแปรปรวน(variance) “น่าจะ” หมายถึงรวมๆ มันแกว่งหรือห่าง หรือกระจายตัว จากค่า mean ขนาดไหน

แต่ความงงมันอยู่ที่ในสูตร มันเอาระยะห่างระหว่างความสูงของนักเรียนแต่ละคนไปลบจากค่าเฉลี่ย แล้วจับยกกำลังสองเว้ยย!!! งงสิครับ จะเฉลี่ย ยังไม่พอ เอาไปยกกำลังสองทำไม??

ทำไม?

ลองเอาแบบซื่อๆ ก่อน ถ้าอยากรู้มันห่างจากค่า mean ขนาดไหน ก็เอาค่าความห่างมาเฉลี่ยสิ สมมติมีนักเรียน 4 คนสูง(ซม) [180, 180, 170, 170] ค่า mean คือ 175 และมีความห่างจากค่าเฉลี่ยเป็น [5, 5, -5, -5]

(5 + 5 + (-5) + (-5)) / 4 = 0

เฉลี่ยได้ 0 คือมันไม่ห่างเลย ก็ใช้วิธีซื่อๆ ไม่ได้ละ

งั้นเอาใหม่ เสนอใหม่ เป็นค่า absolute ละกัน จาก [|+5|, |+5|, |-5|, |-5|] ก็คือ [5, 5, 5, 5]

(5 + 5 + 5 + 5) / 4 = 5

มันแกว่งๆ อยู่ที่ +/- 5 ซม. เหมือนจะดูดี

งั้นลองแบบนี้บ้าง สมมติมีนักเรียนสูง [184, 176, 174, 166] ค่า mean อยู่ที่ 175 และมีความห่างเป็นค่า absolute จากค่าเฉลี่ยคือ [9, 1, 1, 9]

(9 + 1 + 1 + 9) / 4 = 5

ก็แกว่งที่ 5 ซม. เหมือนกัน ทั้งๆ ที่ มันห่างหรือกระจายตัวจากค่า mean มากกกว่า

งั้นลองนี้

ลองเปลี่ยนมุมมองการเทียบจากเลขคณิต(arithmetic)เป็นเรขาคณิต(geometry) จับแปลงให้มันเป็นรูปสี่เหลี่ยมซะเลย ด้วยการจับมันยกกำลังสองซะ

เพื่อหลีกเลี่ยงปัญหาค่าบวกหรือลบเอามายำๆ กันแล้วได้ 0 และปรับมิติของค่าให้มันกว้างขึ้น ซึ่ง quote อันนี้ ผมใช้การมโนเอง ถ้าท่านใดเห็นว่าผิด รบกวนชี้แจงด้วย ผมมโนเองแล้วรู้สึกสมเหตุสมผล จากการไปเห็นภาพด้านล่าง

เพราะฉะนั้น จากตัวอย่างทั้งสองตัวจะได้ค่า variance เป็น

ตัวอย่าง 1
(5^2 + 5^2 + 5^2 + 5^2) / 4 = 25

และ

ตัวอย่าง 2
(9^2 + 1^2 + 1^2 + 9^2) / 4 = 41

อันนี้เริ่มให้ความหมายที่ดีขึ้น คือ ตัวอย่างที่สองมีการแปรปรวนมากกว่า

ตอนอธิบายด้านบน ผมก็เน้นว่ามัน “น่าจะ” มีความหมายแบบนั้น แต่บังเอิญว่า เราเอามันมาปรับมิติไปแล้ว มันจะไม่ใช่การเปรียบเทียบในมิติเดิม ดูจากหน่วยก็ได้ จากเดิมเป็น “ซม.” พอปรับแล้วเป็น “ซม. ยกกำลัง 2”

ถ้าเราอยากปรับมันเป็นมิติเดิม คือ ซม. ก็จับหา square root ซะ หน่วยก็จะเป็นเหมือนเดิมแล้ว จากตัวอย่างก็จะเป็น 5 กับ ~6.4 ตามลำดับ

ถ้าย้อนไปดูภาพจากสูตรการหา variance เขานิยามว่า variance คือ σ²
เพราะฉะนั้น σ ก็คือค่าจากการทำ square root ซึ่งไอ้ค่านี้แหละ คือค่าเบี่ยงเบนมาตรฐาน หรือ Standard Deviation(SD)

สำหรับค่า SD มันคือค่าที่ไว้บอกว่า เฉลี่ยๆ แล้วห่างจาก mean เท่าไหร่ ยิ่งน้อยยิ่งดี ก็คือใกล้เคียง เช่น สมมติส่งยางไปขาย กล่องละ 10 กิโลกรัม หลายๆ กล่อง สมมติคนส่งของจับชั่งน้ำหนักแล้วบันทึกไว้ เอามาหา SD ละพบว่า SD มันมาก ก็แสดงว่ามีของหายไป หรือมีของเพิ่มมา ก็คือมีสิ่งผิดปกติละ

สรุป

ค่า SD หรือ variance ก็คือค่าที่ไว้วัดความแกว่งหรือแปรปรวนนั่นแหละ แต่มิติในการวัดมันจะต่างกัน เอามาเขียนสรุปไว้เพราะเพิ่งสังเกตเห็นได้ว่ามันเปลี่ยนมิติการเฉลี่ยเป็นแบบ geometry นี้ก็ได้

--

--

Neng Liangpornrattana

A data plumber, basketballer, workout addicted, dog and cat lover