top of page

The Improbability Principle


พูดง่าย ๆ ใจความของ Improbability Principle คือ "เหตุการณ์ที่ไม่น่าจะเกิดขึ้นได้เลย (extremely improbable events) เป็นเหตุการณ์ที่พบเห็นได้ทั่วไป" ตัวอย่างแรกที่ผู้เขียนยกประเดิมหนังสือคือ ตอนนักแสดง Anthony Hopkins รับเล่น The Girl from Petrovka จากบทประพันธ์ของ George Feifer พอรับเล่นปุ๊บ ก็เดินทางเข้าลอนดอนเพื่อหาหนังสือนิยายต้นฉบับมาอ่าน ปรากฎว่าหาไม่ได้เลย ระหว่างรอรถไฟใต้ดินที่สถานีเลสเตอร์สแควร์ เหลือบไปเห็นหนังสือ The Girl from Petrovka ถูกวางทิ้งไว้ที่ที่นั่งข้าง ๆ พอดี ยังไม่จบ ตอนหลัง Hopkins มีโอกาสได้พบกับผู้เขียน Feifer เล่าว่าปีก่อนหน้าที่ Hopkins จะรับเล่นหนัง แกได้ให้เพื่อนยืมหนังสือเรื่องนี้ไป แล้วเพื่อนทำหล่นหายที่ไหนก็ไม่รู้ ซึ่งเล่มที่หล่นหายก็คือเล่มที่ Hopkins ได้นั่นเอง David J. Hand ว่า เรามักพูด เฮ้ย มันจะบังเอิญอะไรขนาดนั้น อัศจรรย์ ต้องมีมือที่มองไม่เห็นชักใยเล้นลับเป็นแน่ หนังสือ The Improbability Principle: Why Coincidences, Miracles, and Rare Events Happen Every Day พูดถึงคำอธิบายต่อเหตุการณ์เหล่านี้ผ่านมุมมองทางสถิติครับ ใจความของ IP ก็ตามประโยคแรกที่ผมเขียนไปนั่นแหละ

หลายคนคงเคยได้ยินชื่อ Émile Borel นักคณิตศาสตร์ชาวฝรั่งเศส ผู้มีชื่อผูกติดอยู่กับวัตถุทางคณิตศาสตร์หลายชิ้น อาทิ Borel set, Borel algebra อาจนึกถึง Borel's Law "เหตุการณ์ที่มีโอกาสเป็นไปได้น้อยมาก ๆ (sufficiently small probability) จะไม่เกิดขึ้น" เช่นนี้แล้ว Borel's Law ไม่ขัดแย้งกับ IP หรอกหรือ คำตอบของ Hand คือ ไม่ขัดกัน เพราะมันอยู่คนละสเกล และอันที่จริง การที่ IP เวิร์กส่วนหนึ่งก็เพราะ Borel's Law เช่น ถ้าโอกาสเกิดเหตุการณ์บางอย่าง (probability) มีค่าน้อยมาก ๆ p และเราให้โอกาส (opportunity) สำหรับที่จะเกิดเหตุการณ์นั้น N ครั้ง โอกาสที่มันจะไม่เกิดเหตุการณ์นั้นเลยคือ (1-p)^N ซึ่งถ้า N ใหญ่พอ ค่า p > (1-p)^N และถ้า N ใหญ่มาก ๆ ค่า (1-p)^N ก็ถือเป็น sufficiently small ตามความหมายของ Borel นั่นคือ เป็นไปไม่ได้ที่จะไม่มีเหตุการณ์นั้นเกิดขึ้นเลย ฉะนั้น เหตุการณ์นั้นจะต้องเกิดขึ้นแน่ ตัวอย่างหนึ่งตามหนังสือคือ โอกาสโดนฟ้าผ่าตายประมาณ 1/300,000 และมีคนบนโลกประมาณ 7 พันล้านคน โอกาสที่จะไม่มีใครโดนฟ้าผ่าตายเลยจึงเป็น 10^(-10,133) ซึ่งน้อยมาก ๆ จน Borel's Law เข้ามาทำงาน ฉะนั้น จะต้องมีคนโดนฟ้าผ่าตาย

เหตุการณ์บังเอิญที่ดูแล้วไม่น่าเป็นไปได้หากไม่มีกลไกลึกลับหรือปาฏิหาริย์ สามารถอธิบายได้ด้วยสถิติและพฤติกรรมของเราที่ชอบมองหารูปแบบและคำอธิบายต่อทุกเหตุการณ์ อันที่จริงก็ไม่ใช่แค่มนุษย์ที่ชอบทึกทักรูปแบบของพฤติกรรม ตัวอย่าง superstitions ของนกพิราบของ Skinner นั่นไงฮะ หนังสือปฏิเสธสิ่งที่เรียกว่า synchronicity ของ Carl Jung (และยุงโดนเล่นค่อนข้างเยอะ ข้อเขียนของยุงถูกใช้เป็นตัวอย่างความไม่เข้าใจทางสถิติหลายตัวอย่าง) ปฏิเสธ morphic field ของ Rupert Sheldrake ... ถ้าจำไม่ผิด ตอนยังเด็ก ผมเคยอ่านหนังสือของอาจารย์หมอประสาน ต่างใจ ที่พูดถึงการค้นพบ morphic field และดูเป็นเรื่องน่าตื่นเต้น พออ่าน Hand มันก็ยังน่าตื่นเต้น แต่ในมุมกลับกัน

ก่อนที่จะอธิบายกฎซึ่งอยู่เบื้องหลัง IP ผู้เขียนได้สรุปความคิดเกี่ยวกับการตีความความน่าจะเป็นแบบกระแสหลัก 3 แบบที่อยู่บนคณิตศาสตร์เดียวกัน ได้แก่ (1) แบบ frequentist ซึ่งมองว่าความน่าจะเป็นเป็นสมบัติของวัตถุภายนอก เช่น เหรียญ โอกาสที่เหรียญจะออกหัวนิยามจากสัดส่วนของจำนวนเหรียญที่ออกหัวในลำดับการโยนเหรียญอนันต์ครั้ง (2) แบบ subjective คือความเชื่อมั่นของเราต่อเหตุการณ์ที่จะเกิด อันนี้ตรงกันข้ามกับแบบแรก เพราะความน่าจะเป็นไม่ได้เป็นสมบัติของวัตถุภายนอก การตีความแบบนี้เป็น epistemological และนี่เป็นสิ่งที่ Bruno de Finetti หมายถึงตอนเริ่มต้น seminal ทฤษฎีความน่าจะเป็นของเขาว่า "ความน่าจะเป็นไม่มีอยู่จริง" และ (3) แบบ classical ซึ่งอิงอยู่กับความสมมาตร ทำไมโอกาสออกแต้ม 4 จึงเท่ากับโอกาสออกแต้ม 6 กรณีเราทอยเต๋าปกติธรรมดาหนึ่งครั้ง ก็เพราะลูกเต๋าสมมาตร ไม่มีหน้าใดแตกต่างจากหน้าอื่นยกเว้นค่าของตัวเลขที่ปรากฎบนหน้านั้น นอกจากการตีความหลัก 3 แบบนี้แล้ว ยังมีแบบอื่นอีก เช่น John Maynard Keynes เป็นตัวตั้งตัวตีให้กับ logical probability เช่น แทนที่เราจะพูดว่า "A implies B" เราก็จะพูด "ดีกรีที่ A implies B"

ต่อไป จะลองสรุปกฎพื้นฐานที่เป็นเสาหลักของ IP ที่พูดถึงในหนังสือนะ

สองข้อแรกเป็นกฎที่พบได้ในตำราเรียนสถิติเบื้องต้น (1) Law of Large Number บอกว่า ค่าเฉลี่ยของลำดับของจำนวนที่สุ่มเลือกจากเซ็ตของจำนวนจะเข้าใกล้ค่าเฉลี่ยของเซ็ตนั้นมากขึ้นถ้าลำดับยาวขึ้น, (2) Central Limit Theorem บอกว่า ถ้าขนาดของกลุ่มตัวอย่างใหญ่ขึ้น รูปทรงของการกระจายของค่าเฉลี่ยจะเข้าใกล้รูปทรงการกระจายแบบปกติ (Gaussian distribution), (3) Law of Inevitability พูดง่าย ๆ ว่า จะต้องมีบางอย่างเกิดขึ้น นั่นคือ ถ้าเราเขียนลิสต์ของผลลัพธ์ที่เป็นไปได้ทั้งหมด ผลลัพธ์เหล่านั้นจะต้องเกิดขึ้น, (4) Law of Truly Large Number คนละอย่างกับ (1) นะ บอกว่า ถ้ามีโอกาส (number of opportunities) ให้เกิดเหตุการณ์มากครั้ง เหตุการณ์ที่มีโอกาส (probability) เกิดขึ้นได้น้อยก็จะมีโอกาส (is likely) เกิดมากขึ้น [คุณคงสังเกตว่า ผมใช้คำภาษาไทยเดียวกันหมดเลย probability, opportunity, be likely ซึ่งในภาษาอังกฤษนั้น ความหมายแตกต่างกัน เช่นเดียวกับคำว่าโอกาสในภาษาไทยที่อยู่ต่างบริบทก็มีความหมายต่างกัน ผมเชื่อมั่นว่าถ้าคุณอ่านมาจนถึงบรรทัดนี้ คุณแยกมันออกได้โดยที่เราไม่ต้องสร้างคำศัพท์ใหม่เพื่อใช้กำหนดหมายความหมายที่แตกต่างกันนั้น] ซึ่งกฎข้อนี้จะตรงกับคำพูดของ De Morgan "Whatever can happen will happen if we make trials enough."

(5) Law of Combinations อันนี้เป็นกฎที่เตือนให้เราระวังการถูกหลอกเมื่อมี interacting ระหว่างคนหรือวัตถุจำนวนมาก บอกว่า จำนวน combinations ของวัตถุที่ interacting กันจะเพิ่มอย่างรวดเร็ว (exponentially) ตามจำนวนวัตถุ เช่น ตัวอย่างปัญหาวันเกิดที่ใครเจอครั้งแรกก็ต้องรู้สึกประหลาดใจว่า ในกลุ่มคนแค่ 23 คนจะมีโอกาสที่มีคนวันเกิดตรงกันมากกว่าโอกาสที่ไม่มีคนวันเกิดตรงกัน เนื่องจากบางทีเราถูกหลอกจนแยกไม่ออกว่าเหตุการณ์ที่เกิดขึ้นเป็นเพราะความซับซ้อนของปฏิสัมพันธ์หรือเพราะมีเหตุอื่นนอกจากความบังเอิญที่อยู่เบื้องหลัง ผู้เขียนจึงพูดถึง scan statistics ซึ่งเป็นเครื่องมือที่ใช้ในการวิเคราะห์กรณีดังกล่าว ตัวอย่างหนึ่งคือข่าวเครื่องบินรบ F-14 ตกสามลำในรอบ 25 วัน และผลจากการคำนวณคือไม่พบ underlying cause นะครับ มันเป็นเหตุการณ์ที่เกิดขึ้นยากที่เกิดขึ้นได้ตามปกติจาก law of combinations

(6) Law of Selection คล้าย ๆ กับ cherry picking fallacy บอกว่า เราสามารถทำให้โอกาสมีค่าสูงมากเท่าไหร่ก็ได้ตามที่เราต้องการถ้าเราเลือกหลังจากที่เหตุการณ์ได้เกิดขึ้นมาแล้ว มันเป็นประเด็นของ prediction กับ postdiction ตัวอย่างสุดโต่งอันหนึ่งคือ ถ้าเราอยากยิงธนูให้คนอื่นเห็นว่าเข้าเป้า เราก็แค่ยิงธนู เสร็จแล้วค่อยไปวาดเป้า ระหว่างอ่าน ผมนึกถึงหนังสืออีกเล่ม แก่นของบทนี้ถูกพูดอย่างขยายและลุ่มลึกในหนังสือเล่มหนึ่งของ Duncan J. Watts ชื่อ Everything Is Obvious (Once You Know the Answer) ตัวอย่างที่น่าสนใจและสัมพันธ์กับ 'regression to mediocrity' ของ Sir Francis Galton คือ ปัญหาการติดกล้องจับความเร็วรถเพื่อลดอัตราการเกิดอุบัติเหตุ แน่นอน อัตราการเกิดอุบัติเหตุลดลง แต่ลดลงเพราะกล้องหรือเพราะ regression toward the mean (ซึ่งเป็นปรากฎการณ์จากเหตุการณ์สุ่มในทางสถิติ) อันเป็นผลตามมาเนื่องจาก law of selection กันแน่ หรือลดลงเพราะทั้งสองอย่างร่วมกัน ให้นึกภาพแบบนี้ครับ สมมติเรามีพื้นที่ 360 แห่ง จะเลือกติดกล้อง 60 ตัว เราเลือกจุดที่เกิดอุบัติเหตุบ่อยสุด 60 แห่งขึ้นมาเพื่อติดกล้อง 60 ตัว ก่อนติด จุดที่เราเลือกมานั้นมีค่าเฉลี่ยของอุบัติเหตุสูงมาก นี่คือ law of selection กำลังทำงาน หลังจากติดกล้อง ค่าเฉลี่ยการเกิดอุบัติเหตุลดลง นี่คือ regression ทำงาน ร่วมกับผลทางจิตวิทยาเวลาคนเห็นกล้องแล้วรถความเร็วลง สำหรับกรณีหลัง เข้าใจได้ง่าย ส่วนกรณีแรกอาจซ่อนเร้นกว่าเล็กน้อย เปรียบเทียบกับการทอยลูกเต๋า 360 ลูก ซึ่งแน่นอนว่าเราคาดหวังจะเจอแต้มหก 60 ลูก ถ้าเราเลือกลูกที่ออกแต้มหกออกมา (ค่าเฉลี่ยเท่ากับ 6) แล้วเอามาทอยใหม่ ทีนี้ ค่าเฉลี่ยก็จะลดลงเข้าสู่ค่าเฉลี่ยของการทอยเต๋าคือ 3.5 จริงอยู่ว่ากรณีอุบัติเหตุมีตัวแปรมากกว่าตัวแปรสุ่ม (ความเร็วในการขับขี่คงไม่นับเป็นตัวแปรสุ่ม) แต่มันก็ยังมีตัวแปรสุ่ม และผลจากตัวแปรสุ่มก็ทำให้เกิด regression นี่คือประเด็น

(7) Law of Probability Lever บอกว่า การเปลี่ยนแปลงเพียงเล็กน้อยในสภาพแวดล้อมหรือโมเดลหรือความแม่นยำของความเชื่อของเราสามารถส่งผลกระทบใหญ่หลวงต่อความแตกต่างของความน่าจะเป็น เช่น ถ้าเราเชื่อว่าเหตุการณ์ทำนองนี้กระจายแบบ Gauss แต่ที่จริงแล้วมันกระจายแบบ Cauchy ซึ่งดูผิวเผินหน้าตาคล้ายกันมาก แต่ผลลัพธ์เป็นคนละเรื่องกันเลย เช่น เหตุการณ์ที่เกิดขึ้นได้ยากระดับซิก 5 (5-sigma event) จะมีโอกาสเกิดขึ้นเพียง 1 ใน 3.5 ล้าน ถ้ามันกระจายแบบปกติ แต่ถ้ามันกระจายแบบโคชี โอกาสจะเพิ่มขึ้นมาเป็น 1 ใน 16 กฎข้อนี้สัมพันธ์กับปรากฎการณ์หลายอย่าง เช่น catastrophe theory, domino effect, chaos, butterfly effect ตัวอย่างของ Michael Berry อันหนึ่งน่าสนใจ แกถามว่า จะเกิดอะไรขึ้นกับมุมที่โมเลกุลออกซิเจนสองตัวแยกออกจากกันหลังชน หากเราจินตนาการว่า มีอิเล็กตรอนตัวหนึ่งที่ขอบเอกภพถูกเอาออกไป, (8) Law of Near Enough บอกว่า เหตุการณ์ที่คล้าย ๆ กัน (sufficiently similar) จะถูกนับว่าเหมือนกัน ทำให้จำนวนของ potential matches เพิ่มมากขึ้น ทำให้เราพูดว่าเหตุบังเอิญที่ไม่น่าจะเกิดขึ้นได้นี่กลับเกิดขึ้นได้มากขึ้น ซึ่งนับเข้าเป็นตระกูลเดียวกับ base rate fallacy

หลังจากพูดถึงกฎที่เป็นเสาหลักของ IP ในสองสามบทสุดท้าย Hand พูดถึงบทบาทเชิงจิตวิทยา ปรัชญา วิทยาศาสตร์ของความสุ่ม เช่น ปรากฎการณ์ทำนอง denominator neglect ถ้าให้เลือกหยิบลูกแก้วจาก 2 กล่อง กล่องแรกมีลูกแก้วสีแดง 1 สีอื่น 9 และกล่องที่สอง แดง 8 อื่น 92 โอกาสที่จะหยิบได้สีแดงในกล่องแรกเยอะกว่า แต่คน 1 ใน 3 เลือกที่จะหยิบกล่อง 2

สุดท้ายเปรียบเทียบ IP กับ Murphy's Law ที่ว่า ถ้ามีโอกาสให้เละ มันก็เละ (หรือ Sod's Law ผลลัพธ์ที่เลวร้ายที่สุด เกิดขึ้นเสมอ) ซึ่งอันหลังนี้เป็นกรณีพิเศษของ law of truly large number ถ้ามันเกิดขึ้นได้ มันก็เกิดขึ้น เห็นว่าไม่เท่ากับ IP เสียทีเดียว หรือจะมอง Murphy's Law ว่าเป็นอีกเวอร์ชั่นหนึ่งของกฎข้อสองของอุณหพลศาสตร์ ปริมาณความสุ่มของระบบปิดเพิ่มขึ้น

หนังสืออ่านสนุก มีตัวอย่างเยอะมากครับ


bottom of page