
หนังสือพูดถึงพฤติกรรมไม่พูดความจริงกับแบบสำรวจหรือแบบสอบถามของคนเรา รวมถึงการหลอกลวงเวลาเขียน status บน facebook หรือสื่ออื่น ๆ คำว่าหลอกลวงในที่นี่ มีความหมายกว้างครอบคลุมไปถึงการเลือกนำเสนอบางส่วนที่เราอยากนำเสนอเพื่ออวดภาพลักษณ์บางอย่างที่อยากให้ชาวบ้านเห็นว่าเราเป็น แน่นอนว่า ย่อมไม่ใช่ภาพที่สะท้อนความจริง ส่วนหนึ่งของแก่นหนังสือจึงคล้าย ๆ กับ The (Honest) Truth about Dishonesty ของ Ariely แต่วิธีการเพื่อพาไปสู่คำอ้างหรือข้อสรุปเหล่านั้น (ผู้เขียนเองก็ยอมรับว่าได้รับแรงบันดาลใจ) มาจาก Freakonomics ของ Levitt คือใช้ data ซึ่งเป็นหลักฐานเชิงประจักษ์ที่สามารถแสดง correlation ระหว่างตัวแปรต่าง ๆ ได้ และหนังสือเล่มนี้มุ่งไปที่ big data โดยเฉพาะ data จากการค้นหาผ่าน Google ผู้เขียนว่า "people's search for information is, in itself, information" เมื่อเดือนที่แล้ว ในชั้นเรียนวิชา Economics of ICT สำหรับนิสิตปริญญาตรีคณะเศรษฐศาสตร์ เราพูดเรื่อง Economics in the Age of Big Data (ชื่อหัวข้อมาจากชื่อบทความปี 2014 ของ Liran Einav กับ Jonathan Levin ตีพิมพ์ใน Science และคำถามสำคัญของบทความคำถามหนึ่งคือ ทำไมงานวิจัยเศรษฐศาสตร์ในปัจจุบันที่ใช้ data set ขนาดใหญ่ยังคงอิงอยู่กับเทคนิคเศรษฐมิติแบบเก่าอยู่) หนึ่งในเรื่องที่เหมาะจะอยู่บนสไลด์หน้าแรก ๆ สำหรับการโหมโรง big data ในช่วงสี่ห้าปีนี้คงเป็น Donald Trump's presidential campaign ปี 2016 กับเทคนิค microtrageting ในยุคสังคมออนไลน์ที่คนพร้อมให้ข้อมูลแก่ facebook หรือ Google (แลกกับบริการ) ถึงแม้ structure ของข้อมูลจะน้อยนิดหรือแทบไม่มี แต่ก็ไม่ใช่ปัญหาสำหรับอัลกอริทึมเก่ง ๆ ที่สามารถดึง information ออกจาก unstructured data ในชั้นเรียนวันนั้นจึงหมดเวลาไปหลายนาทีกับ Geography และ Demography ของ Trumpism ... หนังสือเล่มนี้ก็ใช้กรณี Donald Trump เป็นบทนำเช่นกัน เสียดายที่เพิ่งได้อ่านเมื่อช่วงหยุดสงกรานต์ที่ผ่านมา ไม่งั้นคงได้เรื่องเล่าเพิ่มเติมอีกเยอะ ผู้เขียนใช้พื้นที่ส่วนใหญ่ของหนังสือเน้นอำนาจหลักหรือลักษณะเด่น 4 ประการของ big data คือ 1. มันเป็นข้อมูลชนิดใหม่ และ 2. มันเป็นข้อมูลที่ไม่หลอกลวง ตัวอย่างข้อมูลจาก Google กับ PornHub นั้นเป็นตัวอย่างชั้นดีของความใหม่และไม่หลอกลวง เราอาจจะหลอกตัวเองตอนเขียน status บน facebook หรือ twitter อันนี้ก็เข้าใจได้ไม่ยาก เราไม่มีเหตุผลใด ๆ ที่จะต้องพูดความจริงนี่หว่า เรามี incentive ในทางกลับกันต่างหาก ตรงกันข้าม เราไม่มีเหตุผลอะไรที่จะหลอกตัวเองตอน google หรือค้นหาสิ่งที่ฉันอยากดูบน PornHub ข้อมูลการเสิร์ชนั่นแหละฮะที่ผู้เขียนหมายถึง ตอนเขาพูดว่าใหม่และไม่หลอกลวง (นี่เป็นข้อมูลคนละอย่างกับข้อมูลที่ได้จากการเสิร์ชนะ) ลองดูตัวอย่างคำถาม การเป็นประธานาธิบดีของ Obama ใช่เป็นเครื่องสะท้อนการลดลงของ racism ในอเมริกาดังที่แบบสำรวจหลายแห่งบอกว่าเชื้อชาติไม่เป็นปัจจัยต่อการโหวตของชาวอเมริกันรึเปล่า ผู้เขียนกลับพบว่าทุก ๆ 100 คนที่เสิร์ช Obama จะมี 1 คนที่เสิร์ช Obama คู่กับคีย์เวิร์ด nigger นี่ทำให้ Google search เป็นแหล่งข้อมูลที่สามารถเปิดเผยสิ่งซึ่งซุกซ่อนเอาไว้ได้ หนังสือยังยกตัวอย่างประกอบอื่น ๆ อีกมาก เช่น วิธีไหนสามารถใช้ทำนายอัตราการว่างงานรายเดือนได้ดีบ้าง คำตอบอาจเป็นจำนวนความถี่ในการเสิร์ชหาเว็บโป๊ หรือ diversion-related searches อื่น ๆ (ใช่ฮะ หนังสือพูดถึง sex เยอะพอ ๆ กับการเมือง) หรือคำตอบต่อคำถามว่าด้วยการสร้างชาติของ The United States ที่ควรใช่คู่กับกริยา is หรือ are (เราจะมองมันว่าเป็นหนึ่ง nation หรือหลาย ๆ states) ว่าใช่มาจากสงครามกลางเมืองหรือไม่ นอกเหนือจากความเชื่อที่กระจายทั่วไป Google Ngrams ก็ให้อีกคำตอบหนึ่ง 3. big data ยอมให้เราสามารถ zoom in ไปดูข้อมูลของกลุ่มย่อยได้ เช่น ถ้าพูดถึงโอกาสที่คนจากครอบครัวยากจนจะโตขึ้นมาแล้วร่ำรวย ตัวเลขที่ได้จากอเมริกาจะต่ำกว่าเดนมาร์ก แต่พอเราสามารถ zoom in เข้าไปดูเป็นส่วน ๆ เราจะเห็นว่า San Jose, CA มีตัวเลขที่สูงกว่าเดนมาร์กหรืออีกตัวอย่างคือการวิเคราะห์คำกล่าวอ้างว่า ภาพยนตร์รุนแรงก่อให้เกิดพฤติกรรมเลียนแบบที่ก่อให้เกิดความรุนแรง เช่น หลังจาก A Clockwork Orange ของ Standley Kubrick เข้าฉาย ก็เกิดเหตุเลียนแบบภาพยนตร์เด็กหญิงอายุ 17 ถูกข่มขืน โดยกลุ่มผู้ชายที่พร้อมใจกันร้องเพลง Singin' in the Rain หนัง (และนิยายของ Burgess เรื่องนี้) ว่าด้วยการผจญภัยของหนุ่มน้อยผู้ทุ่มเทพลังกายพลังใจให้การข่มขืน ความรุนแรงสุดโต่ง และเบโทเฟ่น แต่พอเรามีข้อมูลมากพอที่ยอมให้ zoom in เพื่อดูการเปลี่ยนแปลงของตัวแปรต่าง ๆ รายวันหรือรายชั่วโมงได้ ก็มีงานศึกษาที่บอกว่า อาชญากรรมลดลงในช่วงที่หนังรุนแรงเข้าฉาย ลักษณะเด่นข้อสุดท้ายที่หนังสือพูดถึงคือ 4. เราสามารถออกแบบการทดลองเพื่อมองหา causality ได้ผ่านความสามารถในการออกแบบ randomized experiment (หรือ A/B testing) ตัวอย่างเช่น วิธีที่ Obama ใช้เลือกว่าควรแสดงรูปและข้อความอะไร (อาทิ Sign Up, Join Us Now หรือ Learn More) เพื่อให้คนเข้าร่วม campaign ของเขาบนหน้าเว็บ หรือตัวอย่างที่ Boston Globe ใช้ A/B test เพื่อดูว่า headline แบบไหนที่จะเชิญชวนให้คนคลิกเข้าไปอ่านข่าวมากกว่ากัน ... ก่อนจบ ผู้เขียนพูดถึงขีดจำกัดของ big data เช่นปัญหา curse of dimensionality เพราะมีตัวแปรเยอะขึ้นเมื่อข้อมูลเยอะขึ้น โดยเฉพาะเมื่อข้อมูลนั้น unstructured ทำให้เราสามารถเจอความสัมพันธ์ทุกความสัมพันธ์ที่อยากเจอเมื่อเลือกบางส่วนจากชุดข้อมูลที่ใหญ่มากพอ และปัญหาเชิงศีลธรรมที่ big data อาจก่อให้เกิดตามมา เช่น ถ้าเราพบว่ามีความสัมพันธ์ระหว่างการใช้คำว่า God หรือ promise หรือ thank you หรือ will pay กับการเบี้ยวหนี้ ความสัมพันธ์อันนี้จะถูกใช้เป็นเกณฑ์กันการปล่อยกู้ได้ไหม (ตัวอย่างอันหนึ่ง เราเปิดคลิปของ Daniel Hulme พูด Big Data & Dangerous Ideas ใน TEDx UCL ให้นิสิตดูในชั้นเรียน Hulme ถามตอนต้น ๆ ของการบรรยายว่า ถ้าข้อมูลบอกเราว่าลูกค้าคนหนึ่งมีโอกาสเป็นมะเร็งสูง เราควรจะบอกลูกค้าคนนั้นไหม) โดยรวม หนังสืออ่านเพลินฮะ และจบค่อนข้างเก๋ด้วยการอ้างงานของนักคณิตศาสตร์จากมหาวิทยาลัยวิสคอนซิน Jordan Ellenberg ที่ตั้งคำถามว่า หนังสือแต่ละเล่มจะมีคนอ่านจบสักกี่คน (Ellenberg ใช้วิธีเปรียบเทียบความถี่ที่ผู้อ่านได้โควตข้อความจากหนังสือช่วงต้นกับช่วงปลาย) ได้ตัวเลขว่า 90% อ่านจบ The Goldfinch ของ Tartt, 7% อ่านจบ Thinking, Fast and Slow ของ Kahneman และไม่ถึง 3% ที่อ่านจบ Capital in 21st Century ของ Piketty แล้วผู้เขียนก็จบหนังสือเล่มนี้ด้วย "Too few of you, Big Data tells me, are still reading."