کلان داده ها و اهمیت آن‌ها- به همه دروغ می‌گوییم به جز به گوگل -معرفی کتاب everybody lies- بخش دوم

تنظیم و پیاده‌سازی: اعظم ملک‌دار

تخمین زمان مطالعه: ۱۲ دقیقه


همانطور که در بخش اول اشاره شد، سال گذشته یعنی ۲۰۱۷، اکونومیست کتاب همه دروغ می گویند را به عنوان کتاب سال معرفی کرد. این کتاب به موضوع اهمیت کلان داده ها می پردازد. در این کتاب چهار دلیل اصلی و مهم قدرتمند بودن کلان داده (بیگ دیتا) بررسی شده است. ۱٫ کلان داده‌ها اطلاعات جدیدی به ما ارائه می‌دهند. ۲٫ کلان داده‌ها دروغ نمی‌گویند زیرا از روی رفتار فیلتر نشده انسان‌ها جمع‌آوری شده اند. ۳٫ کلان داده‌ها می‌توانند بر یک جزء مشخص و محدودی از اطلاعات تمرکز کنند و آن را بررسی کنند. ۴٫ با کمک کلان داده ها  با کمترین هزینه و به سهولت می‌توان رابطه همبستگی را بررسی کرد. در نهایت می‌توان گفت کلان داده ها ابزاری قدرتمند و کاربردی برای جمع‌آوری اطلاعات، کشف الگو و سپس پیش‌بینی آینده اند.


سایت پادکست بی پلاس یکی از اپیزودهایش را به معرفی کتابی به نام “همه دروغ می گویند” اختصاص داده است که چند ماه پیش منتشر و هنوز به فارسی ترجمه نشده است

اهمیت کلان داده (بیگ دیتا)

  1. جریان دائمی اطلاعات

در این کتاب چهار دلیل اصلی و مهم قدرتمند بودن کلان داده (بیگ دیتا) بررسی شده است. اولین قدرت کلان داده(بیگ دیتا)  در جریان دائمی اطلاعات است. پیش از رویداد بدیع کلان داده‌ها، برای محاسبه آمار بیکاری، باید صبر می‌کردیم تا مثلاً اداره‌ امور کارگران، اطلاعات را از مردم جمع‌آوری کند و سپس به طریقی این اطلاعات از آن‌ها دریافت شود یا مثلاً باید منتظر می‌ماندیم تا اداره بهداشت، آمار ابتلاء مردم به یک بیماری را از یک منطقه به منطقه‌ دیگر محاسبه و الگویش را اعلام می‌کرد اما در حال حاضر کلان داده در گوگل کمک می‌کند که این اطلاعات را بدست آوریم.

 این کاری است که در امریکا یک مهندس گوگل انجام داده است. او جست‌وجوهای مردم درباره آنفولانزا مانند علایم آنفولانزا و شیوع آن را بررسی و سپس با آن‌ها توانست الگوی شیوع و پخش این بیماری را پیدا کند. از نظر وی اگر شما به این داده‌ها نظر کنید، می‌توانید روی نقشه ببینید که این بیماری در طول زمان چگونه و در چه مکان‌هایی پخش و گسترش پیدا کرده است. در نتیجه ویژگی اول کلان داده این است که هر لحظه اطلاعات جدیدی به شما می‌دهد.

  1. کلان داده‌ها دروغ نمی‌گویند.

ویژگی دوم کلان داده این است که دروغ نمی‌گوید و عنوان کتاب نیز از این ویژگی گرفته شده است. از فارغ‌التحصیلان دانشگاه مریلند پرسیده شد که معدل‌شان چند است. ۲ درصد آن‌ها اعلام کردند که معدل آن‌ها کمتر از ۲.۵ است (از ۴ نمره)، اما طبق آمار دانشگاه، معدل ۱۱ درصد این دانشجویان کمتر از ۲.۵ است. در نتیجه می‌توان مشاهده کرد که بین این دو آمار چه اختلاف بسیاری است.

نظرسنجی‌ها و دروغ: مطلوبیت اجتماعی و ارائه تصویر خوب

در کتاب، مثال‌های متعددی موجود است که نشان می‌دهد مردم در نظرسنجی دروغ می‌گویند. نویسنده این موضوع را بررسی کرده و یکی از اصلی‌ترین دلایل آن را ارائه تصویر خوب و مثبت دانسته است. به عبارتی، ما همیشه می‌خواهیم تصویر خوبی از خودمان نشان دهیم و به همین دلیل هم دروغ می‌گوییم.

به‌طور کلی مردم در نظرسنجی‌ها سعی می‌کنند بگونه ای جواب دهند که آبرویشان در خطر نباشد. به این پدیده می‌گویند: سوگیری مطلوبیت اجتماعی. یعنی جواب‌هایی می‌دهیم که مطلوب به نظر برسیم. در مصاحبه‌ها نیز افراد به دنبال این هستند که مصاحبه‌کننده را تحت تأثیر قرار دهند، حتی اگر او فردی ناشناس باشد.

 این گرایش به دروغ‌گویی که دلایل مختلفی دارد، منجر به غیرقابل‌اعتماد بودن و خطاپذیر بودن نظرسنجی‌ها می‌شود. این مشکل بسیار بزرگی است، خصوصاً اینکه در هشتاد سال گذشته، هر زمان خواستیم درباره خواسته‌های افراد پرسش کنیم یا اینکه چرا کاری را می‌کنند که در حال انجامش هستند و در آینده چه کاری انجام خواهند داد، نظرسنجی کردیم.

 اگرچه هدف صنعت نظرسنجی کمک به ما بوده اما باید بر این امر واقف باشیم که مردم مخصوصاً وقتی موضوع حساس است، راست نمی‌گویند و آن چیزی را می‌گویند که از نظرشان درست‌تر است و دیگران دوست دارند آن را بشنوند.

امکان رفتار فیلتر نشده و کاهش دروغ گویی از طریق کلان داده ها

قدرت کلان داده در این است که دروغ نمی‌گوید زیرا از روی رفتار فیلترنشده آدم‌ها جمع‌آوری شده است و به این ترتیب همیشه حقیقت را نشان می‌دهد. در واقع احتمال اینکه آدم‌ها در هنگام جست‌وجو کردن، اطلاعات تحریف شده را در گوگل بزنند، بسیار کم است. زمان جست‌وجو کردن، هیچ پرسشنامه‌ای درکار نیست و فقط شمایید و گوگل. می‌خواهید بدانید مثلاً دلایل سوزش معده چیست. اینجا دروغی در کار نیست. اینجا شما اصل قصه را در گوگل جست‌وجو می‌کنید. کتاب، مثال‌های متعددی درباره دروغ‌های نظرسنجی دارد و اگر مایل باشید آن را بخوانید، بسیار راه‌گشاست.

مورد دیگری که در کتاب بررسی شده، مربوط به انتخابات امریکاست. نویسنده معتقد است اگر قبل از انتخابات از مردم بپرسید شما در انتخابات شرکت می‌کنید یا خیر، اکثریت افراد در پاسخ خواهند گفت که شرکت می‌کنند و آن را وظیفه شهروندی خود می‌دانند. اما پس از اتمام انتخابات، مشاهده می‌شود که فقط ۵۵% مردم رأی داده اند، یعنی تعداد بسیاری از افراد در انتخابات مشارکت نمی‌کنند اما در عین حال نمی‌خواهند بگویند که رأی نمی‌دهند.

گوگل محرم اسرار دل مردم

 ایده نویسنده این است که مردم اگرچه در نظر سنجی ها دروغ می‌گویند و تحلیلگران را به بیراهه می‌کشانند اما با گوگل راحت‌تر اند و مطالبی را در گوگل جست‌وجو می‌کنند که ممکن است نخواهند به کسی بگویند. درست است که در گوگل، اطلاعات افراد، ناشناس می‌ماند و مشخص نیست چه کسی چه چیزی را جست‌وجو می‌کند اما با نگاهی کلی به جست‌وجو های انجام شده می‌توان به الگویی دست یافت. این الگو کمک می‌کند تا ببینیم مردم واقعاً چه چیزی می‌خواهند و به چه چیزی فکر می‌کنند، حتی خیلی بهتر از نظرسنجی‌ها.

نظرسنجی ها، انتخابات امریکا و نژادپرستی

 در مثالی دیگر، نویسنده انتخابات ۲۰۰۸ امریکا را بررسی می‌کند. در سال ۲۰۰۸، در امریکا ۹۹ درصد مردم در نظرسنجی‌ها اعلام کردند سیاه‌پوست بودن اوباما برایشان اهمیتی ندارد. این موضوع برای نویسنده جای تردید داشت و نمی‌توانست باور کند مردم امریکا تا این حد از نژادپرستی فاصله گرفته‌اند. در نتیجه با دسترسی به اطلاعات جست‌وجو، اصطلاحات و شوخی‌های نژاد‌پرستانه‌ای را که افراد جست‌وجو کرده بودند، بررسی کرد و به این نتیجه رسید که میزان نژادپرستی در امریکا بسیار بیشتر از میزان گزارش شده است.

 طبق داده‌های جمع‌آوری شده نویسنده، اگر از هر فردی در امریکا در مورد مرز جغرافیایی نژادپرستی پرسش شود، این مرز را شمال – جنوب می‌داند. اما نویسنده طی بررسی‌هایش به این نتیجه رسید که این مرز شرقی – غربی است و در شرق می‌سی‌سی‌پی، نژادپرستی بیشتر از غرب آن است. نویسنده، رأی اوباما را در ایالت‌هایی که بیشتر اصطلاحات و شوخی‌های نژادپرستانه را جست‌وجو کرده بودند بررسی کرد. سپس رأی او را با رأی کاندیدای دموکرات قبلی یعنی جان کری که به اندازه اوباما لیبرال اما سفید پوست بود، مقایسه نمود. طی این بررسی، مشخص می‌شود اوباما به دلیل سیاه پوست بودنش، چه تعداد رأی از دست داده است. در واقع ۱۰ درصد دموکرات‌های سفیدپوست در امریکا به کاندیدای سیاه پوست رأی نمی‌دهند زیرا او یک سیاه‌پوست است.

اهمیت نژادپرستی و روی کار آمدن ترامپ

 این نتیجه‌گیری در انتخابات ۲۰۰۸ دیده نشد زیرا اوباما در انتخابات پیروز شد. این نتیجه‌گیری زمانی خودش را نشان داد که ترامپ بر سر کار آمد. خبرنگاری از نیویورک تایمز، اطلاعاتی که نویسنده از سال ۲۰۰۸ جمع‌آوری کرده بود بررسی کرد و به انطباق عجیبی میان مناطقی که ترامپ در آن‌ها رأی بالایی آورده و مناطقی که نژادپرستی در آن بیشتر است، رسید. به عبارت بهتر، ارتباطی که بین رأی ترامپ و سطح نژادپرستی در این ایالت‌ها وجود داشت، واضح‌تر از ارتباط میان رأی ترامپ با سطح اقتصادی یا تحصیلات یا سن افراد در آن مناطق بود.

هیچ چیز آراء ترامپ را در دوره مقدماتی به خوبی جست‌وجو های نژادپرستانه افراد نشان نمی‌داد. همان نژادپرستی‌ای که به اوباما ضربه زد ولی در آمار و نظرسنجی‌ها و نتیجه انتخابات دیده نشد و کتمان شد. این کتاب به کمک کلان داده‌ها، واقعیاتی از نژادپرستی، کودک آزاری و سقط جنین‌های خانگی به ما نشان می‌دهد که اگرچه تلخ و تاریک، اما حقیقت است.

ناخودآگاه والدین درباره فرزندانشان در گوگل

از دیگر بررسی‌های نویسنده، تحلیل جست‌وجوی افراد درباره فرزندان دختر و پسرشان است. تصور ابتدایی نویسنده این بود که مردم در امریکا به فرزندانشان به یک شکل نگاه می‌کنند. اما داده‌های جست‌وجو، نشان‌دهنده واقعیتی دیگر است. جست‌وجو‌هایی که با “آیا پسرم” شروع می‌شده در ادامه آن بیشتر این عبارت آمده: “آیا پسرم نابغه است؟ ” و جست‌وجو‌هایی که با “آیا دخترم” شروع می‌شده، در ادامه بیشتر عبارت‌های ” آیا دخترم اضافه وزن دارد” یا “آیا دخترم زشت است؟ ” آمده است. به عبارتی، برخلاف نظرسنجی‌ها، افراد وقتی در خلوت خودشان صادقانه با گوگل حرف می‌زنند، درباره توانایی فکری پسرانشان هیجان زده‌اند و برای دخترها، نگران کاستی‌های جسمی‌شان اند و احتمالاً این موضوع ناخودآگاه است و افراد متوجه این مسئله نمی‌شوند.

بررسی اسلام هراسی در امریکا

کتاب “همه دروغ می گویند” که موضوع محوری آن “دانش داده” است، یکی از مسائل موجود در امریکا یعنی اسلام هراسی را با ابزار کلان داده بررسی می‌کند. در جریان اتفاقی که دو نفر مسلمان یکی از همکارانشان را به قتل می‌رسانند، در زمان کوتاهی کوتاهی، این خبر تبدیل به تیتر خبرها می‌شود. در مطالبی که جست‌وجو می‌شد، به همراه کلمه “مسلمان” عبارت‌هایی از قبیل “مسلمانان را بکشیم” و “من از مسلمانان متنفرم” فراوانی بسیاری داشتند. پس از چند روز از این واقعه، اوباما طی یک سخنرانی عنوان کرد که “هم باید از خودمان در برابر تروریسم محافظت کنیم و هم با اسلام هراسی بجنگیم و نباید عرصه را به این گروه کوچک ببازیم”.

روزنامه‌ها این سخنرانی اوباما را از بهترین سخنرانی‌های او دانستند. نویسنده برای بررسی میزان تأثیرگذاری این سخنرانی، جزء به جزء سخنرانی و همچنین جست‌وجو هایی که در آن بازه زمانی صورت گرفته بود، بررسی کرد و به دنبال پاسخ به این پرسش بود که آیا این سخنرانی توانسته آتش خشم و نفرت را مهار کند؟ وی نهایتاً به این نتیجه رسید که جست‌وجوهای “ما از مسلمان متنفریم و ما باید آنان را بکشیم” در بازه زمانی سخنرانی اوباما نه تنها کاهش نیافته بلکه هر زمان که اوباما اشاره می‌کرد که باید با همسایگان مسلمان‌مان مهربان باشیم، اثر عکس داشته و جست‌وجو‌های نفرت‌آمیز افزایش می‌یافت.

تنها در یک مقطع از سخنرانی اوباما این جریان قطع شد؛ زمانی که اوباما این عبارت را بیان کرد: “یادمان باشد که بسیاری از مسلمانان امریکایی، ورزشکاران قهرمان ما هستند و مردان و زنانی در میان این مسلمانان امریکایی هستند که به خاطر این کشور جانشان را از دست می‌دهند.” بلافاصله پس از ادای این عبارات، برای اولین بار نسبت به سال گذشته، بیشترین کلمه‌ای که در جست‌وجو گوگل در آن کلمه “مسلمان” وجود داشت از “تروریسم مسلمان” به “ورزشکاران مسلمان” و “سربازان مسلمان” تغییر یافت.

تحلیل این سخنرانی نشان می‌دهد که متن این سخنرانی مانند سایر سخنرانی‌ها، تکراری بوده است اما عبارات پایانی اوباما، کنجکاوی مردم را تحریک کرده است زیرا این عبارات اطلاعات جدیدی به مردم ارائه می‌کرد و به همین دلیل نیز موفقیت‌آمیز بوده است.

مدتی بعد، مقاله‌ای در این خصوص در نیویورک تایمز به چاپ رسید. پس از دو هفته، اوباما سخنرانی دیگری در مسجدی در بالتیمور ارائه کرد که به نظر می‌رسید افرادی که متن این سخنرانی را تهیه کرده بودند از ماجرای قبلی درس گرفته اند یعنی احتمال می‌رود که آن‌ها متن مقاله نیویورک تایمز را خوانده باشند و سپس بخش پند و اندرز دادن سخنرانی را حذف و روی قسمت کنجکاوکننده آن مانور دادند که “مسلمانان امریکایی ما نه تنها ورزشکار و سربازند بلکه کشاورز و تاجر هستند. این مسلمانان بودند که آسمان خراش‌های شیکاگو را ساختند.” در نتیجه تصور جدیدی از مسلمانان در ذهن مخاطب ساخته شد و ساعت‌ها پس از سخنرانی اوباما، جست‌وجوهای مرتبط با “مسلمان” و “مسلمان‌هراسی” و “مسلمان‌کشی” جای خودش را به کنجکاوی‌های جدید داد.

 البته نمی‌توان به سادگی پذیرفت که مشکل نفرت را می‌توان با سخنرانی حل کرد. این مسئله تنها گویای آن است که با این ابزار چه کارهایی می‌توان صورت داد. این افراد را نمی‌توان با نظرسنجی پیدا کرد و اگر هم پیدا شوند نمی‌توان نظر واقعی آن‌ها را فهمید و حتی با فهمیدن نظر واقعی شان، نمی‌توان نظرشان را تغییر داد زیرا برای این کار، باید افراد را به آزمایشگاه و دانشگاه بیاوریم و فرضیه‌ها را بررسی کنیم ولی از آنجایی که اطلاعات جست‌وجوی گوگل وجود دارد، می‌توان به کمک آن، بدون متحمل شدن زحمت زیاد، به نتایج مورد نظر دست یافت. کلان داده بسیار بزرگ است و شامل داده‌هایی است که روزانه به گوگل و موتور جستجوهای دیگر وارد می‌شوند. همچنین کمک می‌کند کارهایی انجام دهیم که بدون آن قادر به انجامش نبودیم.


نمونه‌ای دیگر از استفاده گوگل از اطلاعات را اینجا  و اینجا در سایت بردار ببینید.

افزودن دیدگاه

لطفا دیدگاه خود را بنویسید
لطفا نام خود را وارد کنید

5 × 2 =