گوگل و کلان داده ها

معرفی کتاب everybody lies :  همه ما مسائلی داریم که به دلایل مختلفی درباره‌شان صحبت نمی‌کنیم یا اغلب در مورد آن دروغ می‌‌گوییم. اما در مواجهه با گوگل متفاوت رفتار می‌کنیم. ما به همه دروغ می‌گوییم به جز گوگل! 

تنظیم و پیاده‌سازی: اعظم ملک‌دار

تخمین زمان مطالعه:۸ دقیقه


سث استفنز ، کارشناس کلان داده(بیگ دیتا) در استنفورد و هاروارد است که مدتی به عنوان “دانشمند داده” در گوگل فعالیت داشته است. وی به تازگی کتابی با عنوان”everybody lies” یا “همه دروغ می‌گویند” منتشر کرد که در ۲۰۱۷ به انتخاب مجله اکونومیست، کتاب سال معرفی شده است. این کتاب به ما می‌گوید اطلاعاتی که گوگل و شرکت‌های مشابه از مردم جمع‌آوری می‌کنند، چه کارایی داشته و چه نکات جالب و مهمی درباره‌ عادات، رفتارها، ترس‌ها، علاقه‌ها و انگیزه‌های انسان به ما می‌دهد. داده‌های گوگل که به آن‌ها “کلان داده (بیگ دیتا)” گفته می‌شود، دارای چهار مؤلفه قدرتمند است که در این کتاب بررسی می‌شود.


سایت پادکست بی پلاس یکی از اپیزودهایش را به معرفی کتابی به نام “همه دروغ می گویند” اختصاص داده است که چند ماه پیش منتشر و هنوز به فارسی ترجمه نشده است

کتاب سال ۲۰۱۷ اکونومیست

سال گذشته یعنی ۲۰۱۷، اکونومیست این کتاب را به عنوان کتاب سال معرفی کرد. موضوع کتاب حول این محور است که اطلاعاتی که گوگل و شرکت‌های مشابه از مردم جمع‌آوری می‌کنند، چه کارایی داشته و چه نکات جالب و مهمی درباره‌ عادات، رفتارها، ترس‌ها، علاقه‌ها و انگیزه‌های انسان به ما می‌دهد. شاید بسیاری از این موارد برای ما آشنا یا قابل حدس باشد ولی بی شک نکاتی در این کتاب است که آن را بسیار غافلگیرکننده می‌کند.

درباره نویسنده: دانشمند داده در گوگل

نویسنده کتاب، سث استفنز [۱] کارشناس کلان داده در استنفورد و هاروارد است. او در رشته فلسفه و اقتصاد تحصیل کرده و مدتی به عنوان دانشمند داده در گوگل مشغول به کار بوده است. کتاب “همه دروغ می‌گویند” کتاب اول این نویسنده است که سبب شهرت وی شده است. او در حال حاضر در نیویورک تایمز می‌نویسد.

ایده اصلی نویسنده کتاب

 ایده اصلی نویسنده این است که “ما به همه دروغ می‌گوییم”. عنوان everybody lies نیز از این ایده گرفته شده است. نویسنده معتقد است که ما به همه دروغ می‌گوییم به جز گوگل ! مثلاً ممکن است کسی نیمه شب از سوزش معده بیدار شود و به شریک یا پدر و مادرش چیزی در این مورد نگوید ولی به گوگل می‌گوید. او گوگل می‌کند که سوزش معده ساعت دو صبح نشانه چیست. به همین دلیل، نویسنده باور دارد با تحلیل داده‌هایی که نزد گوگل است، می‌توانیم ببینیم که سوزش معده به چه چیزهایی ختم می‌شود. یا مثلاً می‌توانیم ببینیم چند درصد از سفیدپوستان امریکا به اوباما رأی ندادند فقط به این دلیل که سیاه پوست بود.

گوگل و راز دل مردم

این‌ها مسائلی است که مردم درباره‌اش حرف نمی‌زنند ولی ممکن است که گوگل پاسخ واقعی آن‌ها را بداند. یعنی بداند واقعاً در دل مردم چه خبر بوده است. مثلاً گوگل می‌تواند به ما بگوید مردم واقعاً ته دلشان دوست دارند بچه‌شان پسر باشد یا اینکه پسر یا دختر بودن فرزند برای آن‌ها فرقی ندارد یا مردم درباره زندگی جنسی‌شان چه دروغ‌هایی می‌گویند و از این دروغ‌ها به چه نتایجی می‌توان رسید.

 گوگل پاسخ بسیاری از این سؤالات را دارد، نه این که اگر گوگل کنیم جوابشان را به دست می‌آوریم بلکه به این دلیل گوگل می‌کنیم که قبلاً در مورد همه این موضوعات گوگل شده و نگاه کردن به آنها بسیار آموزنده است.

به جز ایده مرکزی کتاب که جذاب است، فصل‌های مختلف کتاب پر از مثال‌ها و داستان‌های جالب است که هم ذهن را درباره موضوع روشن می‌کند و هم کمک می‌کند تا سخن اصلی کتاب راحت‌تر فهمیده شود و بهتر در ذهن بماند.

کلان داده (بیگ دیتا) و دانشمند داده

احتمالاً اصطلاح “کلان داده” یا big data را شنیده اید. کلان داده، اطلاعاتی با حجم بسیار است که مغز انسان نمی‌تواند آن‌ها را هضم کند و برای آنکه الگویی در آن‌ها بیابد، نیازمند پردازنده قوی رایانه است. جالب اینکه اگرچه اندازه کلان داده (بیگ دیتا) بسیار بزرگ است و کار کردن با آن نیازمند رایانه است اما وجهی حسی و غریزی نیز دارد. نویسنده معتقد است که همه ما به نوعی “دانشمند داده” ایم. نویسنده برای این ادعا مثالی می‌آورد. او می‌نویسد روز عید شکرگزاری، مادربزرگش از او خواسته بود تا برای انتخاب شریک زندگی و ویژگی‌های شریک مناسب به رهنمودهای او عمل کند.

مادربزرگ و الگوی شریک زندگی خوب

شریک خوب از نظر مادربزرگ نویسنده کسی است که بامزه، مهربان، پر تحرک و زیبا باشد البته نه در حد سوپر مدل. مادربزرگ وی در طول زمان رابطه‌های بسیاری را تجربه کرده و شاهد رابطه‌های بسیاری در اطرافیان و دوستانش نیز بوده است. در نتیجه او طی سال‌ها جمع‌آوری اطلاعات، به ویژگی‌های اساسی لازم برای شریک زندگی رسیده است؛ به عبارت دیگر، مادربزرگ نویسنده الگوهایی را در این زمینه شناسایی کرده است. در نتیجه او می‌تواند پیش بینی کند چگونه تعدادی از متغیر‌ها بر متغیرهای دیگر اثر می‌گذارند و در صورت وجود چه متغیرهایی، می‌توان به دوام یافتن رابطه فکر کرد.

 این دقیقاً همان کاری است که دانشمند داده انجام می‌دهد. البته فرایند دانش داده، فرایندی غریزی و حسی است و علم محسوب نمی‌شود. به همین دلیل برای آنکه نگاهمان به دنیا درست شود باید از اطلاعاتی که جمع‌آوری کردیم درست استفاده کنیم. این اطلاعات، مواد خام را در اختیار ما می‌گذارند که می‌توان با آن‌ها حس اولیه را تأیید یا رد کرد. همچنین به ما کمک می‌کنند تا الگوها را شناسایی و پیش‌بینی کنیم و کارهایی انجام دهیم که بر حسب داستان شخصی‌مان، قادر به انجامشان نبودیم.

در مثال مادربزرگ، او باور داشته اگر دو نفر شریک زندگی، دوستان مشترک داشته باشند، رابطه شان پایدارتر خواهد بود. وی بر حسب مشاهدات خود به این نتیجه رسیده بود، زیرا در طول زندگی مشترک با همسرش، بعد از ظهرها با دوستان مشترکشان جمع می‌شده و گپ و گفتگو می‌کردند. از نظر او همین مسئله سبب دوام رابطه‌شان شده بود. اما واقعیت این است که حجم نمونه او کوچک بوده و شواهد نشان می‌دهد که او در این عقیده اشتباه می‌کند. طبق مطالعه انجام شده در سال ۲۰۱۴ که از اطلاعات فیسبوک استخراج شد، زوج‌هایی که دوستان مشترک بیشتری داشتند، به نسبت بیشتری، وضعیتشان را از “بودن در رابطه” به “مجرد” تغییر داده اند.

 این نشان می‌دهد که به احتمال زیاد، زوج‌هایی که دوستان مشترک بیشتری داشتند، بیشتر از هم جدا شدند. بنابراین ممکن است ما نسبت به یک موضوع، حدس و احساساتی داشته باشیم اما اینها فقط تا یک جایی ما را جلو می‌برند. از یک جایی به بعد، این داده‌ها و اطلاعات اند که باید به کمک ما بیایند، چرا که داده‌ها و اطلاعات، نگرش بابصیرت‌ترین افراد را نیز تصحیح می‌کنند.

از گرداوری داده و کشف الگوها تا پیش‌بینی آینده

دانش داده، ابزاری کاربردی است که کارش فقط جمع‌آوری داده نیست بلکه الگوهایی در اطلاعات کشف می‌کند و بر اساس این الگوها درباره آینده پیش‌بینی می‌کند. آنچه گوگل را گوگل کرد این نبود که اطلاعات زیادی جمع‌آوری می‌کرد، بلکه وجه تمایز گوگل این بود که توانست از این اطلاعات استفاده مؤثری کند.

بسیاری از ما تصوری از دنیای اینترنت قبل از گوگل نداریم. قبل از گوگل، موتورهای جستجوی دیگری وجود داشتند اما آن زمان اگر در یکی از موتورهای جست‌وجو مثلاً واژه ” بیل کلینتون” را جست‌وجو می‌کردیم، صفحات زیادی نشان داده می‌شد که در آنها نام بیل کلینتون بارها آمده است ولی تعداد بسیاری از آن‌ها هیچ‌گونه ارتباطی با “بیل کلینتون” نداشتند و فقط برای این در صفحه بالا می‌آمدند که در جست‌وجوها دیده شوند. مانند آنچه که در حال حاضر در ایران و اینترنت فارسی اتفاق می‌افتد. به عبارتی وضعیت ما در اینترنت فارسی، از ماجرایی که مربوط به ۲۰ سال گذشته است، دور نیست.

اما گوگل، الگوریتم را تغییر داد و سایت‌هایی را انتخاب کرد که بهتر و مرتبط‌تر بوده و بیشتر به آن‌ها لینک داده می‌شد. در نتیجه وقتی شما در گوگل “بیل کلینتون” رو جست‌وجو می‌کنید، سایت رسمی “بیل کلینتون” را می‌بینید و احتمالاً حدس می زنید سایت بهتری است. به عبارت بهتر، گوگل اطلاعات لینک‌ها (پیوندها) را جمع‌آوری کرده و به الگوهایی رسید که بر اساس آنها پیش‌بینی کرد کدام سایت معتبرتر است و کدام برای مخاطب کارایی بیشتری دارد. به طور خلاصه، می‌توان گفت الگوی گوگل در کار با داده، جمع‌آوری اطلاعات، کشف الگو و سپس پیش‌بینی آینده است.

ادامه دارد…


نمونه‌ای دیگر از استفاده گوگل از اطلاعات را اینجا در سایت بردار ببینید.

افزودن دیدگاه

لطفا دیدگاه خود را بنویسید
لطفا نام خود را وارد کنید

16 − ده =