کلان داده ها

کلان داده و کارایی آن‌ها: به همه دروغ می‌گوییم به جز گوگل -معرفی کتاب everybody lies- بخش سوم

تنظیم و پیاده‌سازی: اعظم ملک‌دار

تخمین زمان مطالعه:۸ دقیقه


در بخش سوم به دو مؤلفه دیگر قدرتمندی کلان‌داده‌ها یعنی بررسی اجزای کوچک تحقیق و تسهیل آزمون روابط همبستگی می‌پردازیم. سپس معایب کلان داده‌ها را مانند زمانی که متغیرها بسیارند یا متغیرها کمی نیستند بررسی می‌کنیم. همچنین در انتها به تفاوت گوگل و شبکه‌های اجتماعی، بحث‌هایی درباره مسائل اخلاقی و دسترسی دولت به کلان داده ها و میانبرهای علمی می پردازیم.  بخش اول و بخش دوم را هم ببینید.


سایت پادکست بی پلاس در یکی از اپیزودهایش را به معرفی کتابی به نام “همه دروغ می گویند” اختصاص داده است که چند ماه پیش منتشر و هنوز به فارسی ترجمه نشده است

مؤلفه قدرتمند کلان داده: بررسی اجزای کوچک تحقیق

سومین مؤلفه قدرتمند کلان داده این است که در عین بزرگ بودن، می‌توان روی جزء کوچک و مشخصی از اطلاعات تمرکز کرد و سپس با دقت آن را بررسی کرد. به عنوان نمونه، پروفسوری از هاروراد به دنبال پاسخ به این سؤال بود که آیا رؤیای امریکایی هنوز زنده است یا آیا هنوز امکان دارد یک نفر از خانواده‌ای فقیر، پولدار شود.

سپس او برای رسیدن به پاسخ، به جمع‌آوری اطلاعات مالیاتی مردم از ادارات پرداخت. وی بیش از یک میلیارد پرونده مالیاتی را بررسی کرد و سپس به این نتیجه رسید که اوضاع در امریکا برای فقرا خوب نیست؛ یعنی یک فرد فقیر در امریکا فقط ۷.۵ درصد شانس این را دارد که در زمینه‌ای که دوست دارد موفق شود اما همین شانس برای افراد فقیر در دانمارک ۱۱.۷ درصد و در کانادا ۱۳.۵ درصد است.

با کلان داده می‌توان در خصوص این آمارها به نتایجی رسید اما در عین حال می‌توان روی این داده‌ها ذره بین گرفت و ایالت به ایالت و شهر به شهر این مطالعه را انجام داد. وی همین کار را انجام داد و نتایج بررسی‌های او حاکی از آن بود که رؤیای امریکایی هنوز در برخی شهرهای امریکا برقرار است. به عبارتی همان شانسی که در امریکا ۷.۵ درصد است در سن خوزه کالیفرنیا ۱۲.۹ درصد است ولی در شارلوت فقط ۴.۴ درصد است. در نتیجه کلان داده، قابلیت تمرکز بر اطلاعات و رسیدن به نتیجه‌گیر‌ی‌های مورد نظر را دارد.

کلان داده ابزاری برای انجام آزمون های همبستگی

چهارمین مؤلفه قدرتمندی کلان داده در تسهیل آزمون روابط همبستگی است. هر روز به میزان بسیاری درباره همبستگی می‌شنویم. برای اثبات چنین رابطه‌ای باید آزمایشاتی معروف بهA/B  تست انجام شود که این آزمایشات بسیار پر هزینه و پیچیده است. اما کلان داده این تست‌ها را براحتی انجام می‌دهد. به این ترتیب که برنامه‌ای طراحی می‌شود تا کار از ابتدا تا انتها انجام شود.

برای مثال، تعداد تست‌هایی که فیسبوک در یک روز انجام می‌دهد از تست‌هایی که اداره غذا و داروFDA  در طول سال انجام می‌دهد، بیشتر است؛ زیرا وقتی به کلان تسلط داشته باشید، می‌توانید به سرعت سناریوها و نظریه‌های مختلف را تست کنید و نهایتاً آن‌ها را نتیجه‌گیری و تحلیل کنید.

برای مثال، در سال ۲۰۰۸، کمپین اوباما به دنبال طراحی سایتی برای تشویق مردم به کمک‌های مالی بود. آن‌ها به جای ارائه طرح‌های مختلف و استخدام افراد مختلف برای فهم چگونگی واکنش مردم درباره سایت، ترکیبات سایت و عکس‌ها و… ، از کلان داده استفاده کردند. آن‌ها با کلان‌داده رفتار کاربران را تحلیل کردند و سپس متوجه شدند کدام طراحی کارایی بهتری دارد و سپس همان را به کار گرفتند. در نتیجه به کمک کلان داده، می‌توان آزمون‌های پرهزینه را با هزینه بسیار کم انجام داد.

اولین عیب کلان‌داده ها: وقتی تعداد متغیرها بسیار است.

در این کتاب همچنین معایب کلان داده مورد بحث قرار گرفته است. یکی از معایب کلان داده مربوط به زمانی است که تعداد متغیرها زیاد است و نمی‌توان به راحتی نتیجه‌گیری کرد. برای مثال، یک استاد دانشگاه اطلاعات DNA دانشجویانش را جمع‌آوری و سپس این داده‌ها را با ضریب هوشی یا IQ آن‌ها مقایسه کرد. او به این نتیجه رسید که ژن IGF2R نشان‌دهنده ضریب هوشی افراد است و بدین ترتیب ادعا کرد که ژن ضریب هوشی را کشف کرده است. او بر اساس کلان داده به چنین کشفی رسید. به عبارتی، او با مشاهده اینکه وقتی این ژن در DNA این خصوصیات را دارد، ضریب هوشی فرد بیشتر است، به چنین نتیجه‌گیری‌ای دست یافت. پس از چند سال، وی آزمایش را با داده‌هایی از دانشجویان دیگر تکرار کرد و این بار چنین رابطه‌ای مشاهده نشد. مشکل در اینجاست که ژنوم انسان از هزاران ژن تشکیل شده و ممکن است همبستگی، شانسی و اتفاقی باشد زیرا متغیرهای زیادی در این زمینه دخیل اند و کلان‌داده با موقعیت‌هایی که متغیر‌ها در آن بسیار است، راحت نیست. درست است که یک الگو ایجاد شده ولی ممکن است این الگو کاملاً اتفاقی باشد.

دومین عیب کلان داده ها: ناتوانی در تحلیل متغیرهایی که قابل اندازه‌گیری نیستند

از معایب دیگر کلان داده می‌توان به ناتوانی آن در تحلیل متغیرهایی که قابل اندازه‌گیری نیستند، اشاره کرد. به عنوان مثال اگر فیسبوک همه لایک ها(پسندها) و کلیک‌های کاربرانش را جمع‌آوری کند، نمی‌تواند به درستی متوجه شود تجربه کاربرانش با یک محصول یا سایت چه بوده و چقدر این تجربه خوب بوده یا چقدر کاربران رضایت داشته اند. در اینجا لازم است که نظر کاربران درباره سایت پرسیده شود. یعنی از طریق نظرسنجی، داده‌های کوچک جمع‌آوری گردد، یعنی همان اقدامی که فیسبوک انجام می‌دهد.

فیسبوک، همچنین روانشناس و جامعه شناس استخدام می‌کند تا به کمک آنها بتواند داده‌هایی درباره اینکه “کاربران به چه چیزی فکر می‌کنند” استخراج کند و با کمک این داده‌ها، آنچه غیرقابل‌اندازه‌گیری است، بررسی کند زیرا کلان داده از این امر ناتوان است. در نتیجه می‌توان گفت کلان داده، کامل نیست.

البته هم مشکل از این عمیق‌تر است و هم امکانات کلان‌داده بسیار بیشتر از آن چیزی است که گفته شده است. هر زمان که شما کلمه‌ای را در گوگل جست‌وجو می‌کنید یا کالا و خدماتی را به‌صورت آنلاین خریداری می‌کنید، در انباشت و جمع‌آوری کلان داده مشارکت می‌کنید. اما سؤالی که بسیاری افراد با آن درگیر اند این است که “اگر دولت‌ها دستشان به این اطلاعات برسد، چه اتفاقی می‌افتد و چه کاری می‌توانند با آن انجام دهند؟ “

نمونه‌ای دیگر از استفاده گوگل از اطلاعات را اینجا در سایت بردار ببینید.

1+

افزودن دیدگاه

لطفا دیدگاه خود را بنویسید
لطفا نام خود را وارد کنید

پانزده − 13 =