زبان برنامه نویسی R و نرم افزار R راهی برای ورود به دنیای داده‌ها

معرفی زبان برنامه نویسی R و بستر نرم افزار R برای دانشجویان علوم انسانی و علوم اجتماعی- بخش اول

نویسنده: محمدرضا ملکی

تخمین زمان مطالعه: ۱۱دقیقه


اگر شما یک دانشجو و یا متخصص علوم انسانی هستید که دنیای کدنویسی و ریاضیات پیش چشم شما امری غریب و حتی سخت معلوم می‌شود از خواندن این مطلب اصلاً نهراسید. یادگرفتن کدنویسی درست مانند فراگرفتن مهارت‌هایی مانند مهارت رانندگی ست. این مطلب در سه بخش تهیه شده است. در این نوشته در بخش اول سعی می‌شود معرفی مختصری از زبان برنامه‌نویسی R و نرم افزار R ارائه شود.


ترس و عدم رغبت اولیه‌ی هرکس در زمینه‌ی فراگرفتن مهارت‌هایی مانند رانندگی، امری عادی ست. ریاضیات و علامت‌های عجیب و غریب آن می‌تواند حتی یک دانش‌آموخته‌ی ریاضی را هم بترساند. اما با پیش رفتن در امر یادگیری زبان برنامه نویسی و یا معادلات و تحلیل‌های آماری، ذره‌ذره این امر را فرامی‌گیرید که این امور صرفاً نیازمند صبر و حوصله هستند و پس از چندی دیدن یک کد، شما را نه تنها نمی‌ترساند بلکه فراگیری آن برای شما چالش‌برانگیز و جذاب نیز خواهد بود.

علوم انسانی و علوم اجتماعی بیش از هر چیز با حضور تکنولوژی و ابزارهای معرفی‌شده توسط تکنولوژی به سمت کاربردی‌تر شدن پیش می‌روند. تا پیش‌ازاین، بسیاری به وجود ابزارهای تحلیلی و ابزارهای معمول نمایش داده‌ها و نتایج آن‌ها برای پژوهش در حیطه‌ی علوم اجتماعی و انسانی بسنده می‌کردند.

امروزه اما با تکوین علوم داده‌ها، این امر تنها نمی‌تواند با استفاده از ابزارهای تحلیلی به تنهایی پیش برود. ابزارهای ساده‌ی تحلیلی تنها می‌توانند حجم کوچکی از داده‌های پژوهشی را تحلیل کنند، درحالی‌که کلان داده‌ها خود در بسیاری از پژوهش‌ها نیازمند تحلیل و بررسی‌ای ویژه هستند.

زبان‌های برنامه‌نویسی می‌توانند با الگوریتم‌های مربوط به تحلیل داده‌ها از پس کارهای مربوط به داده‌های حجیم برآیند. به همین علت یادگیری یک زبان برنامه‌نویسی و محیطی پویا برای تحلیل داده‌های این‌چنینی امروزه یکی از الزامات پژوهش‌های مربوط به حوزه‌های علوم اجتماعی ست.

زبان برنامه‌نویسی R و بسترهای قابل استفاده در نرم افزار R از مهم‌ترین زبان‌های برنامه‌نویسی دنیا محسوب می‌شوند که در پژوهش‌های علوم انسانی و علوم اجتماعی قابل استفاده هستند. هر روزه استفاده و کاربرد بسته‌های نرم‌افزاری مختص به پژوهش‌های مختلف علوم انسانی در حال گسترش و توسعه هستند و زبان برنامه‌نویسی R در هر لحظه در حال تکوین و پیشرفت است. در این نوشته سعی می‌شود معرفی مختصری از زبان برنامه‌نویسی R ارائه شود و در مورد کاربرد آن در علوم انسانی و علوم اجتماعی صحبت شود.

پژوهش‌های علوم انسانی و نیاز آن‌ها به تکنولوژی

بسیاری از علاقه‌مندان و دانشجویان علوم انسانی هنوز درگیر پرسشی پیشینی هستند. به‌راستی پژوهش چیست؟ این سؤال هر چند سؤال کلی‌ای محسوب می‌شود اما در حقیقت پاسخ به این پرسش بسته به فردی که از او این سؤال پرسیده شده است متفاوت و متمایز خواهد بود.

برخی می‌گویند که امروزه پژوهش و جستجو تنها محدود به جستجوی آن‌ها برای خرید کالاها و یا سر زدن به صفحه‌های متفاوت اینترنتی می‌شود. کاهش دادن مفهوم پژوهش به این موارد، پژوهش واقعی را در حوزه‌ای خارج از حوزه‌ی عمومی تعریف می‌کند و آن را به‌نوعی تبدیل به امری تخصصی برای دانشمندان و دانشجویان علوم مختلف می‌کند.

به همین‌ دلیل نیز در حیطه‌ی کسب‌وکار پژوهش، معنایی بسیار کاربردی در نظر گرفته شده است و با حضور نرم‌افزارهای پیشرفته برای تحلیل داده‌های مختلف، امروزه پژوهش یک عنصر حیاتی برای بقا کسب‌وکارهای مختلف محسوب می‌شود.

بنابراین شناخت تمایز حقیقی میان پژوهش و جستجوی عمومی با پژوهش علمی، ما را به این امر فرامی‌خواند که متوجه تفاوت اصلی فعالیت علمی با غیر علمی و روش‌های پژوهش علمی باشیم. برای مثال جستجو درباره‌ی مسائل اجتماعی در علوم اجتماعی شامل، مطالعه مردم و یا مجموعه‌ای از انسان‌ها مانند گروه‌ها، نهادها و یا نظام‌های اقتصادی و جوامع مختلف و نوع رفتارهای متفاوت آن‌هاست.

نوع برخورد هر پژوهشگر با رفتارهای مورداشاره، در هیئت یک دانشمندی که برمبنای علمی کار می‌کند، مبتنی بر نظریه‌پردازی و مشاهده است. تکنیک‌های علمی پژوهش به دانشمندان علوم مختلف اجازه می‌دهند که تئوری و نظریه‌ی خود را به صورتی منطقی، قابل اطمینان، قابل تکرار و قابل نقد ارائه دهند. جهت وصول به این اهداف، می‌باید از ابزارها و روش‌هایی استفاده کرد که بتواند شاخصه‌های پیش‌گفته را تحت پوشش قرار دهد.

از جمله داده‌های مورد استفاده در روش‌های متفاوت تحقیق‌های علمی داده‌های کیفی و کمی هستند. روش‌های برخورد با داده‌های کیفی و کمی نیازمند استفاده از ابزارهای مبتنی بر اصول پژوهش‌های علمی ست. امروزه علوم داده‌ها، یکی از پیشروترین علوم جهان است که هر روز با توجه به دسترسی‌پذیری‌اش، رشد بیشتری نسبت به قبل دارد.

روش‌های متفاوت برخورد با داده‌ها به خصوص داده‌های کمی، توانسته‌اند نزدیکی بسیاری را میان علوم محاسباتی و آماری و همین‌طور علوم انسانی ایجاد نمایند. در واقع علوم انسانی و اجتماعی با توجه به گستردگی و توانمندی روزافزون نرم‌افزارهای محاسباتی، نقش پررنگ‌تر و همین‌طور کاربردی‌تری پیدا کرده‌اند.

کمی کردن داده‌های مختلف و بررسی کمی داده‌های مختلف برای یک دانشجوی علوم انسانی امری ضروری ست. همان‌طور که در ابتدای مقاله نیز بیان شد، علاقه‌ای اولیه برای فراگیری یک زبان برنامه نویسی برای هر کسی وجود دارد. کافی ست دلیل فراگیری یک زبان برنامه نویسی را فرا بگرید تا انگیزه‌ی کافی برای فراگیری یک زبان برنامه نویسی را داشته باشید.

امروزه اغلب پژوهش‌های علوم انسانی و علوم اجتماعی از آزمایش فرضیه‌های مختلف تشکیل می‌شوند. این فرضیه‌ها در اغلب پژوهش‌ها نیازمند داده‌های کمی هستند. داده‌های کمی و نسبت و رابطه‌ی آن‌ها با یکدیگر صرفاً می‌تواند در پرتو تحلیل‌های آماری و استفاده از عملگرهای آماری روشن شود. برای مثال یکی از ساده‌ترین عملگرهای آماری، میانگین است.

عمل میانگین به‌سادگی یک عملگر ریاضیاتی ساده ست که فهم آن برای همه‌ی انسان‌ها بسیار ساده نمی‌نماید و درعین‌حال این عملگر می‌تواند سویه و جهت آماری یک مجموعه از داده‌های کمی را نشان دهد. فرآیند رأی دادن در یک انتخابات سیاسی و میانگین رأی‌های مختلف می‌تواند در کسری از ثانیه سویه و جهت‌گیری جغرافیایی مردم یک کشور را معین کند. به همین دلیل فراگیری زبان‌های برنامه نویسی و تحلیل‌های آماری می‌تواند بسیاری از دانشجویان و فعال‌های عرصه علوم انسانی و علوم اجتماعی را کمک کند تا بتوانند هر چه سریع‌تر و مؤثرتر به نتایج مطلوب خود برسند.

حضور و گسترش دنیای داده‌ها و ضرورت ابزارهای جدید

اطلاعات در جهان امروز به عنوان یکی از عوامل تولیدی مهم محسوب می‌شوند. داده‌ها نمایشی از واقعیت‌ها، معلومات، مفاهیم، رویدادها یا پدیده‌ها برای برقراری ارتباط، تفسیر یا پردازش توسط انسان و یا ماشین‌های یادگیرنده هستند. در حال حاضر نرخ تجمع داده‌ها در دنیا به گونه‌ای‌ست که هر دو سال یک‌بار، حجم پایگاه‌های داده دو برابر می‌شود. این امر به علت وجود شبکه جهانی اینترنت، سیستم‌های یکپارچه اطلاعاتی و بانکی و بسیاری پیشرفت‌های دیگر است.

کار با داده‌ها و تحلیل آن‌ها امروزه تنها مورد استفاده‌ی شرکت‌ها و دانشگاه‌ها نیست، بلکه بسیاری از تصمیم‌های کلان کشورها نیز بر اساس همین داده‌ها صورت می‌گیرد. تحلیل کلان داده‌ها و حجم انبوه داده‌ها نیازمند روش‌های جدیدی ست که امروزه موسوم به روش‌های داده‌کاوی هستند.

داده‌کاوی شامل الگوریتم‌های محاسباتی زیادی ست که بدون وجود زبان‌های برنامه‌نویسی ممکن نیستند. یکی از مهم‌ترین روش‌های تحلیل و بررسی داده‌های کمی در پژوهش‌های علوم انسانی و علوم اجتماعی، استفاده از زبان‌های برنامه‌نویسی و محیط‌های محاسباتی ست. زبان‌های برنامه‌نویسی به طور وسیعی توسط بسیاری از پژوهشگران علوم اجتماعی استفاده می‌شوند و علاوه بر محیط‌های آکادمیک، این زبان‌ها کاربرد بسیاری در فعالیت‌های مربوط به حیطه‌ی کسب‌وکار دارند. همین‌طور علاوه بر داده‌کاوی، بسیاری از محققین علوم اجتماعی نیازمند استفاده از نرم‌افزارهای محاسباتی برای تحلیل و محاسبه آماری هستند.

نرم افزار R برای دانشجویان علوم انسانی و علوم اجتماعیمعرفی مختصری از زبان برنامه نویسی R و نرم افزار R

یکی از نرم‌افزارها یا بهتر بگوییم، زبان‌های برنامه‌نویسی آماری بسیار مهمی که در زمینه‌ی داده‌کاوی و همین‌طور تحلیل‌های آماری می‌تواند بسیار مثمر ثمر باشد، نرم‌افزار R است. نرم افزار R اکثر زمینه‌های آمار کاربردی مانند تحلیل سری‌های زمانی، رگرسیون خطی و غیرخطی، آزمون فرض‌های کلاسیک، کدگذاری، خوشه‌بندی و … را پوشش داده و همچنین نرم‌افزار قدرتمندی برای ایجاد اشکال گرافیکی و نمودارها است.

زبان نرم‌افزاری S در سال ۱۹۶۰ توسط jogn chambers و همکارانش در لابراتوار bell به منظور برنامه‌نویسی آماری برای تحلیل داده‌ها و مدل‌سازی پیشرفته داده‌ها ایجاد شد. بعدها نسخه‌ی تجاری S تحت عنوان s-plus وارد بازار گردید. از آنجایی که s-plus یک نرم‌افزار گران‌قیمت بود دو آماردان نیوزلندی تصمیم گرفتند نسخه‌ی ارزان‌تری از S برای مقاصد آموزشی بنویسند. به همین علت زبان R به عنوان یک زبان برنامه‌نویسی ارائه شد که بر اساس زبان‌های S و اسکیم پیاده‌سازی شده و اولین بار در سال ۱۹۹۳ پایه‌ریزی شده است و نرم‌افزار آن به صورت متن‌باز برای استفاده عمومی عرضه شده است.

نرم‌افزار R برای اولین‌بار به‌عنوان یک پروژه تحقیقاتی توسط رأس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) دو آماردان نیوزلندی، در سال ۱۹۹۳ نوشته شد. در حال حاضر، R توسط گروهی از متخصصان علم آمار به نام “تیم هسته نرم‌افزار “R با صفحه‌ای در آدرس www.r-project.org درحال‌توسعه است. زبان برنامه‌نویسی R با توجه به اپن سورس بودن، تحت لیسانس GPL قابل‌استفاده و باز انتشار می‌باشد.

هسته‌ی R یک زبان کامپیوتری مفسر است که همچون برنامه‌نویسی ماژولار از توابع استفاده می‌کند. نمودار زیر نشان دهنده سهم هر یک از نرم‌افزارها و زبان‌های برنامه‌نویسی مربوط به علوم داده‌ها و علوم آماری ست که در سال‌های میان ۲۰۱۶ تا ۲۰۱۸ مورداستفاده‌ی کاربرانشان قرار گرفته‌اند. این نمودار نشان می‌دهد نرم‌افزار R سهم بسیار زیادی را میان زبان‌های برنامه‌نویسی از آن خود کرده است و در میان دیگر زبان‌های موجود مانند python سهم زیادی را به خود اختصاص داده است.

چرا باید زبان برنامه نویسی R را فرا گرفت؟

برای هرکسی ممکن است این سؤال پیش بیاید که چرا باید زبان برنامه نویسی R را فرا گرفت؟ موارد زیر از جمله مزیت‌های زبان برنامه نویسی R و محیط نرم افزار R هستند که هر یک از دانشمندان را مجاب می‌کند که از این پلتفرم محاسباتی استفاده کنند:

  • رایگان بودن و متن‌باز بودن
  • قابلیت نصب بر روی همه سیستم‌عامل‌های موجود در دنیا
  • سرعت بالا در دست‌یابی به تکنیک‌های جدید در قالب کتابخانه‌ها و توابع آماده
  • قابلیت اضافه کردن و نوشتن برنامه‌های جدید به صورت بسته‌های جدید در R
  • دارا بودن قابلیت‌های قابل‌ملاحظه‌ی گرافیکی با امکانات گرافیکی برای تجزیه‌وتحلیل داده‌ها، رسم نمودار و ایجاد اشکال.
  • وجود شرط‌ها، حلقه‌ها، توابع بازگشتی و معمولی در این زبان برنامه نویسی
  • دارا بودن مجموعه‌ی بزرگی از عملگرها برای محاسبات ماتریکس‌ها، آرایه‌ها و بردارها
  • حاوی محدوده‌ی گسترده‌ای از تکنیک‌های آماری.
  • کتابخانه‌های انجام عملیات داده‌کاوی و یادگیری ماشین مانند دسته‌بندی، خوشه‌بندی، تحلیل شبکه اجتماعی، یادگیری تقویتی و…
  • امکانات ذخیره، بازیابی و دست‌کاری داده‌ها.
  • قابل‌استفاده برای کاربران نرم‌افزار S-Plus

محدودیت‌ها و معایب زبان برنامه نویسی R

به صورت خلاصه می‌توان در کنار مزیت‌های ویژه‌ی زبان برنامه نویسی R، به معایب و کاستی‌های آن اشاره کرد:

  • زبان R دارای مفسر است، بدین معنی که برای اجرا، ترجمه نمی‌شود و به‌صورت فایل اجرایی درنمی‌آید.
  • دارای امکان ایجاد Gui نیست.
  • عدم پشتیبانی یک سیستم تجاری قوی از برنامه R
  • تکنیک‌های تحلیلی به شرایط و حجم داده‌ها جهت پردازش محدود است که نباید از مقدار ۱۶ ترابایت تجاوز کند
  • نرم افزار R می‌تواند در بسیاری از رشته‌ها مانند آمار، زیست شناسی، علوم پزشکی، بیوتکنولوژی، علوم کامپیوتر، فیزیک و رشته‌های روانشناسی، علوم اجتماعی و مدیریت کاربردهای فراوانی در مواقع رویارویی با داده‌ها و تحلیل آن‌ها داشته باشد.

ادامه دارد…


بردار به دنبال معرفی نرم افزارهایی بجز نرم افزارهای تحلیلی معمولِ در علوم انسانی و اجتماعی است تا بتواند در آینده‌ای نزدیک، کارگاره‌هایی در این حوزه برای علاقه‌مندان برگزار کند.

2+

افزودن دیدگاه

لطفا دیدگاه خود را بنویسید
لطفا نام خود را وارد کنید

سه × 1 =