Какво е език за програмиране R? Въведение & Основи на R

Съдържание:

Anonim

Какво е R софтуер?

R е език за програмиране и безплатен софтуер, разработен от Ross Ihaka и Robert Gentleman през 1993 г. R притежава обширен каталог от статистически и графични методи. Той включва алгоритми за машинно обучение, линейна регресия, времеви редове, статистически извод, за да назовем само няколко. Повечето от R библиотеките са написани на R, но за тежки изчислителни задачи се предпочитат C, C ++ и Fortran кодове.

R не е поверен само от академични среди, но много големи компании също използват език за програмиране R, включително Uber, Google, Airbnb, Facebook и така нататък.

Анализът на данни с R се извършва в поредица от стъпки; програмиране, трансформиране, откриване, моделиране и съобщаване на резултатите

  • Програма : R е ясен и достъпен инструмент за програмиране
  • Трансформация : R се състои от колекция от библиотеки, създадени специално за науката за данните
  • Открийте : Проучете данните, прецизирайте хипотезата си и ги анализирайте
  • Модел : R предоставя широк набор от инструменти за улавяне на правилния модел за вашите данни
  • Комуникация : Интегрирайте кодове, графики и изходи в отчет с R Markdown или изградете лъскави приложения, които да споделяте със света

В този уводен урок ще научите R

  • За какво се използва R?
  • R по индустрия
  • R пакет
  • Общувайте с R
  • Защо да използвам R?
  • Трябва ли да изберете R?
  • Трудно ли е R?

За какво се използва R?

  • Статистическо заключение
  • Анализ на данни
  • Алгоритъм за машинно обучение

R по индустрия

Ако разделим използването на R по индустрия, виждаме, че академиците са на първо място. R е език за извършване на статистика. R е първият избор в здравната индустрия, последван от правителството и консултациите.

R пакет

Основната употреба на R е и винаги ще бъде, статистика, визуализация и машинно обучение. Картината по-долу показва кой R пакет има най-много въпроси в Stack Overflow. В топ 10 повечето от тях са свързани с работния процес на учен по данни: подготовка на данни и съобщаване на резултатите.

Всички библиотеки на R, почти 12k, се съхраняват в CRAN. CRAN е безплатен и отворен код. Можете да изтеглите и използвате многобройните библиотеки за извършване на машинно обучение или анализ на времеви редове.

Общувайте с R

R има множество начини за представяне и споделяне на работа, било чрез документ за намаление или блестящо приложение. Всичко може да бъде хоствано в Rpub, GitHub или уебсайта на бизнеса.

По-долу е даден пример за презентация, хоствана в Rpub

Rstudio приема намаление, за да напише документ. Можете да експортирате документите в различни формати:

  • Документ:
    • HTML
    • PDF / латекс
    • Word
  • Презентация
    • HTML
    • PDF излъчвател

Rstudio има чудесен инструмент за лесно създаване на приложение. По-долу е даден пример за приложение с данни на Световната банка.

Защо да използвам R?

Науката за данните оформя начина, по който фирмите управляват бизнеса си. Без съмнение, стоенето настрана от изкуствения интелект и машината ще доведе компанията до фалит. Големият въпрос е кой инструмент / език трябва да използвате?

На пазара има много инструменти за извършване на анализ на данни. Изучаването на нов език изисква известно време. На снимката по-долу е изобразена кривата на обучение в сравнение с бизнес възможностите, които езикът предлага. Отрицателната връзка предполага, че няма безплатен обяд. Ако искате да дадете най-добрата представа от данните, тогава трябва да отделите известно време за изучаване на подходящия инструмент, който е R.

В горния ляв ъгъл на графиката можете да видите Excel и PowerBI. Тези два инструмента са лесни за научаване, но не предлагат изключителни бизнес възможности, особено по отношение на моделирането. В средата можете да видите Python и SAS. SAS е специален инструмент за провеждане на статистически анализ за бизнеса, но не е безплатен. SAS е софтуер за кликване и стартиране. Python обаче е език с монотонна крива на обучение. Python е фантастичен инструмент за внедряване на машинно обучение и изкуствен интелект, но му липсват комуникационни функции. С идентична крива на обучение, R е добър компромис между внедряването и анализа на данните.

Що се отнася до визуализацията на данни (DataViz), вероятно сте чували за Tableau. Tableau е, без съмнение, чудесен инструмент за откриване на модели чрез графики и диаграми. Освен това изучаването на Tableau не отнема много време. Един голям проблем с визуализацията на данни е, че в крайна сметка никога няма да намерите модел или просто да създадете много безполезни диаграми. Tableau е добър инструмент за бърза визуализация на данните или Business Intelligence. Що се отнася до статистиката и инструмента за вземане на решения, R е по-подходящ.

Stack Overflow е голяма общност за езици за програмиране. Ако имате проблем с кодирането или трябва да разберете модел, Stack Overflow е тук, за да ви помогне. През годината процентът на разглежданията на въпроси се е увеличил рязко за R в сравнение с другите езици. Тази тенденция, разбира се, е силно корелирана с процъфтяващата ера на науката за данните, но отразява търсенето на R език за наука за данни.

В науката за данните има два инструмента, които се конкурират помежду си. R и Python вероятно са езикът за програмиране, който определя науката за данните.

Трябва ли да изберете R?

Ученият за данни може да използва два отлични инструмента: R и Python. Може да нямате време да ги научите и двете, особено ако започнете да учите наука за данни. Изучаване на статистическо моделиране и алгоритъме много по-важно, отколкото да се научи език за програмиране. Езикът за програмиране е инструмент за изчисляване и предаване на вашето откритие. Най-важната задача в науката за данните е начинът, по който се справяте с данните: импортиране, почистване, подготовка, инженеринг на функции, избор на функции. Това трябва да е основният ви фокус. Ако се опитвате да научите R и Python едновременно, без солиден опит в статистиката, това е глупаво. Ученият за данни не е програмист. Тяхната работа е да разберат данните, да ги манипулират и да изложат най-добрия подход. Ако обмисляте кой език да научите, нека видим кой език е най-подходящ за вас.

Основната аудитория в областта на науката за данни е бизнес професионалист. В бизнеса едно голямо значение е комуникацията. Има много начини за комуникация: отчет, уеб приложение, табло за управление. Имате нужда от инструмент, който прави всичко това заедно.

Трудно ли е R?

Преди години R беше труден за овладяване език. Езикът беше объркващ и не толкова структуриран, колкото другите инструменти за програмиране. За да преодолее този основен проблем, Хадли Уикъм разработи колекция от пакети, наречени tidyverse. Правилото на играта се промени за най-доброто. Манипулирането на данни става тривиално и интуитивно. Създаването на графика вече не беше толкова трудно.

Най-добрите алгоритми за машинно обучение могат да бъдат приложени с R. Пакети като Keras и TensorFlow позволяват да се създаде техника за машинно обучение от висок клас. R също има пакет за изпълнение на Xgboost, един от най-добрите алгоритми за състезание Kaggle.

R може да комуникира с другия език. Възможно е да се обадите на Python, Java, C ++ в R. Светът на големите данни е достъпен и за R. Можете да свържете R с различни бази данни като Spark или Hadoop.

И накрая, R еволюира и позволи паралелизиране на операцията, за да ускори изчислението. Всъщност R беше критикуван, че използва само по един процесор наведнъж. Паралелният пакет ви позволява да изпълнявате задачи в различни ядра на машината.

Обобщение

Накратко, R е чудесен инструмент за изследване и изследване на данните. Сложният анализ като клъстериране, корелация и намаляване на данни се извършва с R. Това е най-важната част, без добро инженерство и модел на функциите, внедряването на машинното обучение няма да даде значими резултати.