Le langage à utiliser pour l'analyse des données est le sujet le plus éculé et le plus douloureux. Par conséquent, nous nous sommes associés à Alexei Seleznev, responsable de l'analyse chez Netpeak et l'auteur du canal de télégramme R4Marketing , et avons préparé une comparaison des opérateurs SQL et des verbes du langage R. Pour plus de commodité et de portabilité, nous l'avons fait dans les cartes.
Nous publions chaque jour des documents encore plus intéressants sur la programmation et l'analyse des données dans notre chaîne Telegram et dans le groupe VK . Peut-être trouverez-vous quelque chose d'intéressant pour vous-même.
Cependant, au point!
R contre SQL
La première chose à faire avant de faire une comparaison est de réviser les instructions SQL de base. Bien sûr, vous vous en souvenez tous, mais soudainement ...
Nous allons considérer l'instruction SELECT DML (Data Manipulation Language) et tout ce qui y est lié:
L'instruction SELECT elle-même régit les champs à sélectionner dans la table
La clause FROM pointe vers la table à partir de laquelle la sélection est effectuée
La clause WHERE filtre la table en fonction des valeurs d'une colonne particulière
GROUP BY spécifie les champs de regroupement pour le calcul des caractéristiques d'agrégation
L'opérateur ORDER BY trie les lignes de la table par valeurs dans une colonne
, . R? - dplyr R ( ), .
dplyr ( tidyverse) , , :
, ,
dplyr tidy data
( %>%)
, SQL dplyr:
, , dplyr . - , :) , (.. dplyr - tidyverse) . :
Tidy data
tidy data. , 100% .
, , « »:
Data Analysis:
«» , «» -.
tidy datasets dplyr !
, tidy data .
%>%
, R - %>%. , , tidyverse.
- .
, - 2 : R, SQL, - . R - , - .