0% ont trouvé ce document utile (0 vote)
58 vues12 pages

Introduction à la programmation R et données

cours studio r

Transféré par

Diwa Hrur
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
58 vues12 pages

Introduction à la programmation R et données

cours studio r

Transféré par

Diwa Hrur
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

▪ Introduction à la programmation en R

– Présentation des logiciels R & RStudio


– Types de données de base
– Structures de données (vecteurs, matrices, listes et facteurs)
▪ Structures de contrôle de flux
▪ Manipulation de données
– Importation et exportation des fichiers
– Packages tidyr et dplyr
▪ Visualisation de données
– Création de graphiques
▪ Exercices & Applications
Manipulation de données avec les packages tidyr et dplyr

Les packages tidyr et dplyr sont des packages couramment utilisés pour la manipulation de
données dans R. tidyr fournit des fonctions pour transformer des données entre formats larges et
étroits, tandis que dplyr fournit des fonctions pour la manipulation de données, telles que la
sélection, le filtrage, le tri, le regroupement et la synthèse. Voici un exemple d'utilisation de ces
packages :

[Link]("tidyr")
[Link]("dplyr")
library(tidyr)
library(dplyr)
library(readxl)
dataset <- read_excel("[Link]")
Fichier [Link]
Sélectionner un sous-ensemble de colonnes
temp <- select(.data = dataset, Nom, Sexe, Salaire, Regime)
# Vérifier les résultats
head(temp)
# Sélectionner les colonnes qui se trouvent entre Prénom et Secteur
temp2 <- select(dataset, Prenom:Secteur)
# Sélectionner toutes les colonnes à l'exception du Salaire
temp3 <- select(dataset, -Salaire)
# Sélection de toutes les colonnes sauf « Nom » et « Regime »
temp4 <- select(dataset, - Nom, - Regime)
# Sélectionner les colonnes Nom et Regime, mais renommer Regime en « R »
(temp5 <- select(dataset, Nom, R= Regime))
# Sélectionner les colonnes qui commencent par "S"
(temp6 <- select(dataset, starts_with("S")))
# Sélectionner les colonnes qui contiennent "eur"
(temp7 <- select(dataset, contains("eur")))
Filtrer un sous-ensemble de lignes

temp<- filter(.data = temp, Regime == "Reg")


temp <- temp[temp$Regime =="Reg",]
head(temp)
# Sélectionner les personnes avec âgées de plus 45 ne suivant pas un régime
(result <- filter(dataset, Age >45 & Regime == "Pas_reg"))
result <- dataset[dataset$Age>45 & dataset$Regime=="Pas_reg",]
# Sélectionner un ensemble des valeurs d’une colonne
df_filtré <- filter(dataset, Secteur %in% "Admin", "Vente"))
df_filtré <- dataset[dataset$Secteur %in% c("Admin", "Vente"),]
Ajouter des colonnes (avec modification)
temp <- mutate(.data = temp, Revenu = Salaire * 12)
# Vérifier les résultats
head(temp)
temp <- mutate(temp, Salaire = if_else(Age>45, Salaire + 500, Salaire))

print(temp)

Grouper par une colonne


temp <- group_by(.data = temp, Sexe)
# Vérifier les résultats
head(temp)
Agréger en fonction des groupes (moyenne par groupe)
temp <- summarize(temp, RevenuMoyen = mean(Revenu))
temp
Organiser les lignes dans l’ordre décroissant
temp <- arrange(.data= temp, desc(RevenuMoyen)) # asc par défaut
head(temp)
Convertir en date frame
efficacité<- [Link](temp)
print(efficacité)
Chainage des méthodes ensemble

# Rassembler toutes les méthodes dans une seule commande

efficacité <- dataset %>%


select(Nom, Sexe, Salaire, Regime) %>%
filter(Regime == "Reg") %>%
mutate(Revenu = Salaire * 12) %>%
group_by(Sexe) %>%
summarize(RevenuMoyen= mean(Revenu)) %>%
arrange(desc(RevenuMoyen)) %>% [Link]()
print(efficacité)
# Utilisation de aggregate pour calculer la moyenne des salaires par sexe
moyenne_salaire_par_sexe <- aggregate(salaire ~ sexe, data = dataset, FUN = mean)
print(moyenne_salaire_par_sexe)

moyenne_salaire_par_sexe <- dataset %>%


group_by(sexe) %>%
summarize(moyenne_salaire = mean(salaire))
print(moyenne_salaire_par_sexe)
Fonction plot() et arguments

plot(dataset$Age)
plot(dataset$Sexe)
plot(dataset$Age,dataset$Salaire)
plot(dataset$Sexe, dataset$Salaire)
# Personnalisation des graphiques
plot(dataset$Age,dataset$Salaire, # Données
main = "Salaire des individus selon leur âge", # Titre principal du graphique
xlab = "Âge (ans)", # Titre de l’axe x
ylab = "Salaire (DH)", # Titre de l’axe y
xlim = c(0, 80), # Étendue de l’axe x
ylim = c(5000, 30000), # Étendue de l’axe y
bty = "n") # Retirer l’encadrement du graphique
Le code corrigé créera un graphique avec les âges des individus sur l'axe des abscisses
(x) et leurs salaires sur l'axe des ordonnées (y). Les axes seront limités de 0 à 80 pour
l'âge et de 5000 à 30000 pour le salaire. Le graphique n'aura pas d'encadrement grâce à
l'argument bty = "n".

Utilisez main pour le titre principal, xlab pour le titre de l'axe des abscisses, et ylab
pour le titre de l'axe des ordonnées.
Définissez xlim et ylim pour les étendues des axes.
Utilisez bty = "n" pour supprimer l'encadrement du graphique.

Vous aimerez peut-être aussi