0% ont trouvé ce document utile (0 vote)
8 vues26 pages

Analyse Avec RF in I

Le document présente des services de formation et de coaching en géomatique, ainsi que des solutions logicielles liées à l'analyse de données avec R. Il décrit les fonctionnalités de R, ses types de données, structures, et fonctions essentielles pour l'analyse statistique et la création de graphiques. Enfin, il aborde des méthodes d'importation de données et des techniques d'analyse, y compris la corrélation entre variables.

Transféré par

Mahamadou
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
8 vues26 pages

Analyse Avec RF in I

Le document présente des services de formation et de coaching en géomatique, ainsi que des solutions logicielles liées à l'analyse de données avec R. Il décrit les fonctionnalités de R, ses types de données, structures, et fonctions essentielles pour l'analyse statistique et la création de graphiques. Enfin, il aborde des méthodes d'importation de données et des techniques d'analyse, y compris la corrélation entre variables.

Transféré par

Mahamadou
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Nos services :

➢ Formation et coaching
➢ Développement des solutions Géomatique
➢ Vente des logiciels SIG et d’ESRI (ARCGIS, Collector …..)
➢ Collecte des données

Site Web : [Link]


FORMATION SUR :
Traitement et Analyse des données avec R et R studio

Formateur:

Moumouni Guingarey Chamssoudina


A.l.l Origines

Le logiciel R est un logiciel de statistique crée par Ross Ihaka & Robert
Gentleman [21]. Il est a la fois un langage informatique et un
environnement de travail : les commandes sont exécutées grâce a des
instructions codées dans un langage relativement simple, les résultats
sont affiches sous forme de texte et les graphiques sont visualisés
directement dans une fenêtre qui leur est propre. C'est un clone du
logiciel S-plus qui est fonde sur le langage de programmation oriente
objet S, développe par AT&T Bell Laboratoires en 1988 [4]. Ce logiciel
sert a manipuler des données, a tracer des graphiques et a faire des
analyses statistiques sur ces données.
A.l.2 Pourquoi utiliser R?

Tout d'abord R est un logiciel gratuit et a code source ouvert (open source). Il fonctionne
sous UNIX (et Linux), Windows et Macintosh. C'est donc un logiciel multi-plates-formes.
Il est développé dans la mouvance des logiciels libres par une communauté sans cesse plus
vaste de bénévoles motives.
R est un logiciel dans lequel de nombreuses techniques statistiques modernes et classiques
ont été implémentées. Les méthodes les plus courantes permettant de réaliser une analyse
statistique telles que :
• Statistique descriptive;
• Tests d'hypothèses;
• Analyse de la variance;
• Méthodes de régression linéaire (simple et multiple) ;
• Etc…….
Une des grandes forces de R réside dans ses capacités, bien surpreneurs a celles des
autres logiciels courants du marche, a combiner un langage de programmation avec
la possibilité de réaliser des graphiques de qualité. Les
graphiques usuels s'obtiennent aisément au moyen de fonctions prédéfinies.
Ces dernières possèdent de très nombreux paramètres permettant par exemple
d'ajouter des titres, des légendes, des couleurs, etc. Mais il est également possible
d'effectuer des graphiques plus sophistiques permettant de représenter des données
complexes telles que des courbes de surface ou de niveau, des volumes affiches avec
un effet 3D, des courbes de densité, et bien d'autres choses encore.
Il vous est également possible d'y ajouter des formules mathématiques. Vous pouvez
aussi agencer ou superposer plusieurs graphiques sur une même fenêtre, et utiliser
de nombreuses palettes de couleur.
Type de données
Types des données Type sous R Présentation

Réel (entier ou non) numeric 3,27

complexe complex 3+2i

Logique (vrai/faux) logical TRUE OU FALSE

Manquant logical NA

Texte (chaîne) charater ‘’texte’’

binaires raw 1c
Les différents structures de données dans R
Structures des données Instruction R Description
Vecteur C() Suite d ’élément de même nature

matrice Matrix() Tableau à deux dimension dont les


élément sont de la même nature
Tableau multidimensionnel Array() Plus général que la matrice ; tableau à
plusieurs dimension
liste Liste() Suite de structures R de nature différentes
et quelconques
Tableau individus X variables [Link]() Tableau à deux dimensions dont les lignes
sont des individus et les colonnes des
variables (numérique ou facteurs), les
colonnes peuvent être de nature
différentes, mais doivent avoir la même
longueur. Les éléments à l’intérieur d’une
même colonne sont tous de la même
nature
Facteur Factor() , ordered() Vecteur de chaîne de caractères associés à
Les fonctions de création des données
• La fonction C() permet de créer un vecteur par concaténation de ses paramètres d'entrée.
Exemple : id <- c(1,2,3,4)
eleve <- c (‘’Ali’’, ‘’Sani’’,’’Issa’’)
• La fonction seq() permet de générer une suite de valeurs, sous la forme d'un vecteur.
Exemple: > seq(from=4,to=5)
> seq(from=4,to=5,by=O.1)
> seq(from=4,to=5,length=8)
• La fonction ": " permet de générer une suite d'entiers.
Exemple : > 1:12
• La fonction rep() duplique les valeurs de son premier paramètre d'entrée, de plusieurs façons astucieuses. Nous laissons le soin
au lecteur de s'assurer qu’il comprend bien toutes ces instructions.
Exemple : > rep(1:4, 2)
> rep(1:4, each 2)
> rep(1:4, c(2,1,2,3))
➢ rep(1:4, each 2, len 4)
➢ rep(1:4, each 2, len 10)
➢ rep(1:4, each = 2, times 3)
Création d’une base dans R
• Syntax :
nom<-[Link] (champ1, champ2, champ3 etc….)
Example : baseecol <-[Link] (id, ‘nomecol’, ‘proviseur’, contact, x,y)
Pour ajouter des valeurs aux champs :
baseecol <-[Link] (id=c(1,2,3), nomecol=c("union","Royaume","lumière
vive"), proviseur=c("Rachide","Ali","ismael"),
contact=c(90434825,97586325,96321458),
x=c(2.3,2.28,2.56),y=c(13.56,13.85,13.97))
Où :
id <- c(1,2,3)
nomecol <- c("union","Royaume","lumière vive")
proviseur <- c("Rachide","Ali","ismael")
contact=c(90434825,97586325,96321458)
x <- c(2.3,2.28,2.56)
y <- c(13.56,13.85,13.97)
baseecol <-[Link] (nomecol, proviseur, contact, x, y )
Importer des donnees depuis SPSS, Minitab, SAS
ou Matlab

Logiciels Package Fonction R Extension du Format du résultat


Fichier

SPSS, Foreign [Link] () *.sav List

Minitab Foreign [Link] () *.mtp List

SAS Foreign [Link] () *.xpt [Link]

Matlab [Link] Readmat () *.mat list


Analyse
Installation des bibliothèques sur R
Analyse de données avec R :
[Link]("tidyverse")
[Link]("dplyr")
Analyse statistique avec R :
[Link]("ggplot2")
Importer une base de Excel
Il excite deux méthode :
1- copie les données dans Excel et utilisé la fonction [Link] (‘’clipboard’’)
Exemple :
> data = [Link] ("clipboard")
> data
2- avec l’onglet import dataset
Exemple : importer le fichier Excel Tableau population
Une fois importer en tape le nom du fichier pour le visualiser
Quelques fonctions permettant d'obtenir de
l'information sur une matrice ou un data. frame
• dim () : taille de la matrice ou du [Link].
• nrow () : nombre de lignes.
• ncol () : nombre de colonnes.
• dimnames () : noms des lignes et des colonnes (sous la forme d'une liste).
• names (), colnames () : noms des colonnes.
• rownames () : noms des lignes.
Analyser les données : Utilisez différentes fonctions R
pour explorer et comprendre la structure de vos
données.

Exemple :
head(data) # Afficher les premières lignes des données
summary(data) # Résumé statistique des données
str(data) # Structure des données
Sélectionner des colonnes spécifiques : Utilisez le nom
des colonnes pour accéder à des variables spécifiques.
Exemple :
variables <- data$NomDeLaVariable
Les fonctions : statistiques descriptives.

• mean() # Supprimer les lignes avec des NA dans les variables


• Median() INDICATEURS et [Link]
• Max() data_clean <- [Link](data[, c("INDICATEURS", "[Link]")])
• Min ()
• Range ()
• Quantile ()
• Sd ()
• var ()
Créer un graphique (par exemple, un
histogramme pour l'âge) :
# Remplacez "Age" par le nom réel de votre variable d'âge
hist(data$Age, main = "Distribution des âges", xlab = "Âge")
Créer une table croisée :
# Remplacez "variable1" et "variable2" par les noms réels de vos
variables
table(data$variable1, data$variable2)
Résumé par groupe (par exemple, moyenne
par région) :
# Remplacez "Region" et "Variable" par les noms réels de vos variables
aggregate(data$Variable, by = list(Region = data$Region), FUN = mean)
Median()
Max()
Min ()
Range ()
Quantile ()
Sd ()
var ()
Créer des graphiques (par exemple, nuage de
points) :
> age = data$[Link]
> sexe= data$[Link]
> graphe <- [Link]( age,sexe)
# Créer le nuage de points
ggplot(data, aes(x = age, y = 1, color = sexe)) +
geom_point(position = position_jitter(width = 0.2), size = 3) +
labs(title = "Nuage de points en fonction de l'âge et du sexe", x =
"Âge", y = "") +
theme_minimal()
Analyse qualitative
# Fréquence des valeurs pour une variable qualitative (par exemple, 'Sexe')
ggplot(data, aes(x = sexe, fill = sexe)) +
geom_bar() +
labs(title = "Fréquence du sexe", x = "Sexe", y = "Fréquence") +
theme_minimal()
Corrélation

La corrélation, représentée par le coefficient de corrélation, mesure la force et la direction


d'une relation linéaire entre deux variables. Le coefficient de corrélation varie de -1 à 1.

- Si le coefficient est proche de 1, cela indique une forte corrélation positive, ce qui signifie que
lorsque la première variable augmente, la deuxième variable a tendance à augmenter
également.

- Si le coefficient est proche de -1, cela indique une forte corrélation négative, ce qui signifie
que lorsque la première variable augmente, la deuxième variable a tendance à diminuer.

- Si le coefficient est proche de 0, cela suggère une corrélation faible entre les deux variables.
Corrélation
# Corrélation entre les variables quantitatives (par exemple : Age’ et Niveau d'instruction’)
# Transformez les facteurs en numériques
> data$[Link] <- [Link](data$[Link])
# Transformez les facteurs en numériques
> data$[Link] <- [Link](data$[Link])
# Exclure les valeurs manquantes avant de transformer
> data$[Link] <-
[Link]([Link](data$[Link]))
# Corrélation
> cor(data$[Link], data$[Link])
Dans votre cas, le coefficient de corrélation est -0.2351142. Cela indique une corrélation
négative modérée entre les deux variables. La valeur n'étant pas très proche de -1, la
corrélation n'est pas considérée comme très forte, mais elle suggère une tendance où
une variable augmente légèrement tandis que l'autre diminue légèrement.

Il est important de noter que la corrélation ne mesure que les relations linéaires et ne
prouve pas de causalité. Pour une compréhension plus approfondie du contexte et de la
nature de la relation entre vos variables, il peut être utile de visualiser les données ou
d'effectuer d'autres analyses.

Vous aimerez peut-être aussi