I.
Les objets dans R
Vous allez voir avec moi les principaux éléments du langage R qui peuvent être des données, des
fonctions, des graphiques...
Données : les données ce sont les objets de base dans R comme les vecteurs, des matrices, tableau de
données ou [Link]. Ces données peuvent être numérique ou alphanumériques c’est-à-dire les
chaînes de caractère comme revenu, consommation, investissements, taux d’intérêt. Pour créer des
objets dans R on utilise deux symboles « < - » ou « = », par exemple : a < - 2025 ou a = 2025 ces
deux expressions signifie la même.
sa signifie que j’ai placé 2025 dans a, quand je demande à R c’est quoi a il va m’affiché 2025
Dans R c’est possible de créer autant d’objets qu’on le souhaite et faire des calculs avec eux.
Attention R fait la différence entre minuscules et majuscule dans les noms des objets, ce qui signifie
qu’un objet a et un objet A seront deux objets différents.
Les vecteurs
Les vecteurs ce sont des objets qui nous permet de regrouper plusieurs données en une seule
commande, par exemple le vecteur numérique, on le saisit par la commande « c » :
> y = c(23,55,44,41, 5, 7, 11) une fois que vous avez besoin de ses données il vous suffit de tapez y et
les données vient automatiquement .
Les matrices
Les matrices sont également les objets de base dans R. On peut effectuer sur les matrices de
nombreuses manipulations de manière très simple.
Les matrices sont créées avec la fonction matrix() à partir d’un vecteur. On fixe le nombre de colonnes
par ncol et le nombre de lignes par nrow.
> X <- matrix(c(1:6), ncol = 2, nrow = 3)
Quelques fonctions utiles pour les matrices comme :
det( ) cette fonction permet de calculer le déterminant d’une matrice ;
t( ) cette fonction permet de calculer le transposé d’une matrice ;
solve( ) cette fonction donne l’inverse d’une matrice
% * % cette fonction permet de calculer le produit matriciel.
II. Les fonctions
Il existe plusieurs fonctions sur R, qui nous permet de faire des calculs, des analyses et des
représentations graphiques donc les fonctions base sont :
> mean( ) : cette fonction calcul la moyenne d’une série de données ou vecteur
> var( ) variance
> sd( ) écart type (versions sans biais)
> range( ) est une fonction donne le minimum et le maximum d’un vecteur ;
> sum( ) Somme des éléments
> prod( ) Produit des éléments
Une autre fonction très importante sur R, c’est la fonction « summary »
La commande « summary » : permet d’afficher les principales informations concernant un objet ou
une série de données ou encore un vecteur et affiche ces informations en même temps à savoir: le
minimum, le premier quartile, la médiane, la moyenne, le troisième quartile et le maximum. Et ça se
présente sur R comme suit :
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.142 3.142 3.142 3.142 3.142 3.142
III. Fonctions graphiques
Les graphiques sont également un point fort de R: Il offre de très nombreuses possibilités dont on peut
avoir un premier aperçu avec la démonstration proposée par R. > demo(graphics).
Une fonction de base est la commande plot qui permet de tracer des nuages de points.
La syntaxe générale est la suivante pour représenter le vecteur y en fonction de x
> y=c(12,10,7,13,26,16,4,12,13,14,16,8)
> x=c(5,7,9,9,4,8,7,5,5,10,12,13)
> plot(x,y,xlab="Légende abscisses",ylab="Légende ordonnées")
Quelques autres fonctions graphiques utiles :
Les diagrammes en barre par barplot( )
Les histogrammes par hist( )
Et les diagrammes en secteurs par pie( ), ces fonctions sont faciles à tracer avec R.
Commande de régression linéaire pour construire votre modèle
La commande « lm » : la commande de la régression linéaire est « lm » (pour linear model), sa
syntaxe d’emploi est : « lm(y~x1+x2+x3+…) » où y est la variable à expliquer, suivi du
caractère tilde : « ~ », et des variables explicatives séparées par le signe « + ». La constante,
"intercept", est prise par défaut et n'a pas à être déclarée.
Mais cette sortie est minimale, il est préférable de demander les résultats complets via une
affectation puis une commande « summary »
En faisant appel à la commande « summary » on obtient
> summary(mod1)
La signification des indicateurs
p-value c’est la significativité globale du modèle
Pr(>|t|) c’est la statistique de student
Intercept c’est a0 la constante du modèle.
R-squared c’est R2 le coefficient de détermination du modèle
après avoir interprété ces indicateurs et que sa correspond à vos attentes, maintenant toujours
sur R, vous devez vérifier les hypothèses stochastique du modèle à savoir :
H1 : linéarité du modèle
H2 : la normalité du modèle
H3 : La nullité
H4 : homoscedasticité
H5 : Absence de corrélation entre les erreurs de l’observation différente.
H6 : Absence de corrélation entre l’erreur et variable explicative.
Si toutes ces hypothèses sont vérifiées vous pouvez valider votre modèle.