0% ont trouvé ce document utile (0 vote)

105 vues14 pages

Régression polynomiale avec Python

Ce rapport présente les résultats d'un atelier sur la régression linéaire simple et multiple. Différents outils et jeux de données sont utilisés pour explorer visuellement les données, entraîner des modèles de régression et évaluer leurs performances.

Transféré par

Amal Touhami

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

105 vues14 pages

Régression polynomiale avec Python

Transféré par

Amal Touhami

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

RAPPORT:

Atelier 1 « Regression »

Encadré par :
 Prof. Lotfi EL AACHAK

Realisé par:
 Amal Touhami
I. Objectif:

L’objectif principal de cet atelier est de pratiquer les deux concepts de la régression : la
régression linéaire simple et la régression linéaire multiple, en traitant des données de
plusieurs Data Sets.

II. Outils:

 Python
 Pandas : Une bibliothèque open source Python qui offre des structures de données
et des outils d'analyse de données performants et faciles à utiliser. Elle est
particulièrement utile pour travailler avec des données tabulaires et des séries
chronologiques, et pour effectuer des opérations de nettoyage, de transformation,
de manipulation et de visualisation de données.
 Sklearn : Également connu sous le nom de scikit-learn, est une bibliothèque open
source Python destinée à l'apprentissage automatique. Elle fournit des outils simples
et efficaces pour la classification, la régression, le clustering et la sélection de
modèles, ainsi que pour l'évaluation de la performance des modèles. Sklearn est
largement utilisé dans l'industrie et la recherche pour résoudre une grande variété
de problèmes d'apprentissage automatique.
 Matplotlib : Une bibliothèque open source Python destinée à la création de
graphiques et de visualisations de données. Elle permet de créer des graphiques de
ligne, de barres, de nuages de points, de boîtes à moustaches, de surfaces et de bien
d'autres types encore. Matplotlib est largement utilisé dans la science des données,
la recherche, la finance, la météorologie et d'autres domaines pour communiquer
des informations de manière visuelle.

III. Data Sets:

 Expérience et Salaire : [Link]

and-salary-dataset
 Assurance : [Link]
 ChinaGDP:[Link]
data/CognitiveClass/ML0101ENv3/labs/china_gdp.csv
IV. Partie 1 (Data Visualisation):

1. En utilisant pandas essayer d’explorer les données des deux Data sets.
-Chargement des données sur l’experience et le salaire, l’assurance et le PIB de la Chine
#Load the data
import pandas as pd
salary_data = pd.read_csv("Salary_Data.csv")
insurance_data = pd.read_csv("[Link]")
#Display the first 5 rows of the data
print("Table Of Salary:\n", salary_data.head())
print("___________________________________________________________")
print("Table Of insurance: \n", insurance_data.head())

gdp = pd.read_csv("datasets/china_gdp.csv")
print("\nChina GDP :")
print([Link]())
2. Afficher le résumer statistique des deux Data Sets avec une interprétation des
résultats obtenues.
# Résumé statistique de l'expérience et du salaire
print("Résumé statistique de l'expérience et du salaire :")
print(exp_salary.describe())

# Résumé statistique de l'assurance

print("\nRésumé statistique de l'assurance :")
print([Link]())

# Résumé statistique du PIB de la Chine

print("\nRésumé statistique du PIB de la Chine :")
print([Link]())
3. Afficher la nuage des points du premier data set « Expérience / Salaire » en utilisant
matplotlib et pandas.

import [Link] as plt

# Affichage du nuage de points

exp_salary.plot(kind='scatter', x='YearsExperience', y='Salary', figsize=(10,
6), color='blue')

# Configuration du titre et des axes

[Link]('Relation entre années d\'expérience et salaire')
[Link]('Années d\'expérience')
[Link]('Salaire')

# Affichage du nuage de points

[Link]()
4. Afficher les nuages des points du deuxième data set selon les propriétés « Features »
en utilisant matplotlib et pandas « scatter_matrix ».
import pandas as pd
import [Link] as plt
from [Link] import scatter_matrix

# Affichage du nuage de points pour chaque paire de variables

scatter_matrix(insurance[['age', 'bmi', 'children', 'charges']], figsize=(10,
10), alpha=0.5)

# Affichage du graphique

[Link]()
V. Partie 2 « Régression Simple cas Expérience Salaire »:

Dans cette partie on va utiliser le Data Set Expérience Salaire.

1. En utilisant l’API sklearn entraîner le modèle par intermédiaire de algorithme de la
régression linéaire.
import pandas as pd
from sklearn.linear_model import LinearRegression

# Séparation des variables indépendantes et dépendante

X = exp_salary.iloc[:, :-1].values
y = exp_salary.iloc[:, -1].values

# Entraînement du modèle de régression linéaire

regressor = LinearRegression()
[Link](X, y)

# Affichage du coefficient de détermination (R²)

print('Coefficient de détermination (R²) :', [Link](X, y))

Coefficient de détermination (R²): 0.9569566641435086

2. Prédire les données d’un data set de test.

# Chargement des données de test fictives
exp_salary_test = [Link]({'yearsExperience': [3, 6, 9]})

# Prédiction des salaires pour les données de test

y_pred = [Link](exp_salary_test)

# Affichage des prédictions

print('Prédictions de salaire pour les années d\'expérience :', y_pred)

Prédictions de salaire pour les années d'expérience : [54142.08716303

82491.9741274 110841.86109176]
3. Visualiser le résultat de la régression sous forme d’un graphe.

# Tracé du nuage de points des données d'entraînement

[Link](X, y, color='blue')
[Link]('Années d\'expérience')
[Link]('Salaire')

# Tracé de la droite de régression linéaire

[Link](X, [Link](X), color='red')
[Link]('Régression linéaire - Expérience / Salaire')
[Link]()
4. Évaluer le modèle en utilisant ces trois méthodes :
 Mean Squared Error (MSE)
 Root Mean Squared Error (RMSE)
 Mean Absolute Error (MAE)
from [Link] import mean_squared_error, mean_absolute_error
import numpy as np

# Prédiction sur le jeu de données d'entraînement

y_pred = [Link](X)

# Calcul des mesures d'erreur

mse = mean_squared_error(y, y_pred)
rmse = [Link](mse)
mae = mean_absolute_error(y, y_pred)

# Affichage des mesures d'erreur

print('MSE :', mse)
print('RMSE :', rmse)
print('MAE :', mae)

MSE: 31270951.722280968
RMSE: 5592.043608760662
MAE: 4644.2012894435375
VI. Partie 2 « Régression Simple cas Expérience Salaire »:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from [Link] import mean_squared_error, mean_absolute_error, r2_score
from [Link] import OneHotEncoder
import numpy as np

data = pd.read_csv("datasets/[Link]")

# Encodage one-hot des variables catégorielles

cat_cols = ["sex", "smoker", "region"]
enc = OneHotEncoder(handle_unknown="ignore")
[Link](data[cat_cols])
cat_array = [Link](data[cat_cols]).toarray()
cat_cols_enc = enc.get_feature_names(cat_cols)
data_enc = [Link]([[Link](cat_cols, axis=1), [Link](cat_array,
columns=cat_cols_enc)], axis=1)

X = data_enc.drop("charges", axis=1)
y = data_enc["charges"]

# Division des données en ensembles d'entraînement et de test

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Entraînement du modèle
model = LinearRegression()
[Link](X_train, y_train)

# Prédiction des données de test

y_pred = [Link](X_test)

# Calcul des métriques d'évaluation

mse = mean_squared_error(y_test, y_pred)
rmse = [Link](mse)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE :", mse)

print("RMSE :", rmse)
print("MAE :", mae)
print("R2 :", r2)
MSE: 33596915.85136147 - RMSE : 5796.2846592762735 - MAE : 4181.194473753644 – R2
: 0.7835929767120723

VII. partie 4 « Régression linière polynomial multiple cas de china

GDP»:
import pandas as pd
import numpy as np
import [Link] as plt
from sklearn.linear_model import LinearRegression
from [Link] import PolynomialFeatures
from [Link] import mean_squared_error, mean_absolute_error

# Charger les données

data = pd.read_csv('datasets/china_gdp.csv')
X = [Link](data['Year']).reshape(-1, 1)
y = [Link](data['Value'])

# Diviser les données en ensemble de formation et ensemble de test

train_X = X[:len(X)-5]
train_y = y[:len(y)-5]
test_X = X[len(X)-5:]
test_y = y[len(y)-5:]

# Régression linéaire
lin_reg = LinearRegression()
lin_reg.fit(train_X, train_y)

# Régression polynomiale
poly_reg = PolynomialFeatures(degree=3)
X_poly = poly_reg.fit_transform(train_X)
poly_reg.fit(X_poly, train_y)
lin_reg2 = LinearRegression()
lin_reg2.fit(X_poly, train_y)

# Prédiction pour les deux modèles

pred_lin = lin_reg.predict(test_X)
pred_poly = lin_reg2.predict(poly_reg.fit_transform(test_X))

# Visualisation des résultats de la régression linéaire

[Link](train_X, train_y)
[Link](train_X, lin_reg.predict(train_X), color='red')
[Link]('Année')
[Link]('GDP')
[Link]('Régression linéaire')
[Link]()

# Visualisation des résultats de la régression polynomiale

[Link](train_X, train_y)
[Link](train_X, lin_reg2.predict(poly_reg.fit_transform(train_X)), color='red')
[Link]('Année')
[Link]('GDP')
[Link]('Régression polynomiale')
[Link]()

# Evaluation des deux modèles

mse_lin = mean_squared_error(test_y, pred_lin)
rmse_lin = [Link](mse_lin)
mae_lin = mean_absolute_error(test_y, pred_lin)
print("MSE pour la régression linéaire:", mse_lin)
print("RMSE pour la régression linéaire:", rmse_lin)
print("MAE pour la régression linéaire:", mae_lin)

mse_poly = mean_squared_error(test_y, pred_poly)

rmse_poly = [Link](mse_poly)
mae_poly = mean_absolute_error(test_y, pred_poly)
print("MSE pour la régression polynomiale:", mse_poly)
print("RMSE pour la régression polynomiale:", rmse_poly)
print("MAE pour la régression polynomiale:", mae_poly)

MSE pour la régression linéaire : 3.8449999173939907e+25

RMSE pour la régression linéaire : 6200806332561.912

MAE pour la régression linéaire : 6033925277544.178

MSE pour la régression polynomiale : 7.66455498375188e+24

RMSE pour la régression polynomiale : 2768493269587.6074

MAE pour la régression polynomiale : 2655573143437.3325

CONCLUSION:

En conclusion, ce travail nous a permis de mieux comprendre les concepts de base de la

régression linéaire et de leur application pratique dans le domaine de la science des données et
de l'apprentissage automatique.
En utilisant Python, Pandas, Sklearn et Matplotlib, nous avons pu explorer et analyser trois Data
Sets différents, entraîner des modèles de régression linéaire simple et multiple, prédire les
valeurs dans un ensemble de test et évaluer les performances des modèles à l'aide de
différentes mesures d'erreur. Les résultats ont montré que les modèles avaient une bonne
performance pour chaque Data Set, avec des performances légèrement meilleures pour les
modèles de régression linéaire multiple. En fin de compte, ce travail nous a permis d'acquérir
une expérience pratique précieuse en utilisant les techniques de régression linéaire pour
l'analyse de données réelles.

Références :

[Link]
scikit-learn-a073768dc688
[Link]
Regression
[Link]
[Link]

Vous aimerez peut-être aussi

TP Régression Linéaire avec Python 2024
Pas encore d'évaluation
TP Régression Linéaire avec Python 2024
8 pages
Régression Logistique : Classification Binaire
Pas encore d'évaluation
Régression Logistique : Classification Binaire
4 pages
TutoPython&KerasLesréseauxdeneurones-TutorielPython 1683742635968 PDF
Pas encore d'évaluation
TutoPython&KerasLesréseauxdeneurones-TutorielPython 1683742635968 PDF
23 pages
Régression Logistique en Python
Pas encore d'évaluation
Régression Logistique en Python
3 pages
Utilisation de l'algorithme KNN en Python
Pas encore d'évaluation
Utilisation de l'algorithme KNN en Python
10 pages
Préparation et Réduction de Dimension ML
Pas encore d'évaluation
Préparation et Réduction de Dimension ML
29 pages
Nettoyage de Données avec Pandas
100% (1)
Nettoyage de Données avec Pandas
5 pages
Introduction aux SVM et validation croisée
Pas encore d'évaluation
Introduction aux SVM et validation croisée
7 pages
TP1 : Introduction au Machine Learning
100% (1)
TP1 : Introduction au Machine Learning
5 pages
Introduction à la régression logistique
Pas encore d'évaluation
Introduction à la régression logistique
79 pages
Notions sur les Support Vector Machines
Pas encore d'évaluation
Notions sur les Support Vector Machines
23 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
52 pages
Cours de Datamining et Techniques Associées
100% (1)
Cours de Datamining et Techniques Associées
49 pages
Perceptron Multi-Couches en IA
Pas encore d'évaluation
Perceptron Multi-Couches en IA
21 pages
Cours Machine Learning Supervisé
Pas encore d'évaluation
Cours Machine Learning Supervisé
576 pages
Analyse de données avec Python
0% (1)
Analyse de données avec Python
44 pages
Rapport de stage en Machine Learning
Pas encore d'évaluation
Rapport de stage en Machine Learning
22 pages
Machine Learning et Raisonnement Probabiliste
Pas encore d'évaluation
Machine Learning et Raisonnement Probabiliste
95 pages
K-Means Clustering pour Clients et Revenus
Pas encore d'évaluation
K-Means Clustering pour Clients et Revenus
4 pages
Construction d'arbres de décision
Pas encore d'évaluation
Construction d'arbres de décision
76 pages
Exercice de régression linéaire Python
Pas encore d'évaluation
Exercice de régression linéaire Python
2 pages
Correction TP2 : Modèles de classification
Pas encore d'évaluation
Correction TP2 : Modèles de classification
19 pages
Introduction à SVM en Python
Pas encore d'évaluation
Introduction à SVM en Python
3 pages
Techniques de Clustering en Data Mining
100% (2)
Techniques de Clustering en Data Mining
50 pages
Préparation de données avec scikit-learn
Pas encore d'évaluation
Préparation de données avec scikit-learn
3 pages
Régression Linéaire et KNN avec Scikit-learn
100% (1)
Régression Linéaire et KNN avec Scikit-learn
4 pages
Apprentissage Non-Supervisé en ML
Pas encore d'évaluation
Apprentissage Non-Supervisé en ML
85 pages
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
Pas encore d'évaluation
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
2 pages
Régression linéaire et logistique comparées
Pas encore d'évaluation
Régression linéaire et logistique comparées
51 pages
Travaux Dirigés sur le Machine Learning
100% (2)
Travaux Dirigés sur le Machine Learning
3 pages
TP Machine Learning : KNN et Évaluation
Pas encore d'évaluation
TP Machine Learning : KNN et Évaluation
5 pages
Introduction au Machine Learning
100% (1)
Introduction au Machine Learning
63 pages
Régression Linéaire avec Scikit-learn
Pas encore d'évaluation
Régression Linéaire avec Scikit-learn
2 pages
Introduction au KNN en apprentissage machine
Pas encore d'évaluation
Introduction au KNN en apprentissage machine
38 pages
Introduction à Scikit-learn pour ML
Pas encore d'évaluation
Introduction à Scikit-learn pour ML
2 pages
Classificateur de chiffres manuscrits avec Keras
Pas encore d'évaluation
Classificateur de chiffres manuscrits avec Keras
75 pages
Introduction à la régression logistique
Pas encore d'évaluation
Introduction à la régression logistique
3 pages
Évaluation des Modèles de Classification
Pas encore d'évaluation
Évaluation des Modèles de Classification
23 pages
Classification et Régression en Machine Learning
Pas encore d'évaluation
Classification et Régression en Machine Learning
48 pages
Régression Logistique : Prédiction de Réussite Étudiante
Pas encore d'évaluation
Régression Logistique : Prédiction de Réussite Étudiante
5 pages
Analyse du Sentiment par Deep Learning
Pas encore d'évaluation
Analyse du Sentiment par Deep Learning
84 pages
Tuning des Hyperparamètres en ML
100% (1)
Tuning des Hyperparamètres en ML
47 pages
Algorithmes de Machine Learning PDF
Pas encore d'évaluation
Algorithmes de Machine Learning PDF
16 pages
Surajustement et sous-ajustement en ML
100% (1)
Surajustement et sous-ajustement en ML
23 pages
Apprentissage du Perceptron et SVM
100% (1)
Apprentissage du Perceptron et SVM
76 pages
Prédiction des Prix des Maisons avec ML
Pas encore d'évaluation
Prédiction des Prix des Maisons avec ML
3 pages
Mathématiques pour l'Intelligence Artificielle
Pas encore d'évaluation
Mathématiques pour l'Intelligence Artificielle
25 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
19 pages
Perceptron Multicouche
100% (1)
Perceptron Multicouche
6 pages
Prédiction du Churn par Apprentissage Automatique
Pas encore d'évaluation
Prédiction du Churn par Apprentissage Automatique
65 pages
Classification SVM : Théorie et Pratique
100% (1)
Classification SVM : Théorie et Pratique
18 pages
Correction TP1 Deep Learning 2023
Pas encore d'évaluation
Correction TP1 Deep Learning 2023
12 pages
Prétraitement des données avec Python
Pas encore d'évaluation
Prétraitement des données avec Python
3 pages
Régression Linéaire Simple en Python
100% (1)
Régression Linéaire Simple en Python
11 pages
Régressions linéaires : Salaire et Profit
Pas encore d'évaluation
Régressions linéaires : Salaire et Profit
3 pages
Prédiction de Salaire par Régression Linéaire
Pas encore d'évaluation
Prédiction de Salaire par Régression Linéaire
5 pages
TP Régression : Prétraitement et Modèles
Pas encore d'évaluation
TP Régression : Prétraitement et Modèles
4 pages
TP Éléments D'intelligence Artificielle Appliquée1
Pas encore d'évaluation
TP Éléments D'intelligence Artificielle Appliquée1
8 pages
Apprentissage supervisé en régression IA
Pas encore d'évaluation
Apprentissage supervisé en régression IA
6 pages
Techniques de régression et classification ML
Pas encore d'évaluation
Techniques de régression et classification ML
15 pages
ATELIER 1-Rapport GestionDeCommande
Pas encore d'évaluation
ATELIER 1-Rapport GestionDeCommande
12 pages
Objets et Classes en C++
Pas encore d'évaluation
Objets et Classes en C++
33 pages
Haute Disponibilité avec Heartbeat et Apache2
Pas encore d'évaluation
Haute Disponibilité avec Heartbeat et Apache2
10 pages
Polymorphisme en C++ : Concepts clés
Pas encore d'évaluation
Polymorphisme en C++ : Concepts clés
27 pages
Fonctions et Classes Amies en C++
Pas encore d'évaluation
Fonctions et Classes Amies en C++
24 pages
Réacteurs à Lit Mobile vs Membrane : Comparatif
Pas encore d'évaluation
Réacteurs à Lit Mobile vs Membrane : Comparatif
9 pages
Analyse des spectres IR et UV-Vis.
Pas encore d'évaluation
Analyse des spectres IR et UV-Vis.
3 pages
Réacteur à lit mobile simulé (SMBR)
Pas encore d'évaluation
Réacteur à lit mobile simulé (SMBR)
13 pages
Analyse des effets des variables X1, X2, X3
Pas encore d'évaluation
Analyse des effets des variables X1, X2, X3
3 pages
Analyse des volumes des bassins d'eau
Pas encore d'évaluation
Analyse des volumes des bassins d'eau
14 pages
Traitement de l'eau à l'ONEP Rabat
Pas encore d'évaluation
Traitement de l'eau à l'ONEP Rabat
6 pages
Plans d'expériences en SMGP
Pas encore d'évaluation
Plans d'expériences en SMGP
1 page
Exercice de Spectroscopie Infrarouge 2023
Pas encore d'évaluation
Exercice de Spectroscopie Infrarouge 2023
2 pages
Master SMGP 2024/2025 - TD-DRX
100% (1)
Master SMGP 2024/2025 - TD-DRX
2 pages
Diffraction des Rayons X : Exercices et Analyses
100% (2)
Diffraction des Rayons X : Exercices et Analyses
2 pages
Analyse du Diagramme de Gantt 2024-2025
Pas encore d'évaluation
Analyse du Diagramme de Gantt 2024-2025
10 pages
QCM Management de la Qualité 2024-2025
Pas encore d'évaluation
QCM Management de la Qualité 2024-2025
2 pages
Plans d'expériences pour floculation et décantation
Pas encore d'évaluation
Plans d'expériences pour floculation et décantation
2 pages
Plans Factoriels Fractionnaires : Guide Complet
100% (1)
Plans Factoriels Fractionnaires : Guide Complet
12 pages
Autoévaluation de l'assertivité et des conflits
Pas encore d'évaluation
Autoévaluation de l'assertivité et des conflits
7 pages
Démarche Qualité : Concepts et Risques en Projet
Pas encore d'évaluation
Démarche Qualité : Concepts et Risques en Projet
2 pages
Architecture JEE et Spring en 2022
Pas encore d'évaluation
Architecture JEE et Spring en 2022
79 pages
Lutte contre l'injustice et l'esclavage
Pas encore d'évaluation
Lutte contre l'injustice et l'esclavage
12 pages
Exercice Shell 01 : Compte fichiers
Pas encore d'évaluation
Exercice Shell 01 : Compte fichiers
13 pages