0% ont trouvé ce document utile (0 vote)

21 vues45 pages

Introduction au Machine Learning

Le document présente une introduction au Machine Learning, une branche de l'intelligence artificielle permettant aux ordinateurs d'apprendre à partir de données. Il aborde les concepts fondamentaux tels que la régression, la classification, et les différentes approches d'apprentissage (supervisé, non supervisé, semi-supervisé, et par renforcement). Enfin, il souligne l'importance des données et des techniques de validation et d'optimisation pour le développement de modèles prédictifs.

Transféré par

Elisée AMEWOUAME

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

21 vues45 pages

Introduction au Machine Learning

Transféré par

Elisée AMEWOUAME

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au

Machine Learning
Formatrice: Mously DIAW

Tech et Cie.
Sommaire

I. Introduction

II. Régression
Entrainez un modèle linéaire

Evaluation des performances d'un modèle de régression

Utilisez des modèles supervisés non linéaires

Méthodes ensemblistes

III. Classification
INTRODUCTION
Introduction

Le machine learning, ou apprentissage automatique en français, est une branche de l'intelligence artificielle qui permet aux
ordinateurs d'apprendre à partir de données et de réaliser des tâches sans être explicitement programmés pour cela

Qu'est-ce que l'intelligence artificielle ?

L'intelligence artificielle (IA) est un champ large qui fait référence à l'utilisation de technologies pour créer des
machines et des ordinateurs capables d'imiter des fonctions cognitives associées à l'intelligence humaine, telles que la
capacité à visualiser et comprendre le langage parlé ou écrit et y répondre, analyser les données, proposer des
recommandations, etc.

Bien que l'intelligence artificielle soit souvent considérée comme un système en soi, il s'agit d'un ensemble de
technologies implémentées dans un système pour lui permettre de raisonner, d'apprendre et de résoudre un problème
complexe.

“Yann Le Cun, chercheur en Intelligence Artificielle, considéré comme l'un des inventeurs de l'apprentissage profond, définit
l'IA comme un « ensemble de techniques permettant à des machines d’accomplir des tâches et de résoudre des problèmes
normalement réservés aux humains et à certains animaux.“
Classification des concepts clés

Intelligence Artificielle
C’es un ensemble de techniques permettant aux ordinateurs
d’imiter un comportement humain.

Machine Learning
Le Machine learning, un sous domaine de l’IA, est basée sur
l’utilisation d’algorithmes permettant de lire des données
d’entrée et d’apprendre de ces données dans le but de
résoudre un problème précis. Il sait par exemple identifier si
une photo montre un chien ou un chat et classer le document
dans le dossier correspondant.

Deep Learning
Comme vous l’aurez compris, les réseaux de neurones sont
une famille d’algorithmes appartenant au Machine Learning.
Un réseau de neurones artificiel s’inspire du fonctionnement
du cerveau humain.
Quelques dates clés sur l’évolution de l’IA
et la nature des données.
Découvrez les quelques dates clés de la progression de l'IA
sur cette frise :
Comment l'IA et le ML sont-ils connectés ?

Bien que l'IA et le ML ne soient pas exactement identiques, ils sont étroitement liés. Le moyen le plus simple de
comprendre le lien entre l'IA et le ML est le suivant:
L'IA est le concept plus large qui permet à une machine ou à un système de détecter, de raisonner, d'agir ou de
s'adapter comme un humain
Le ML est une application d'IA qui permet aux machines d'extraire des connaissances à partir de données et d'en tirer
des enseignements de manière autonome.

Pour se souvenir de la différence entre le machine learning et l'intelligence artificielle, il est utile de les imaginer comme
des catégories générales. L'intelligence artificielle est le terme global qui couvre une grande variété d'approches et
d'algorithmes spécifiques. Le machine learning se situe dans cette catégorie, tout comme d'autres sous-domaines
majeurs, tels que le deep learning, la robotique, les systèmes experts et le traitement du langage naturel.
Zoom sur le Machine Learning

Le machine learning est un sous-ensemble de l'intelligence artificielle qui permet à une machine ou à un système
d'apprendre et de s'améliorer automatiquement. Au lieu d'une programmation explicite, le machine learning utilise des
algorithmes pour analyser de grandes quantités de données, tirer des enseignements de ces informations, puis prendre des
décisions éclairées.

Les algorithmes de machine learning améliorent les performances au fil du temps à mesure qu'ils sont entraînés. Ils sont
donc exposés à davantage de données. Les modèles de machine learning sont le résultat, ou ce que le programme apprend
lorsqu'il exécute un algorithme sur les données d'entraînement. Plus vous utilisez de données, plus le modèle est
performant.

En d’autres termes, l'apprentissage automatique peut être défini comme la capacité d'une machine à améliorer ses
performances sur une tâche donnée au fil du temps. Cette amélioration se produit grâce à l'apprentissage à partir de
données.
ML en résumé

Le ML permet à une machine d'apprendre de manière autonome à

partir de données passées
L'objectif est de créer des machines capables d'exploiter les données
pour améliorer la précision du résultat.
Nous entraînons des machines avec des données à exécuter des
tâches spécifiques et à obtenir des résultats précis
Le champ d'application des applications de machine learning est
limité
Le ML génère des modèles prédictifs à l'aide d'algorithmes d'auto-
apprentissage
Le ML ne peut utiliser que des données structurées et semi-
structurées
Les systèmes de ML s'appuient sur des modèles statistiques pour
apprendre et peuvent corriger automatiquement les nouvelles
données
Différenciez modélisation statistique et modélisation prédictive

Imaginons que vous soyez responsable des données d'une plateforme de contenu en ligne dont le business model repose
sur le nombre d'abonnements souscrits. On vous pose 2 questions :
Quel est le profil des utilisateurs qui s'abonnent ?
Comment prédire si un nouvel utilisateur va s'abonner ?

Dans les 2 cas, on cherche à en savoir plus sur l'acte d'abonnement d'un utilisateur. Cependant, ces questions imposent
deux approches différentes :
La modélisation statistique.
La modélisation prédictive.
Différenciez modélisation statistique et modélisation prédictive

La modélisation statistique
La première question (“Quel est le profil des utilisateurs qui s’abonnent ?”) est relative au profil. Avec cette question, on
cherche à comprendre l'acte d'abonnement en fonction des caractéristiques des utilisateurs.

On est dans une démarche d'analyse et d'interprétation de la dynamique entre les variables. La modélisation statistique
s'appuie sur des tests d'hypothèses et des modèles mathématiques pour évaluer les conclusions de l'analyse.

La modélisation prédictive
La seconde question (“Comment prédire si un nouvel utilisateur va s’abonner ?”) est relative à la prédiction. Avec cette
question, on ne cherche qu'à prédire l'acte d'abonnement le plus efficacement possible. C'est l'approche Machine Learning.

On attend 2 choses du modèle prédictif issu d'une approche Machine Learning :

1. Des prédictions de qualité, soit un bon score que l'on va calculer grâce à une métrique choisie au préalable.
2. Sa capacité à extrapoler : soit à généraliser ses prédictions à partir des données d'entraînement. On parle de robustesse du
modèle face à de nouveaux échantillons.

Dans ce contexte, la performance des prédictions est centrale et on ne cherche pas à expliquer la logique conduisant à une prédiction donnée.
On assimile en quelque sorte le modèle à une boîte noire / black box, son fonctionnement interne étant jugé trop complexe pour être
interprétable par un humain.
Différenciez modélisation statistique et modélisation prédictive

Pour résumé

Modélisation prédictive
Modélisation statistique
(= Machine Learning)

Objectif Expliquer, analyser Prédire

Focus Fiabilité des conclusions : tests Performance, résilience et robustesse

d'hypothèses et intervalles de confiance du modèle

Une partie des échantillons est réservée

Utilisation des données
Tous les échantillons à l'évaluation des performances du
modèle
TYPES D'APPRENTISSAGE
Les différentes approches de machine learning

En Machine Learning, il faut distinguer :

1. L'approche supervisée (supervised learning).

2. L'approche non supervisée (unsupervised learning).

3. L’approche semi-supervisée (semi-supervised learning).

4. L’approche par renforcement (reinforcement Learning)

Les différentes approches de machine learning
Apprentissage supervisé
Dans l'apprentissage supervisé, l'algorithme d'apprentissage est fourni avec un ensemble de données d'apprentissage
étiquetées, qui sont des exemples de données avec les résultats souhaités. L'algorithme utilise ces données pour apprendre à
associer des entrées à des sorties.

Il existe deux principaux types d'apprentissage supervisé :

Classification : l'objectif est de prédire la catégorie d'une entrée donnée. Par exemple, un algorithme de classification
peut être utilisé pour prédire si un email est un spam ou non.
Régression : l'objectif est de prédire une valeur continue pour une entrée donnée. Par exemple, un algorithme de
régression peut être utilisé pour prédire le prix d'une maison en fonction de ses caractéristiques.
Les différentes approches de machine learning
Apprentissage non-supervisé

Dans l'apprentissage non supervisé, l'algorithme d'apprentissage n'est pas

fourni avec des données étiquetées. L'algorithme doit donc trouver lui-
même les modèles dans les données.

Il existe deux principaux types d'apprentissage non supervisé :

Clustering : l'objectif est de regrouper les données en groupes
homogènes. Par exemple, un algorithme de clustering peut être utilisé
pour trouver les différents groupes de clients d'une entreprise.

Réduction de dimensionnalité : l'objectif est de réduire la quantité de

données en éliminant les informations redondantes. Par exemple, un
algorithme de réduction de dimensionnalité peut être utilisé pour
compresser des images.
Les différentes approches de machine learning
Approche semi-supervisée
Cette approche combine des éléments des deux méthodes précédentes, utilisant à la fois des données étiquetées et non
étiquetées pour l'entraînement. Cela est utile lorsque l'étiquetage des données est coûteux ou difficile.

L'algorithme d'apprentissage utilise les données étiquetées pour apprendre à associer des entrées à des sorties, et utilise les
données non étiquetées pour améliorer ses performances.
Voici quelques exemples d'applications de l'apprentissage semi-supervisé : détection d'anomalies, segmentation d'images,
recommandation de produits, ...
Les différentes approches de machine learning
Apprentissage par renforcement

Le Reinforcement Learning désigne l’ensemble des méthodes qui permettent

à un agent d’apprendre à choisir quelle action prendre, et ceci de manière
autonome.

Dans l'apprentissage en renforcement, l'algorithme apprend par essais et

erreurs. L'algorithme reçoit une récompense ou une pénalité pour chaque
action qu'il effectue, et il utilise ces informations pour apprendre à prendre
les meilleures décisions.
Ce type d'apprentissage implique un agent (souvent une intelligence
artificielle) qui interagit avec un environnement. L'agent apprend en
effectuant des actions et en recevant des récompenses ou des pénalités en
fonction de ses actions.

L'apprentissage en renforcement est souvent utilisé dans les domaines de la

robotique (voiture autonome, système de contrôle adaptatif efficace) et de
la finance (activités de trading et d’investissement en capitaux propres), la
santé, ...
En résumé

En résumé, le Machine Learning supervisé nécessite des données étiquetées pour entraîner le modèle à prédire des valeurs
spécifiques d'une variable donnée, tandis que le Machine Learning non supervisé cherche à trouver des structures ou des
groupements inhérents aux données.
En résumé

Supervised Learning Unsupervised Learning Semi-supervised Learning Reinforcement Learning

Unlabeled dataFocus on finding Build a model through a mix of Focus on making decisions based
Data has knows labels/outputs
patterns and gaining insight from labeled & unlabeled dataIt stands on previous experiencemaking
the data between Supervised & decisions sequentially
Example Algorithms:
unsupervised learning
Linear Regression
Example Algorithms: Example Algorihms:
Support Vector Machines (SVM)
K-means clustering Example Algorithms: Model free RL (Q-learning, policy
Decision TreeStochastic
Gaussian mixture models Generative adversarial networks optimization)
Gradient Descent
Vector quantization Self training classifier Model-based RL (learn/given)
Ensemble methods
Matrix factorization problems (PCA,
Nearest Neighbors
ICA, LDA)
Neural network models
Novelty & Outlier detection

Use cases: Use cases: Use cases: Use cases:

sales
forecasting Customer segmentation Medical predictions Game AI
risk assessment Word associations Audio & video manipulation Self driving cars
image classification Searcher intent Natural language preprocessing text summarization
Insurance underwriting Recommender systems question answering
Fraud detection Predictive maintenance robotics manipulation
En quoi consiste le
Machine Learning ?
Généralités: importance des données pour le ML

La fonction prédictive du Machine Learning est polymorphe. Autrement dit, selon les besoins elle s'appelle “classification”,
“supervision”, “détection”, “proposition”, “ranking”, “prévision”... mais à la base il y a toujours un but de prédiction.
Nous profitons de cette profusion de modèles prédictifs au quotidien :
proposition de contenu sur les plateformes ;
prévention et surveillance globale ;
évaluation des risques ;
IA générative ;
optimisation des chaînes de production et de ventes ;
détection des anomalies ;
prévisions temporelles, etc.

Dans ce cours nous allons travailler sur le Machine Learning dit classique. Le ML classique se nourrit de jeux de données
tabulaires, c’est-à-dire que l'on peut exprimer sous forme de tableau. Un tel jeu de données peut prendre la forme d'un
simple fichier CSV, Excel ou JSON, ou être directement extrait d'une base de données (SQL, NoSQL).

On laisse les données plus lourdes (de type audio, images, vidéo) et l'IA générative au deep learning.
À la base du Machine Learning se trouve le jeu de données (ou dataset, en anglais). L'apprentissage se nourrit de données.
Sans données, pas de Machine Learning !
2. Le travail sur la donnée

Tout commence par un travail de transformation des données brutes pour les rendre compatibles avec le modèle de ML
choisi : nettoyage, normalisation, numérisation, etc. On parle de nettoyage des données ou data cleaning.

Exemples : données manquantes (la moitié des tailles manquent), données erronées (une personne a 200 ans ou un poid est
négatif), ou normalisation nécessaire (prix de vente de maison en centaines de milliers vs nombre de mètres carrés en
centaines), format et accessibilité des données : 200 fichiers Excel à combiner, fichiers trop lourds, pas compatibles, etc.
2. Validation croisée

Comme on veut obtenir un modèle qui soit capable de bien performer sur des données qu'il n'a pas déjà rencontrées lors de
son entraînement, on veut éviter que le modèle ne soit évalué sur les échantillons d'entraînement.
On va donc découper le dataset en 2 parties :
1. Une partie des échantillons sont réservés à l'entraînement du modèle. Par convention, on appelle cette partie train, pour
“entraînement”.
2. L'autre partie est mise de côté pour évaluer la performance du modèle sur des données qu'il n'a pas vues. Par convention,
on appelle cette partie test.
On considère habituellement un ratio entre train et test de 80 / 20 %.
On va d'ailleurs répéter ce découpage plusieurs fois et de façon aléatoire pour s'assurer que le modèle performe dans tous les
cas de répartition train / test. Cette méthode s'appelle la validation croisée (nous reviendrons dessus de façon plus
approfondie).
3. Optimisation

En parallèle, on va chercher à améliorer la performance du modèle en modifiant ses paramètres et en observant son score sur
chaque version train / test du dataset. Chaque type de modèle a sa propre famille de paramètres qui dépend des librairies
utilisées. C'est à force de travailler sur ces paramètres que l'on développe un véritable savoir-faire de data scientist.
EXEMPLES D’APPLICATION
Cas d'utilisation du machine learning

Voici quelques-unes des applications les plus courantes de l'IA et du ML:

Automatisation des processus Optimisation des ventes Service client

par la robotique (RPA) Les données client peuvent entraîner des Les exemples de machine learning incluent les
L'application RPA associée au machine learning algorithmes de machine learning pour chatbots et les assistants virtuels automatisés
crée une automatisation intelligente et capable l'analyse des sentiments des clients, l'analyse permettant d'automatiser les tâches courantes
d'automatiser des tâches complexes, telles que le des prévisions de ventes et les prédictions de du service client et d'accélérer la résolution
traitement d'applications de prêts hypothécaires. perte de clients. des problèmes.

Sécurité Marketing numérique Prévention des fraudes

Le machine learning permet aux entreprises Le machine learning permet aux Le machine learning permet aux entreprises de
d'améliorer leurs capacités d'analyse des responsables marketing d'identifier de cartes de crédit et aux banques d'examiner de
menaces et de mieux répondre aux nouveaux clients et de proposer les bons grandes quantités de données
cyberattaques, aux pirates informatiques et supports marketing aux bonnes personnes, transactionnelles pour identifier les activités
aux logiciels malveillants. au bon moment. suspectes en temps réel.
Cas d'utilisation du machine learning

Les entreprises de tous les secteurs utilisent l'IA et le ML de différentes manières pour transformer leurs méthodes de travail et de commerce.

Santé et sciences de la vie Industrie E-commerce

Insights et analyse des dossiers médicaux des Surveillance des machines de production, Optimisation de l'inventaire et de la chaîne
patients, prévision et modélisation des résultats, maintenance prédictive, analyses IoT et d'approvisionnement, prévision de la
accélération du développement de médicaments, efficacité opérationnelle. demande, recherche visuelle, offres et
diagnostics accrus, surveillance des patients et expériences personnalisées et moteurs de
extraction d'informations à partir de notes recommandations.
cliniques.

Services financiers Télécommunications Reconnaissance vocale

Évaluation et analyse des risques, détection Réseaux intelligents et optimisation des le machine learning est utilisé pour
des fraudes, échange automatisé et réseaux, maintenance prédictive, comprendre le langage parlé, pour traduire
optimisation du traitement des services. automatisation des processus métier, des langues, pour identifier des objets ou des
planification des mises à niveau et personnes dans des images...
prévisions de la capacité.
Avantages et danges du machine learning

Voici un aperçu des principaux avantages et des inconvénients potentiels de l'apprentissage automatique :

Avantages Dangers

Diminution des coûts opérationnels: L'IA et le machine learning Licenciements: à mesure que certains emplois sont automatisés,
peuvent aider les entreprises à automatiser certains de leurs les travailleurs du domaine concerné seront probablement
emplois, entraînant une diminution des coûts opérationnels confrontés à des licenciements qui pourraient les obliger à changer
globaux de carrière ou à risquer l

Amélioration de l'efficacité opérationnelle et de la précision: Les

Absence d'élément humain: Les modèles qui sont chargés
modèles de machine learning sont capables d'effectuer certaines
d'effectuer une tâche très restreinte peuvent également manquer
tâches étroites avec une efficacité et une précision extrêmes, ce
de nombreux aspects "humains" du travail qui sont importants
qui garantit que certaines tâches sont accomplies à un niveau
pour eux, mais qui pourraient être négligés par les développeurs.
élevé et dans les délais impartis

Une meilleure compréhension: L'apprentissage automatique

Préjugés enracinés (biais): Tout comme les humains qui les créent,
permet d'identifier rapidement des tendances et des modèles
les modèles d'apprentissage automatique peuvent présenter des
dans de grandes quantités de données, ce qui prendrait
biais en raison des ensembles de données parfois biaisés sur
beaucoup de temps à l'homme. Ces informations peuvent
lesquels ils sont formés. Une confiance aveugle dans les systèmes
apporter aux entreprises, aux chercheurs et à la société dans son
d'IA sans compréhension de leurs limites peut entraîner une
ensemble de nouvelles connaissances susceptibles de les aider à
dépendance excessive et une perte de compétences humaines.
atteindre leurs objectifs généraux.
Éthique et Considérations :

Quelques-unes des principales préoccupations éthiques liées à l'apprentissage automatique sont les suivantes:

1. Biais: Les algorithmes d'apprentissage automatique sont formés sur des données, et ces données peuvent refléter les
biais existants dans la société. Cela peut conduire à des systèmes d'apprentissage automatique qui sont
discriminatoires ou biaisés.
2. Confidentialité: Les données utilisées pour former des modèles d'apprentissage automatique peuvent être sensibles. Il
est important de protéger la confidentialité de ces données et de s'assurer qu'elles ne sont utilisées que pour les fins
prévues.
3. Responsabilité: Qui est responsable des décisions prises par les systèmes d'apprentissage automatique ? Les
développeurs de ces systèmes, les utilisateurs de ces systèmes ou les deux ? Il est important de clarifier la
responsabilité des décisions prises par les systèmes d'apprentissage automatique.
Éthique et Considérations :

Voici quelques-unes des considérations importantes à prendre en compte lors de l'utilisation de l'apprentissage
automatique:

La qualité des données: La qualité des données utilisées pour former les modèles d'apprentissage automatique est
essentielle pour la précision et la fiabilité de ces modèles. Il est important de s'assurer que les données sont complètes,
cohérentes et représentatives de la population cible.
La transparence: Il est important que les utilisateurs puissent comprendre comment fonctionnent les modèles
d'apprentissage automatique et comment ils prennent leurs décisions. La transparence permet aux utilisateurs de faire
des choix éclairés quant à l'utilisation de ces modèles.
L'explicabilité: Il est important que les utilisateurs puissent comprendre pourquoi les modèles d'apprentissage
automatique prennent les décisions qu'ils prennent. L'explicabilité permet aux utilisateurs de faire confiance aux
décisions prises par ces modèles.
Perspectives Futures et Tendances :

1. Intelligence artificielle éthique : L'accent est mis sur le développement d'algorithmes et de modèles d'IA plus
transparents, justes et éthiques pour éviter les biais et assurer la responsabilité sociale.
2. Apprentissage fédéré et sécurisé : Le développement de techniques permettant l'apprentissage sur des données
distribuées sans compromettre la confidentialité des données individuelles.
3. Développement de l'IA générique : L'objectif est de créer des modèles d'IA capables d'effectuer plusieurs tâches
différentes plutôt que d'être spécialisés dans une tâche spécifique (ChatGPT, bard, ClaudeAI, ...).
4. IA évolutive et auto-apprenante : L'évolution vers des systèmes autonomes capables de s'adapter, d'apprendre et de
s'améliorer continuellement à partir de nouvelles données sans intervention humaine constante.
5. Combinaison de l'IA avec d'autres technologies : L'association de l'IA avec des domaines tels que l'Internet des
objets (IoT), la robotique avancée et la réalité augmentée pour créer des solutions plus avancées et intégrées.
6. IA dans la médecine et les soins de santé : Utilisation croissante de l'IA pour la recherche médicale, le diagnostic, la
personnalisation des traitements et la gestion des dossiers de santé.
7. IA pour la durabilité : L'application de l'IA pour résoudre des problèmes environnementaux et améliorer l'efficacité
dans des secteurs tels que l'énergie, la gestion des déchets et l'agriculture durable.
8. IA dans l'éducation et la formation : Utilisation de l'IA pour des plateformes d'apprentissage personnalisé, des
tuteurs virtuels et des outils éducatifs interactifs.
Fonctionnement du
Machine Learning
En quoi consiste le Machine Learning ?
Le but du ML est donc d'entraîner un modèle prédictif à partir d'un jeu de données.

Mais en pratique, comment cela se passe-t-il ?

Quand on parle de jeux de données, pensez à une feuille de type Google Spreadsheet ou tableur Excel. Les variables sont les
colonnes, et les échantillons sont les lignes.

On distingue la variable cible, sujet de la prédiction, des autres variables potentiellement prédictrices.

Par exemple, prenons un jeu de données comprenant l'âge, la taille et le poids d'une centaine de collégiens. Si on souhaite
prédire le poids des enfants en fonction de leur taille et de leur âge, la variable cible sera le poids et les variables prédictrices
seront l'âge et la taille.
Importance des données pour le ML
Grâce au machine learning, les entreprises entraînent les données à apprendre au système comment résoudre le problème à
l'aide d'algorithmes de ML et comment s'améliorer avec le temps.

Un projet de Data Science a 3 grandes phases :

1. Définition.
2. Prototypage.
3. Production.

Phase 1 – Définir les spécifications à partir de la problématique business

Cette phase a pour but de traduire une problématique business, un besoin ou un
produit en projet Machine Learning. De façon très générique, il faut au minimum :
des données, qui soient pertinentes ;
un sujet ou un produit qui soit proprement défini ;
et montrer qu'il y a un net avantage à exploiter l'approche prédictive plutôt
qu'une solution plus simple.

En effet, une suite de règles peut apporter une solution plus simple et parfois
d'efficacité comparable pour classer ou prédire une quantité. En anglais, on
parle de rule based solution.
Passez d’une problématique business à la mise en production

Un projet de Machine Learning est une chose complexe. Avant de se lancer, il

faut pouvoir calculer le gain réellement apporté par une telle démarche
Machine Learning. Cela nécessite de réaliser en premier lieu une étude de
benchmark. Cette étude permet aussi de poser certaines questions importantes.
Comment définir le succès du projet ?
Comment mesurer la performance du système ?
Quelle métrique utiliser pour le scoring du modèle ?
Quel score sera-t-il nécessaire d'obtenir pour réaliser les objectifs du projet ?

Phase 2 – Concevoir le prototype et valider la faisabilité du projet

Une fois fixées une version du jeu de données et une indication de benchmark de
performance à dépasser, le but de l'étape de Machine Learning est d'obtenir un
modèle qui soit :
performant : bon score vis-à-vis de la métrique choisie ;
et robuste : stable face à de nouvelles données.

En fonction du contexte, on pourra privilégier un modèle moins performant

mais plus résilient face aux variabilités des données, à un modèle plus
performant mais plus sensible aux variations.
Passez d’une problématique business à la mise en production

Les étapes de Machine Learning vont constituer en une série

d'itérations des étapes suivantes :
étape 1 : mettre en forme des données (ou feature engineering en
anglais) :
nettoyer les données, c’est-à-dire résoudre les outliers
(données aberrantes, en français) et les données manquantes,
créer de nouvelles variables à partir de variables existantes,
feature engineering, (prendre le carré ou le long d'un prix),
numériser les données catégoriques, textuelles ou images
pour qu'elles soient ingérables par un modèle ;
étape 2 : choisir le type de modèle: GLM, Tree, NN ou autre ;
étape 3 : répartir les données avec une partie réservée pour
l'entraînement et l'autre pour la validation ;
étape 4 : optimiser les paramètres du modèle.
Passez d’une problématique business à la mise en production

Phase 3 – Mettre en production le projet

Le modèle une fois optimisé a vocation à être intégré dans le produit final : on
parle de mise en production. C'est alors le travail des MLOps et des DevOps qui
vont prendre en charge la mise en production dans le cloud ainsi que la
surveillance des modèles.

“MLOps” est la contraction de ML (Machine Learning) et de DevOps

(développement et opérations). Le rôle du MLOps consiste à opérationnaliser les
modèles de ML en production.
Pour bien comprendre l'importance de cette étape, pensez à la mise en
production de centaines voire de milliers de modèles en parallèle, qui doivent
être automatiquement :
mis à jour ;
(ré)entraînés ;
déployés ;
surveillés.
Cycle de vie d’un projet ML
En résumé
Un projet de Data Science a 3 grandes phases :
conception, modélisation et production.

Définir un benchmark en préalable du projet permet de

valider le retour sur investissement de l'approche Machine
Learning comparée à une approche plus simple et plus
directe.

Un bon modèle prédictif offre de bonnes performances

face à des données qu'il n'a pas rencontrées lors de son
entraînement. Il sait extrapoler.

Il faut régulièrement ré-entraîner un modèle pour qu'il

s'adapte aux évolutions naturelles des données.

Le MLOps est un rôle clé qui a pour responsabilité de

mettre les modèles en production et de les surveiller.
Trouvez des jeux de données
Avant de nous attacher à améliorer la qualité ou transformer un jeu de données, regardons où l'on peut trouver des jeux de données.

En 2018, Google lance son moteur de recherche dédié aux jeux de données : Dataset Search.
Kaggle, la plateforme de compétition de Machine Learning, offre aussi de nombreux datasets.
Nous avons les sites dédiés au ML comme UCI.
Les sites institutionnels ont souvent une politique d'open source. On citera les portails de Paris, Londres, ou celui de Rome ainsi
que celui des institutions européennes.
Les agences scientifiques, ONG et agents nationaux : ADEME, EdF, WWF et GBIF sur la biodiversité.
BigQuery, un service de big data de Google Cloud met à disposition gratuitement des datasets extrêmement intéressants et de
grand volume.
Enfin, les librairies elles-mêmes :
scikit-learn met à disposition des datasets simples (toy dataset) ou plus complexes (real world) ;
ainsi que statsmodels et le package R Datasets.

Vous avez donc le choix pour vous familiariser avec des types de données et des tâches variées de Machine Learning.
Réduisez l'influence des préjugés dans les
prédictions du modèle
'IA est maintenant présente dans tous les secteurs. Il nous faut nous assurer que les modèles que nous construisons ne sont pas
biaisés.
Un modèle biaisé est un modèle dont les prédictions sont systématiquement distordues. Avec comme conséquence directe un risque
de décisions qui sont systématiquement inéquitables ou inexactes.

La première cause de biais est le fait d'un mauvais échantillonnage des données d'entraînement. Par exemple, si un sondage
d'opinion n'interroge que les utilisateurs d'iPhone, les résultats ne reflètent sûrement pas l'opinion de toute la population.

Plus concrètement…
En ressources humaines, quand les données historiques d'entraînement contiennent plus d'hommes que de femmes pour un
poste donné (ou vice versa), un modèle de présélection de candidats aura tendance à favoriser les profils d'hommes pour ce
poste. D'ou une discrimination avérée bien qu'involontaire.
Dans le cadre de la sécurité bancaire, un modèle entraîné principalement sur des fraudes en ligne sera incapable de détecter
d'autres types de fraude (en personne ou internes).

Néanmoins le biais n'est pas toujours dû à une sous-représentation d'une catégorie d'événement.

Pour atténuer le biais, il faut donc s'assurer de l'exhaustivité des valeurs des variables prédictrices ou cibles, et mettre en place des
stratégies de remédiation.
Les outils ML
Quelques exemples d’outils ML pour la création,
l’entrainement et le déploiement de modèles
Les outils ML
Quelques exemples d’outils (python & cloud ) pour la
création, l'entraînement et le déploiement de
modèles d'IA.
Ressources
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
gad_source=1&gclid=CjwKCAiAqNSsBhAvEiwAn_tmxTq4e7TOHTQ6ykgAO5i3isM9cLYaToZIo4FlFJj-
mYhi57qG01NYkxoC25AQAvD_BwE
[Link]
utm_medium=sem&utm_source=gg&utm_campaign=B2C_EMEA__coursera_FTCOF_career-academy_pmax-multiple-
audiences-country-multi-
set2&campaignid=20882109092&adgroupid=&device=c&keyword=&matchtype=&network=x&devicemodel=&adposition=
&creativeid=&hide_mobile_promo&gclid=CjwKCAiAqNSsBhAvEiwAn_tmxXWPlBlsOFSPtXhPjpvHzcCbg35kZgPeAAo23UePdK
uKmiplpcu0rxoCfucQAvD_BwE

Vous aimerez peut-être aussi

Aperçu du Machine Learning en IA
Pas encore d'évaluation
Aperçu du Machine Learning en IA
5 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
70 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
22 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
16 pages
Méthodes de Machine Learning et Deep Learning
Pas encore d'évaluation
Méthodes de Machine Learning et Deep Learning
37 pages
Cours d'Apprentissage Automatique I
Pas encore d'évaluation
Cours d'Apprentissage Automatique I
65 pages
SVM : Régularisation et Validation Croisée
Pas encore d'évaluation
SVM : Régularisation et Validation Croisée
56 pages
Apprentissage ensembliste : Concepts clés
Pas encore d'évaluation
Apprentissage ensembliste : Concepts clés
6 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
29 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
28 pages
Formalisation de l'apprentissage supervisé
Pas encore d'évaluation
Formalisation de l'apprentissage supervisé
61 pages
Apprentissage Automatique et Clustering
Pas encore d'évaluation
Apprentissage Automatique et Clustering
63 pages
Introduction au Machine Learning Avancé
Pas encore d'évaluation
Introduction au Machine Learning Avancé
92 pages
Introduction à la régression logistique
Pas encore d'évaluation
Introduction à la régression logistique
3 pages
Introduction au Machine Learning en E-Business
Pas encore d'évaluation
Introduction au Machine Learning en E-Business
20 pages
Exercices Corrigés de Régression Logistique
Pas encore d'évaluation
Exercices Corrigés de Régression Logistique
38 pages
Contrôle final en Machine Learning
Pas encore d'évaluation
Contrôle final en Machine Learning
6 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
20 pages
QCM Direct : Correction Automatisée
Pas encore d'évaluation
QCM Direct : Correction Automatisée
20 pages
Génie Logiciel pour l'IA - MGL869
Pas encore d'évaluation
Génie Logiciel pour l'IA - MGL869
88 pages
Introduction aux Machines à Vecteurs de Support
Pas encore d'évaluation
Introduction aux Machines à Vecteurs de Support
47 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
102 pages
Réseaux de Neurones Artificiels en IA
Pas encore d'évaluation
Réseaux de Neurones Artificiels en IA
24 pages
IA en Génie Électrique et Ingénierie
Pas encore d'évaluation
IA en Génie Électrique et Ingénierie
65 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
56 pages
Différences entre Machine Learning et Deep Learning
100% (1)
Différences entre Machine Learning et Deep Learning
2 pages
Introduction au Traitement du Langage Naturel
Pas encore d'évaluation
Introduction au Traitement du Langage Naturel
127 pages
Introduction à l'apprentissage machine
Pas encore d'évaluation
Introduction à l'apprentissage machine
2 pages
Optimisation de la Régression Linéaire avec Python
Pas encore d'évaluation
Optimisation de la Régression Linéaire avec Python
36 pages
Introduction au Machine Learning en Français
Pas encore d'évaluation
Introduction au Machine Learning en Français
133 pages
Examen de Machine Learning 2024
Pas encore d'évaluation
Examen de Machine Learning 2024
4 pages
Évaluation des Modèles de Machine Learning
Pas encore d'évaluation
Évaluation des Modèles de Machine Learning
16 pages
Examen de Machine Learning : Concepts clés
Pas encore d'évaluation
Examen de Machine Learning : Concepts clés
3 pages
Régression Logistique et Machine Learning
Pas encore d'évaluation
Régression Logistique et Machine Learning
51 pages
Mathématiques pour l'Intelligence Artificielle
Pas encore d'évaluation
Mathématiques pour l'Intelligence Artificielle
25 pages
Liaison entre Caractères Qualitatifs et Quantitatifs
Pas encore d'évaluation
Liaison entre Caractères Qualitatifs et Quantitatifs
12 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
64 pages
Types d'apprentissage automatique expliqués
Pas encore d'évaluation
Types d'apprentissage automatique expliqués
29 pages
Reconnaissance de formes et applications
Pas encore d'évaluation
Reconnaissance de formes et applications
5 pages
Introduction au Perceptron en IA
Pas encore d'évaluation
Introduction au Perceptron en IA
3 pages
Introduction à l'Apprentissage Automatique
Pas encore d'évaluation
Introduction à l'Apprentissage Automatique
39 pages
Introduction à la Régression Supervisée
Pas encore d'évaluation
Introduction à la Régression Supervisée
45 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
18 pages
Introduction à l'apprentissage automatique
100% (1)
Introduction à l'apprentissage automatique
115 pages
Modèles ML et Déploiement Pratique
Pas encore d'évaluation
Modèles ML et Déploiement Pratique
90 pages
Modèles en Machine Learning par Hiba Chougrad
Pas encore d'évaluation
Modèles en Machine Learning par Hiba Chougrad
115 pages
Évaluation des Modèles de Classification
Pas encore d'évaluation
Évaluation des Modèles de Classification
23 pages
Classification CAH des régions suspectes
Pas encore d'évaluation
Classification CAH des régions suspectes
4 pages
Prétraitement des données et redondance
Pas encore d'évaluation
Prétraitement des données et redondance
74 pages
Algorithmes de recherche heuristique en IA
Pas encore d'évaluation
Algorithmes de recherche heuristique en IA
48 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
25 pages
Tuning des Hyperparamètres en ML
100% (1)
Tuning des Hyperparamètres en ML
47 pages
Externalisation de l'annotation d'images
Pas encore d'évaluation
Externalisation de l'annotation d'images
42 pages
Clustering et Classification Hiérarchique
Pas encore d'évaluation
Clustering et Classification Hiérarchique
1 page
Examen de Machine Learning: Arbres et Modèles
Pas encore d'évaluation
Examen de Machine Learning: Arbres et Modèles
2 pages
Introduction à l'Intelligence Artificielle
Pas encore d'évaluation
Introduction à l'Intelligence Artificielle
54 pages
Expressions Régulières et Automates en TALN
Pas encore d'évaluation
Expressions Régulières et Automates en TALN
44 pages
Comprendre les réseaux neuronaux
Pas encore d'évaluation
Comprendre les réseaux neuronaux
57 pages
01 Introduction
Pas encore d'évaluation
01 Introduction
37 pages
Attitudes et pratiques écologiques des Français
Pas encore d'évaluation
Attitudes et pratiques écologiques des Français
4 pages
Comprendre le Loss Leading et ses Impacts
Pas encore d'évaluation
Comprendre le Loss Leading et ses Impacts
2 pages
Remplir l'état des risques immobiliers
Pas encore d'évaluation
Remplir l'état des risques immobiliers
1 page
Modèle de choix des consommateurs et salience
Pas encore d'évaluation
Modèle de choix des consommateurs et salience
5 pages
Ingénierie des fonctionnalités en ML
Pas encore d'évaluation
Ingénierie des fonctionnalités en ML
37 pages
Création d'API et Dashboard avec Python
Pas encore d'évaluation
Création d'API et Dashboard avec Python
19 pages
Cours de Contrôle de Gestion à ENSAE-Dakar
100% (1)
Cours de Contrôle de Gestion à ENSAE-Dakar
44 pages
ANOVA MEMOIRE Mouhamadou Hady DIALLO ITS3 2016
100% (1)
ANOVA MEMOIRE Mouhamadou Hady DIALLO ITS3 2016
44 pages
Introduction à l'anthropologie économique
Pas encore d'évaluation
Introduction à l'anthropologie économique
42 pages
Compte rendu sur la ZLECAF à l'ENSAE
Pas encore d'évaluation
Compte rendu sur la ZLECAF à l'ENSAE
2 pages
Choix de Modèles Statistiques en R
Pas encore d'évaluation
Choix de Modèles Statistiques en R
33 pages
Analyse des Séries Temporelles PDF
Pas encore d'évaluation
Analyse des Séries Temporelles PDF
29 pages
Inégalités de revenus dans le bassin arachidier
Pas encore d'évaluation
Inégalités de revenus dans le bassin arachidier
27 pages
Économie d'endettement vs Capitaux
Pas encore d'évaluation
Économie d'endettement vs Capitaux
21 pages
Automatisation des pipelines MLOps
Pas encore d'évaluation
Automatisation des pipelines MLOps
18 pages
Présentation de l'École ENET'COM IDSD
Pas encore d'évaluation
Présentation de l'École ENET'COM IDSD
12 pages
Introduction à DevOps et MLOps
Pas encore d'évaluation
Introduction à DevOps et MLOps
16 pages
MLOps pour la Classification de Texte
Pas encore d'évaluation
MLOps pour la Classification de Texte
3 pages
Organisation efficace des projets ML
Pas encore d'évaluation
Organisation efficace des projets ML
61 pages
Rapport de Master sur Big Data chez Orange
Pas encore d'évaluation
Rapport de Master sur Big Data chez Orange
68 pages
MLOps : Défis et Solutions en ML
Pas encore d'évaluation
MLOps : Défis et Solutions en ML
12 pages
Formation AI-900 et Machine Learning
Pas encore d'évaluation
Formation AI-900 et Machine Learning
31 pages
Introduction au MLOps et bonnes pratiques
Pas encore d'évaluation
Introduction au MLOps et bonnes pratiques
6 pages
MLOps : Vers une approche industrielle
Pas encore d'évaluation
MLOps : Vers une approche industrielle
23 pages
Intégration réussie du ML en production
Pas encore d'évaluation
Intégration réussie du ML en production
15 pages
Comprendre le MLOps en entreprise
Pas encore d'évaluation
Comprendre le MLOps en entreprise
11 pages
Introduction aux MLOps et DevOps
0% (1)
Introduction aux MLOps et DevOps
17 pages
Industrialiser le Machine Learning avec MLOps
Pas encore d'évaluation
Industrialiser le Machine Learning avec MLOps
102 pages
Sécurité des pipelines en MLOps
Pas encore d'évaluation
Sécurité des pipelines en MLOps
19 pages
Automatisation du Déploiement en ML
Pas encore d'évaluation
Automatisation du Déploiement en ML
75 pages
Formation MLOps : Industrialisation ML
Pas encore d'évaluation
Formation MLOps : Industrialisation ML
1 page
Jenkins pour CI/CD en MLOps
Pas encore d'évaluation
Jenkins pour CI/CD en MLOps
4 pages
MLOps : Clé de l'Industrialisation IA
Pas encore d'évaluation
MLOps : Clé de l'Industrialisation IA
52 pages
Introduction à MLOps et automatisation
100% (1)
Introduction à MLOps et automatisation
59 pages
Projets d'apprentissage automatique essentiels
Pas encore d'évaluation
Projets d'apprentissage automatique essentiels
26 pages
Système de recommandation de produits
Pas encore d'évaluation
Système de recommandation de produits
39 pages
Introduction au MLOps en Machine Learning
Pas encore d'évaluation
Introduction au MLOps en Machine Learning
7 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
45 pages