0% ont trouvé ce document utile (0 vote)
21 vues45 pages

Introduction au Machine Learning

Le document présente une introduction au Machine Learning, une branche de l'intelligence artificielle permettant aux ordinateurs d'apprendre à partir de données. Il aborde les concepts fondamentaux tels que la régression, la classification, et les différentes approches d'apprentissage (supervisé, non supervisé, semi-supervisé, et par renforcement). Enfin, il souligne l'importance des données et des techniques de validation et d'optimisation pour le développement de modèles prédictifs.

Transféré par

Elisée AMEWOUAME
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
21 vues45 pages

Introduction au Machine Learning

Le document présente une introduction au Machine Learning, une branche de l'intelligence artificielle permettant aux ordinateurs d'apprendre à partir de données. Il aborde les concepts fondamentaux tels que la régression, la classification, et les différentes approches d'apprentissage (supervisé, non supervisé, semi-supervisé, et par renforcement). Enfin, il souligne l'importance des données et des techniques de validation et d'optimisation pour le développement de modèles prédictifs.

Transféré par

Elisée AMEWOUAME
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction au

Machine Learning
Formatrice: Mously DIAW

Tech et Cie.
Sommaire

I. Introduction

II. Régression
Entrainez un modèle linéaire

Evaluation des performances d'un modèle de régression

Utilisez des modèles supervisés non linéaires

Méthodes ensemblistes

III. Classification
INTRODUCTION
Introduction

Le machine learning, ou apprentissage automatique en français, est une branche de l'intelligence artificielle qui permet aux
ordinateurs d'apprendre à partir de données et de réaliser des tâches sans être explicitement programmés pour cela

Qu'est-ce que l'intelligence artificielle ?

L'intelligence artificielle (IA) est un champ large qui fait référence à l'utilisation de technologies pour créer des
machines et des ordinateurs capables d'imiter des fonctions cognitives associées à l'intelligence humaine, telles que la
capacité à visualiser et comprendre le langage parlé ou écrit et y répondre, analyser les données, proposer des
recommandations, etc.

Bien que l'intelligence artificielle soit souvent considérée comme un système en soi, il s'agit d'un ensemble de
technologies implémentées dans un système pour lui permettre de raisonner, d'apprendre et de résoudre un problème
complexe.

“Yann Le Cun, chercheur en Intelligence Artificielle, considéré comme l'un des inventeurs de l'apprentissage profond, définit
l'IA comme un « ensemble de techniques permettant à des machines d’accomplir des tâches et de résoudre des problèmes
normalement réservés aux humains et à certains animaux.“
Classification des concepts clés

Intelligence Artificielle
C’es un ensemble de techniques permettant aux ordinateurs
d’imiter un comportement humain.

Machine Learning
Le Machine learning, un sous domaine de l’IA, est basée sur
l’utilisation d’algorithmes permettant de lire des données
d’entrée et d’apprendre de ces données dans le but de
résoudre un problème précis. Il sait par exemple identifier si
une photo montre un chien ou un chat et classer le document
dans le dossier correspondant.

Deep Learning
Comme vous l’aurez compris, les réseaux de neurones sont
une famille d’algorithmes appartenant au Machine Learning.
Un réseau de neurones artificiel s’inspire du fonctionnement
du cerveau humain.
Quelques dates clés sur l’évolution de l’IA
et la nature des données.
Découvrez les quelques dates clés de la progression de l'IA
sur cette frise :
Comment l'IA et le ML sont-ils connectés ?

Bien que l'IA et le ML ne soient pas exactement identiques, ils sont étroitement liés. Le moyen le plus simple de
comprendre le lien entre l'IA et le ML est le suivant:
L'IA est le concept plus large qui permet à une machine ou à un système de détecter, de raisonner, d'agir ou de
s'adapter comme un humain
Le ML est une application d'IA qui permet aux machines d'extraire des connaissances à partir de données et d'en tirer
des enseignements de manière autonome.

Pour se souvenir de la différence entre le machine learning et l'intelligence artificielle, il est utile de les imaginer comme
des catégories générales. L'intelligence artificielle est le terme global qui couvre une grande variété d'approches et
d'algorithmes spécifiques. Le machine learning se situe dans cette catégorie, tout comme d'autres sous-domaines
majeurs, tels que le deep learning, la robotique, les systèmes experts et le traitement du langage naturel.
Zoom sur le Machine Learning

Le machine learning est un sous-ensemble de l'intelligence artificielle qui permet à une machine ou à un système
d'apprendre et de s'améliorer automatiquement. Au lieu d'une programmation explicite, le machine learning utilise des
algorithmes pour analyser de grandes quantités de données, tirer des enseignements de ces informations, puis prendre des
décisions éclairées.

Les algorithmes de machine learning améliorent les performances au fil du temps à mesure qu'ils sont entraînés. Ils sont
donc exposés à davantage de données. Les modèles de machine learning sont le résultat, ou ce que le programme apprend
lorsqu'il exécute un algorithme sur les données d'entraînement. Plus vous utilisez de données, plus le modèle est
performant.

En d’autres termes, l'apprentissage automatique peut être défini comme la capacité d'une machine à améliorer ses
performances sur une tâche donnée au fil du temps. Cette amélioration se produit grâce à l'apprentissage à partir de
données.
ML en résumé

Le ML permet à une machine d'apprendre de manière autonome à


partir de données passées
L'objectif est de créer des machines capables d'exploiter les données
pour améliorer la précision du résultat.
Nous entraînons des machines avec des données à exécuter des
tâches spécifiques et à obtenir des résultats précis
Le champ d'application des applications de machine learning est
limité
Le ML génère des modèles prédictifs à l'aide d'algorithmes d'auto-
apprentissage
Le ML ne peut utiliser que des données structurées et semi-
structurées
Les systèmes de ML s'appuient sur des modèles statistiques pour
apprendre et peuvent corriger automatiquement les nouvelles
données
Différenciez modélisation statistique et modélisation prédictive

Imaginons que vous soyez responsable des données d'une plateforme de contenu en ligne dont le business model repose
sur le nombre d'abonnements souscrits. On vous pose 2 questions :
Quel est le profil des utilisateurs qui s'abonnent ?
Comment prédire si un nouvel utilisateur va s'abonner ?

Dans les 2 cas, on cherche à en savoir plus sur l'acte d'abonnement d'un utilisateur. Cependant, ces questions imposent
deux approches différentes :
La modélisation statistique.
La modélisation prédictive.
Différenciez modélisation statistique et modélisation prédictive

La modélisation statistique
La première question (“Quel est le profil des utilisateurs qui s’abonnent ?”) est relative au profil. Avec cette question, on
cherche à comprendre l'acte d'abonnement en fonction des caractéristiques des utilisateurs.

On est dans une démarche d'analyse et d'interprétation de la dynamique entre les variables. La modélisation statistique
s'appuie sur des tests d'hypothèses et des modèles mathématiques pour évaluer les conclusions de l'analyse.

La modélisation prédictive
La seconde question (“Comment prédire si un nouvel utilisateur va s’abonner ?”) est relative à la prédiction. Avec cette
question, on ne cherche qu'à prédire l'acte d'abonnement le plus efficacement possible. C'est l'approche Machine Learning.

On attend 2 choses du modèle prédictif issu d'une approche Machine Learning :


1. Des prédictions de qualité, soit un bon score que l'on va calculer grâce à une métrique choisie au préalable.
2. Sa capacité à extrapoler : soit à généraliser ses prédictions à partir des données d'entraînement. On parle de robustesse du
modèle face à de nouveaux échantillons.

Dans ce contexte, la performance des prédictions est centrale et on ne cherche pas à expliquer la logique conduisant à une prédiction donnée.
On assimile en quelque sorte le modèle à une boîte noire / black box, son fonctionnement interne étant jugé trop complexe pour être
interprétable par un humain.
Différenciez modélisation statistique et modélisation prédictive

Pour résumé

Modélisation prédictive
Modélisation statistique
(= Machine Learning)

Objectif Expliquer, analyser Prédire

Focus Fiabilité des conclusions : tests Performance, résilience et robustesse


d'hypothèses et intervalles de confiance du modèle

Une partie des échantillons est réservée


Utilisation des données
Tous les échantillons à l'évaluation des performances du
modèle
TYPES D'APPRENTISSAGE
Les différentes approches de machine learning

En Machine Learning, il faut distinguer :

1. L'approche supervisée (supervised learning).

2. L'approche non supervisée (unsupervised learning).

3. L’approche semi-supervisée (semi-supervised learning).

4. L’approche par renforcement (reinforcement Learning)


Les différentes approches de machine learning
Apprentissage supervisé
Dans l'apprentissage supervisé, l'algorithme d'apprentissage est fourni avec un ensemble de données d'apprentissage
étiquetées, qui sont des exemples de données avec les résultats souhaités. L'algorithme utilise ces données pour apprendre à
associer des entrées à des sorties.

Il existe deux principaux types d'apprentissage supervisé :


Classification : l'objectif est de prédire la catégorie d'une entrée donnée. Par exemple, un algorithme de classification
peut être utilisé pour prédire si un email est un spam ou non.
Régression : l'objectif est de prédire une valeur continue pour une entrée donnée. Par exemple, un algorithme de
régression peut être utilisé pour prédire le prix d'une maison en fonction de ses caractéristiques.
Les différentes approches de machine learning
Apprentissage non-supervisé

Dans l'apprentissage non supervisé, l'algorithme d'apprentissage n'est pas


fourni avec des données étiquetées. L'algorithme doit donc trouver lui-
même les modèles dans les données.

Il existe deux principaux types d'apprentissage non supervisé :


Clustering : l'objectif est de regrouper les données en groupes
homogènes. Par exemple, un algorithme de clustering peut être utilisé
pour trouver les différents groupes de clients d'une entreprise.

Réduction de dimensionnalité : l'objectif est de réduire la quantité de


données en éliminant les informations redondantes. Par exemple, un
algorithme de réduction de dimensionnalité peut être utilisé pour
compresser des images.
Les différentes approches de machine learning
Approche semi-supervisée
Cette approche combine des éléments des deux méthodes précédentes, utilisant à la fois des données étiquetées et non
étiquetées pour l'entraînement. Cela est utile lorsque l'étiquetage des données est coûteux ou difficile.

L'algorithme d'apprentissage utilise les données étiquetées pour apprendre à associer des entrées à des sorties, et utilise les
données non étiquetées pour améliorer ses performances.
Voici quelques exemples d'applications de l'apprentissage semi-supervisé : détection d'anomalies, segmentation d'images,
recommandation de produits, ...
Les différentes approches de machine learning
Apprentissage par renforcement

Le Reinforcement Learning désigne l’ensemble des méthodes qui permettent


à un agent d’apprendre à choisir quelle action prendre, et ceci de manière
autonome.

Dans l'apprentissage en renforcement, l'algorithme apprend par essais et


erreurs. L'algorithme reçoit une récompense ou une pénalité pour chaque
action qu'il effectue, et il utilise ces informations pour apprendre à prendre
les meilleures décisions.
Ce type d'apprentissage implique un agent (souvent une intelligence
artificielle) qui interagit avec un environnement. L'agent apprend en
effectuant des actions et en recevant des récompenses ou des pénalités en
fonction de ses actions.

L'apprentissage en renforcement est souvent utilisé dans les domaines de la


robotique (voiture autonome, système de contrôle adaptatif efficace) et de
la finance (activités de trading et d’investissement en capitaux propres), la
santé, ...
En résumé

En résumé, le Machine Learning supervisé nécessite des données étiquetées pour entraîner le modèle à prédire des valeurs
spécifiques d'une variable donnée, tandis que le Machine Learning non supervisé cherche à trouver des structures ou des
groupements inhérents aux données.
En résumé

Supervised Learning Unsupervised Learning Semi-supervised Learning Reinforcement Learning

Unlabeled dataFocus on finding Build a model through a mix of Focus on making decisions based
Data has knows labels/outputs
patterns and gaining insight from labeled & unlabeled dataIt stands on previous experiencemaking
the data between Supervised & decisions sequentially
Example Algorithms:
unsupervised learning
Linear Regression
Example Algorithms: Example Algorihms:
Support Vector Machines (SVM)
K-means clustering Example Algorithms: Model free RL (Q-learning, policy
Decision TreeStochastic
Gaussian mixture models Generative adversarial networks optimization)
Gradient Descent
Vector quantization Self training classifier Model-based RL (learn/given)
Ensemble methods
Matrix factorization problems (PCA,
Nearest Neighbors
ICA, LDA)
Neural network models
Novelty & Outlier detection

Use cases: Use cases: Use cases: Use cases:


sales
forecasting Customer segmentation Medical predictions Game AI
risk assessment Word associations Audio & video manipulation Self driving cars
image classification Searcher intent Natural language preprocessing text summarization
Insurance underwriting Recommender systems question answering
Fraud detection Predictive maintenance robotics manipulation
En quoi consiste le
Machine Learning ?
Généralités: importance des données pour le ML

La fonction prédictive du Machine Learning est polymorphe. Autrement dit, selon les besoins elle s'appelle “classification”,
“supervision”, “détection”, “proposition”, “ranking”, “prévision”... mais à la base il y a toujours un but de prédiction.
Nous profitons de cette profusion de modèles prédictifs au quotidien :
proposition de contenu sur les plateformes ;
prévention et surveillance globale ;
évaluation des risques ;
IA générative ;
optimisation des chaînes de production et de ventes ;
détection des anomalies ;
prévisions temporelles, etc.

Dans ce cours nous allons travailler sur le Machine Learning dit classique. Le ML classique se nourrit de jeux de données
tabulaires, c’est-à-dire que l'on peut exprimer sous forme de tableau. Un tel jeu de données peut prendre la forme d'un
simple fichier CSV, Excel ou JSON, ou être directement extrait d'une base de données (SQL, NoSQL).

On laisse les données plus lourdes (de type audio, images, vidéo) et l'IA générative au deep learning.
À la base du Machine Learning se trouve le jeu de données (ou dataset, en anglais). L'apprentissage se nourrit de données.
Sans données, pas de Machine Learning !
2. Le travail sur la donnée

Tout commence par un travail de transformation des données brutes pour les rendre compatibles avec le modèle de ML
choisi : nettoyage, normalisation, numérisation, etc. On parle de nettoyage des données ou data cleaning.

Exemples : données manquantes (la moitié des tailles manquent), données erronées (une personne a 200 ans ou un poid est
négatif), ou normalisation nécessaire (prix de vente de maison en centaines de milliers vs nombre de mètres carrés en
centaines), format et accessibilité des données : 200 fichiers Excel à combiner, fichiers trop lourds, pas compatibles, etc.
2. Validation croisée

Comme on veut obtenir un modèle qui soit capable de bien performer sur des données qu'il n'a pas déjà rencontrées lors de
son entraînement, on veut éviter que le modèle ne soit évalué sur les échantillons d'entraînement.
On va donc découper le dataset en 2 parties :
1. Une partie des échantillons sont réservés à l'entraînement du modèle. Par convention, on appelle cette partie train, pour
“entraînement”.
2. L'autre partie est mise de côté pour évaluer la performance du modèle sur des données qu'il n'a pas vues. Par convention,
on appelle cette partie test.
On considère habituellement un ratio entre train et test de 80 / 20 %.
On va d'ailleurs répéter ce découpage plusieurs fois et de façon aléatoire pour s'assurer que le modèle performe dans tous les
cas de répartition train / test. Cette méthode s'appelle la validation croisée (nous reviendrons dessus de façon plus
approfondie).
3. Optimisation

En parallèle, on va chercher à améliorer la performance du modèle en modifiant ses paramètres et en observant son score sur
chaque version train / test du dataset. Chaque type de modèle a sa propre famille de paramètres qui dépend des librairies
utilisées. C'est à force de travailler sur ces paramètres que l'on développe un véritable savoir-faire de data scientist.
EXEMPLES D’APPLICATION
Cas d'utilisation du machine learning

Voici quelques-unes des applications les plus courantes de l'IA et du ML:

Automatisation des processus Optimisation des ventes Service client


par la robotique (RPA) Les données client peuvent entraîner des Les exemples de machine learning incluent les
L'application RPA associée au machine learning algorithmes de machine learning pour chatbots et les assistants virtuels automatisés
crée une automatisation intelligente et capable l'analyse des sentiments des clients, l'analyse permettant d'automatiser les tâches courantes
d'automatiser des tâches complexes, telles que le des prévisions de ventes et les prédictions de du service client et d'accélérer la résolution
traitement d'applications de prêts hypothécaires. perte de clients. des problèmes.

Sécurité Marketing numérique Prévention des fraudes


Le machine learning permet aux entreprises Le machine learning permet aux Le machine learning permet aux entreprises de
d'améliorer leurs capacités d'analyse des responsables marketing d'identifier de cartes de crédit et aux banques d'examiner de
menaces et de mieux répondre aux nouveaux clients et de proposer les bons grandes quantités de données
cyberattaques, aux pirates informatiques et supports marketing aux bonnes personnes, transactionnelles pour identifier les activités
aux logiciels malveillants. au bon moment. suspectes en temps réel.
Cas d'utilisation du machine learning

Les entreprises de tous les secteurs utilisent l'IA et le ML de différentes manières pour transformer leurs méthodes de travail et de commerce.

Santé et sciences de la vie Industrie E-commerce


Insights et analyse des dossiers médicaux des Surveillance des machines de production, Optimisation de l'inventaire et de la chaîne
patients, prévision et modélisation des résultats, maintenance prédictive, analyses IoT et d'approvisionnement, prévision de la
accélération du développement de médicaments, efficacité opérationnelle. demande, recherche visuelle, offres et
diagnostics accrus, surveillance des patients et expériences personnalisées et moteurs de
extraction d'informations à partir de notes recommandations.
cliniques.

Services financiers Télécommunications Reconnaissance vocale


Évaluation et analyse des risques, détection Réseaux intelligents et optimisation des le machine learning est utilisé pour
des fraudes, échange automatisé et réseaux, maintenance prédictive, comprendre le langage parlé, pour traduire
optimisation du traitement des services. automatisation des processus métier, des langues, pour identifier des objets ou des
planification des mises à niveau et personnes dans des images...
prévisions de la capacité.
Avantages et danges du machine learning

Voici un aperçu des principaux avantages et des inconvénients potentiels de l'apprentissage automatique :

Avantages Dangers

Diminution des coûts opérationnels: L'IA et le machine learning Licenciements: à mesure que certains emplois sont automatisés,
peuvent aider les entreprises à automatiser certains de leurs les travailleurs du domaine concerné seront probablement
emplois, entraînant une diminution des coûts opérationnels confrontés à des licenciements qui pourraient les obliger à changer
globaux de carrière ou à risquer l

Amélioration de l'efficacité opérationnelle et de la précision: Les


Absence d'élément humain: Les modèles qui sont chargés
modèles de machine learning sont capables d'effectuer certaines
d'effectuer une tâche très restreinte peuvent également manquer
tâches étroites avec une efficacité et une précision extrêmes, ce
de nombreux aspects "humains" du travail qui sont importants
qui garantit que certaines tâches sont accomplies à un niveau
pour eux, mais qui pourraient être négligés par les développeurs.
élevé et dans les délais impartis

Une meilleure compréhension: L'apprentissage automatique


Préjugés enracinés (biais): Tout comme les humains qui les créent,
permet d'identifier rapidement des tendances et des modèles
les modèles d'apprentissage automatique peuvent présenter des
dans de grandes quantités de données, ce qui prendrait
biais en raison des ensembles de données parfois biaisés sur
beaucoup de temps à l'homme. Ces informations peuvent
lesquels ils sont formés. Une confiance aveugle dans les systèmes
apporter aux entreprises, aux chercheurs et à la société dans son
d'IA sans compréhension de leurs limites peut entraîner une
ensemble de nouvelles connaissances susceptibles de les aider à
dépendance excessive et une perte de compétences humaines.
atteindre leurs objectifs généraux.
Éthique et Considérations :

Quelques-unes des principales préoccupations éthiques liées à l'apprentissage automatique sont les suivantes:

1. Biais: Les algorithmes d'apprentissage automatique sont formés sur des données, et ces données peuvent refléter les
biais existants dans la société. Cela peut conduire à des systèmes d'apprentissage automatique qui sont
discriminatoires ou biaisés.
2. Confidentialité: Les données utilisées pour former des modèles d'apprentissage automatique peuvent être sensibles. Il
est important de protéger la confidentialité de ces données et de s'assurer qu'elles ne sont utilisées que pour les fins
prévues.
3. Responsabilité: Qui est responsable des décisions prises par les systèmes d'apprentissage automatique ? Les
développeurs de ces systèmes, les utilisateurs de ces systèmes ou les deux ? Il est important de clarifier la
responsabilité des décisions prises par les systèmes d'apprentissage automatique.
Éthique et Considérations :

Voici quelques-unes des considérations importantes à prendre en compte lors de l'utilisation de l'apprentissage
automatique:

La qualité des données: La qualité des données utilisées pour former les modèles d'apprentissage automatique est
essentielle pour la précision et la fiabilité de ces modèles. Il est important de s'assurer que les données sont complètes,
cohérentes et représentatives de la population cible.
La transparence: Il est important que les utilisateurs puissent comprendre comment fonctionnent les modèles
d'apprentissage automatique et comment ils prennent leurs décisions. La transparence permet aux utilisateurs de faire
des choix éclairés quant à l'utilisation de ces modèles.
L'explicabilité: Il est important que les utilisateurs puissent comprendre pourquoi les modèles d'apprentissage
automatique prennent les décisions qu'ils prennent. L'explicabilité permet aux utilisateurs de faire confiance aux
décisions prises par ces modèles.
Perspectives Futures et Tendances :

1. Intelligence artificielle éthique : L'accent est mis sur le développement d'algorithmes et de modèles d'IA plus
transparents, justes et éthiques pour éviter les biais et assurer la responsabilité sociale.
2. Apprentissage fédéré et sécurisé : Le développement de techniques permettant l'apprentissage sur des données
distribuées sans compromettre la confidentialité des données individuelles.
3. Développement de l'IA générique : L'objectif est de créer des modèles d'IA capables d'effectuer plusieurs tâches
différentes plutôt que d'être spécialisés dans une tâche spécifique (ChatGPT, bard, ClaudeAI, ...).
4. IA évolutive et auto-apprenante : L'évolution vers des systèmes autonomes capables de s'adapter, d'apprendre et de
s'améliorer continuellement à partir de nouvelles données sans intervention humaine constante.
5. Combinaison de l'IA avec d'autres technologies : L'association de l'IA avec des domaines tels que l'Internet des
objets (IoT), la robotique avancée et la réalité augmentée pour créer des solutions plus avancées et intégrées.
6. IA dans la médecine et les soins de santé : Utilisation croissante de l'IA pour la recherche médicale, le diagnostic, la
personnalisation des traitements et la gestion des dossiers de santé.
7. IA pour la durabilité : L'application de l'IA pour résoudre des problèmes environnementaux et améliorer l'efficacité
dans des secteurs tels que l'énergie, la gestion des déchets et l'agriculture durable.
8. IA dans l'éducation et la formation : Utilisation de l'IA pour des plateformes d'apprentissage personnalisé, des
tuteurs virtuels et des outils éducatifs interactifs.
Fonctionnement du
Machine Learning
En quoi consiste le Machine Learning ?
Le but du ML est donc d'entraîner un modèle prédictif à partir d'un jeu de données.

Mais en pratique, comment cela se passe-t-il ?


Quand on parle de jeux de données, pensez à une feuille de type Google Spreadsheet ou tableur Excel. Les variables sont les
colonnes, et les échantillons sont les lignes.

On distingue la variable cible, sujet de la prédiction, des autres variables potentiellement prédictrices.

Par exemple, prenons un jeu de données comprenant l'âge, la taille et le poids d'une centaine de collégiens. Si on souhaite
prédire le poids des enfants en fonction de leur taille et de leur âge, la variable cible sera le poids et les variables prédictrices
seront l'âge et la taille.
Importance des données pour le ML
Grâce au machine learning, les entreprises entraînent les données à apprendre au système comment résoudre le problème à
l'aide d'algorithmes de ML et comment s'améliorer avec le temps.

La fonction prédictive du Machine Learning est polymorphe. Autrement dit, selon les besoins elle s'appelle “classification”,
“supervision”, “détection”, “proposition”, “ranking”, “prévision”... mais à la base il y a toujours un but de prédiction.
Nous profitons de cette profusion de modèles prédictifs au quotidien :
proposition de contenu sur les plateformes ;
prévention et surveillance globale ;
évaluation des risques ;
IA générative ;
optimisation des chaînes de production et de ventes ;
prévisions temporelles, etc.

Dans ce cours nous allons travailler sur le Machine Learning dit classique. Le ML classique se nourrit de jeux de données
tabulaires, c’est-à-dire que l'on peut exprimer sous forme de tableau. Un tel jeu de données peut prendre la forme d'un
simple fichier CSV, Excel ou JSON, ou être directement extrait d'une base de données (SQL, NoSQL).

On laisse les données plus lourdes (de type audio, images, vidéo) et l'IA générative au deep learning.
À la base du Machine Learning se trouve le jeu de données (ou dataset, en anglais). L'apprentissage se nourrit de données.
Sans données, pas de Machine Learning !
Passez d’une problématique business à la mise en production

Un projet de Data Science a 3 grandes phases :


1. Définition.
2. Prototypage.
3. Production.

Phase 1 – Définir les spécifications à partir de la problématique business


Cette phase a pour but de traduire une problématique business, un besoin ou un
produit en projet Machine Learning. De façon très générique, il faut au minimum :
des données, qui soient pertinentes ;
un sujet ou un produit qui soit proprement défini ;
et montrer qu'il y a un net avantage à exploiter l'approche prédictive plutôt
qu'une solution plus simple.

En effet, une suite de règles peut apporter une solution plus simple et parfois
d'efficacité comparable pour classer ou prédire une quantité. En anglais, on
parle de rule based solution.
Passez d’une problématique business à la mise en production

Un projet de Machine Learning est une chose complexe. Avant de se lancer, il


faut pouvoir calculer le gain réellement apporté par une telle démarche
Machine Learning. Cela nécessite de réaliser en premier lieu une étude de
benchmark. Cette étude permet aussi de poser certaines questions importantes.
Comment définir le succès du projet ?
Comment mesurer la performance du système ?
Quelle métrique utiliser pour le scoring du modèle ?
Quel score sera-t-il nécessaire d'obtenir pour réaliser les objectifs du projet ?

Phase 2 – Concevoir le prototype et valider la faisabilité du projet


Une fois fixées une version du jeu de données et une indication de benchmark de
performance à dépasser, le but de l'étape de Machine Learning est d'obtenir un
modèle qui soit :
performant : bon score vis-à-vis de la métrique choisie ;
et robuste : stable face à de nouvelles données.

En fonction du contexte, on pourra privilégier un modèle moins performant


mais plus résilient face aux variabilités des données, à un modèle plus
performant mais plus sensible aux variations.
Passez d’une problématique business à la mise en production

Les étapes de Machine Learning vont constituer en une série


d'itérations des étapes suivantes :
étape 1 : mettre en forme des données (ou feature engineering en
anglais) :
nettoyer les données, c’est-à-dire résoudre les outliers
(données aberrantes, en français) et les données manquantes,
créer de nouvelles variables à partir de variables existantes,
feature engineering, (prendre le carré ou le long d'un prix),
numériser les données catégoriques, textuelles ou images
pour qu'elles soient ingérables par un modèle ;
étape 2 : choisir le type de modèle: GLM, Tree, NN ou autre ;
étape 3 : répartir les données avec une partie réservée pour
l'entraînement et l'autre pour la validation ;
étape 4 : optimiser les paramètres du modèle.
Passez d’une problématique business à la mise en production

Phase 3 – Mettre en production le projet


Le modèle une fois optimisé a vocation à être intégré dans le produit final : on
parle de mise en production. C'est alors le travail des MLOps et des DevOps qui
vont prendre en charge la mise en production dans le cloud ainsi que la
surveillance des modèles.

“MLOps” est la contraction de ML (Machine Learning) et de DevOps


(développement et opérations). Le rôle du MLOps consiste à opérationnaliser les
modèles de ML en production.
Pour bien comprendre l'importance de cette étape, pensez à la mise en
production de centaines voire de milliers de modèles en parallèle, qui doivent
être automatiquement :
mis à jour ;
(ré)entraînés ;
déployés ;
surveillés.
Cycle de vie d’un projet ML
En résumé
Un projet de Data Science a 3 grandes phases :
conception, modélisation et production.

Définir un benchmark en préalable du projet permet de


valider le retour sur investissement de l'approche Machine
Learning comparée à une approche plus simple et plus
directe.

Un bon modèle prédictif offre de bonnes performances


face à des données qu'il n'a pas rencontrées lors de son
entraînement. Il sait extrapoler.

Il faut régulièrement ré-entraîner un modèle pour qu'il


s'adapte aux évolutions naturelles des données.

Le MLOps est un rôle clé qui a pour responsabilité de


mettre les modèles en production et de les surveiller.
Trouvez des jeux de données
Avant de nous attacher à améliorer la qualité ou transformer un jeu de données, regardons où l'on peut trouver des jeux de données.

En 2018, Google lance son moteur de recherche dédié aux jeux de données : Dataset Search.
Kaggle, la plateforme de compétition de Machine Learning, offre aussi de nombreux datasets.
Nous avons les sites dédiés au ML comme UCI.
Les sites institutionnels ont souvent une politique d'open source. On citera les portails de Paris, Londres, ou celui de Rome ainsi
que celui des institutions européennes.
Les agences scientifiques, ONG et agents nationaux : ADEME, EdF, WWF et GBIF sur la biodiversité.
BigQuery, un service de big data de Google Cloud met à disposition gratuitement des datasets extrêmement intéressants et de
grand volume.
Enfin, les librairies elles-mêmes :
scikit-learn met à disposition des datasets simples (toy dataset) ou plus complexes (real world) ;
ainsi que statsmodels et le package R Datasets.

Vous avez donc le choix pour vous familiariser avec des types de données et des tâches variées de Machine Learning.
Réduisez l'influence des préjugés dans les
prédictions du modèle
'IA est maintenant présente dans tous les secteurs. Il nous faut nous assurer que les modèles que nous construisons ne sont pas
biaisés.
Un modèle biaisé est un modèle dont les prédictions sont systématiquement distordues. Avec comme conséquence directe un risque
de décisions qui sont systématiquement inéquitables ou inexactes.

La première cause de biais est le fait d'un mauvais échantillonnage des données d'entraînement. Par exemple, si un sondage
d'opinion n'interroge que les utilisateurs d'iPhone, les résultats ne reflètent sûrement pas l'opinion de toute la population.

Plus concrètement…
En ressources humaines, quand les données historiques d'entraînement contiennent plus d'hommes que de femmes pour un
poste donné (ou vice versa), un modèle de présélection de candidats aura tendance à favoriser les profils d'hommes pour ce
poste. D'ou une discrimination avérée bien qu'involontaire.
Dans le cadre de la sécurité bancaire, un modèle entraîné principalement sur des fraudes en ligne sera incapable de détecter
d'autres types de fraude (en personne ou internes).

Néanmoins le biais n'est pas toujours dû à une sous-représentation d'une catégorie d'événement.

Pour atténuer le biais, il faut donc s'assurer de l'exhaustivité des valeurs des variables prédictrices ou cibles, et mettre en place des
stratégies de remédiation.
Les outils ML
Quelques exemples d’outils ML pour la création,
l’entrainement et le déploiement de modèles
Les outils ML
Quelques exemples d’outils (python & cloud ) pour la
création, l'entraînement et le déploiement de
modèles d'IA.
Ressources
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
[Link]
gad_source=1&gclid=CjwKCAiAqNSsBhAvEiwAn_tmxTq4e7TOHTQ6ykgAO5i3isM9cLYaToZIo4FlFJj-
mYhi57qG01NYkxoC25AQAvD_BwE
[Link]
utm_medium=sem&utm_source=gg&utm_campaign=B2C_EMEA__coursera_FTCOF_career-academy_pmax-multiple-
audiences-country-multi-
set2&campaignid=20882109092&adgroupid=&device=c&keyword=&matchtype=&network=x&devicemodel=&adposition=
&creativeid=&hide_mobile_promo&gclid=CjwKCAiAqNSsBhAvEiwAn_tmxXWPlBlsOFSPtXhPjpvHzcCbg35kZgPeAAo23UePdK
uKmiplpcu0rxoCfucQAvD_BwE

Vous aimerez peut-être aussi