L’ANALYSE DES DONNÉES
1. Définition
L’analyse de données est un processus consistant à rechercher, décrire et interpréter des régularités
dans des ensembles de données. Elle vise à faire le lien entre les données statistiques et les décisions
à prendre. Elle se base sur des techniques d’analyse statistique et peut se distinguer de l’analyse
exploratoire des données. L’analyse des données est un domaine en constante évolution qui consiste
à extraire des informations utiles à partir de grandes quantités de données.
2. Les sources de données
Les données peuvent être structurées ou non-structurées, elle peuvent provenir de sources variées
telles que les médias sociaux, les transactions commerciales, les capteurs IoT, etc. Les entreprises
utilisent l ‘analyse de données pour prendre des décisions plus éclairées et pour améliorer leur
efficacité opérationnelle.
3. Les types d’analyse de données
Il existe différents types d’analyse de données. Voici les méthodes et techniques les plus
couramment utilisées.
L’analyse de texte permet de découvrir des tendances dans de larges ensembles de données
textuelles. On utilise des outils de data mining, permettant de transformer les données brutes en
informations stratégiques.
L’analyse statistique consiste à utiliser les données du passé pour comprendre le présent, sous
forme de tableaux de bord. Cette pratique regroupe la collecte, l’analyse, la présentation et la
modélisation des données.
On distingue l’analyse descriptive de l’analyse inférentielle. L’analyse descriptive consiste à
analyser des données numériques. L’analyse inférentielle consiste à analyser des échantillons de
données pour en tirer différentes conclusions.
L’analyse diagnostique, ou diagnostic analysis, consiste quant à elle à comprendre les causes d’un
événement découvert grâce à l’analyse statistique. Elle permet notamment d’identifier des motifs de
comportement dans les données afin de résoudre des problèmes similaires.
L’analyse prédictive permet quant à elle de déterminer les événements probables, de prédire le
futur grâce aux données du passé ou du présent. Ces données sont utilisées pour prédire les
probabilités futures. La fiabilité de ces prédictions dépend de la quantité d’informations à
disposition, de leur exactitude et de l’ampleur de leur exploration.
L’analyse prescriptive consiste quant à elle à combiner toutes les informations obtenues à partir
des précédentes analyses pour déterminer quelles mesures prendre pour résoudre un problème ou
prendre une décision.
De nombreuses entreprises « data-driven » utilisent l’analyse prescriptive, car l’analyse
prédictive ou descriptive n’est pas suffisamment performante. Il s’agit d’analyser les données en
se basant sur la situation présente.
4. Les étapes de l ‘analyse de données
Le processus d’analyse de données consiste à collecter des données brutes (raw data) à l’aide
d’un outil ou d’une application pour explorer ces informations et découvrir des tendances. Il est
ensuite possible de se baser sur les résultats de ces analyses pour prendre de meilleures décisions.
Ce processus peut être décomposé en plusieurs phases.
La première étape est la collecte de données, en provenance d’une ou plusieurs sources. Les
données peuvent être collectées à partir des sources internes et externes à l’entreprise. Pour choisir
quelles données capturer, il est important de se fixer des objectifs à atteindre grâce à l’analyse de
données.
Les données sont ensuite nettoyées et converties dans un format approprié pour l’analyse. Sans
prendre cette précaution, les données risquent d’être inutiles ou inutilisables. Le data set doit être
nettoyé pour éliminer les doublons, et les informations corrompues ou erronées. Cela implique
souvent la suppression des valeurs manquantes, la normalisation des données et la transformation
des données en un format adapté à l’analyse. Une fois les données préparées, l’analyse peut
commencer.
L’étape suivante est celle de l’analyse de données. On utilise divers outils et techniques pour
découvrir des tendances et des informations pertinentes dans les données brutes. Au cours de cette
étape, il est possible de s’apercevoir que davantage de données seront nécessaires. Il sera donc
nécessaire de revenir à la première phase.
Enfin, la dernière étape consiste à générer des rapports et des visualisations sous forme de
diagrammes ou de graphiques afin de pouvoir les partager avec les différentes équipes de
l’entreprise. En effet, de telles visualisations sont plus facilement comprises et interprétées par le
cerveau humain que de simples successions de chiffres…
L’ EXPLORATION DES DONNÉES
1. Définition
L'exploration de données est une technique assistée par ordinateur utilisée en analyse pour traiter et
explorer de grands ensembles de données. Grâce aux outils et méthodes d'exploration de données,
les organisations peuvent découvrir des tendances et des relations cachées dans leurs données.
L'exploration des données transforme les données brutes en connaissances pratiques. Les
entreprises utilisent ces connaissances pour résoudre des problèmes, analyser l'impact futur des
décisions commerciales, et augmenter leurs marges bénéficiaires. « Exploration des données » est
mal choisi car l'objectif de l'exploration de données n'est pas d'extraire ou d'exploiter les données
elles-mêmes. Au lieu de cela, une grande quantité de données est déjà présente, et l'exploration de
données en extrait le sens ou des connaissances précieuses. L'exploration de données est une
branche de l'analyse de données ou une stratégie d'analyse utilisée pour trouver des modèles cachés
ou précédemment inconnus dans les données.
2. Les phases de l’exploration des données.
Grâce aux phases flexibles de CRISP-DM, les équipes chargées des données peuvent passer d'une
étape à l'autre selon les besoins. En outre, les technologies logicielles peuvent effectuer certaines de
ces tâches ou les soutenir.
i. Compréhension de l'activité
Le data scientist ou data miner commence par identifier les objectifs et la portée du projet. Ils
collaborent avec les parties prenantes de l'entreprise pour identifier certaines informations.
Problèmes devant être résolus
Contraintes ou limitations du projet
L'impact commercial des solutions potentielles
Ils utilisent ensuite ces informations pour définir les objectifs de l'exploration de données et
identifier les ressources nécessaires à la découverte de connaissances.
ii. Compréhension des données
Une fois qu'ils ont compris le problème de l'entreprise, les scientifiques des données commencent
l'analyse préliminaire des données. Ils rassemblent des ensembles de données provenant de diverses
sources, obtiennent les droits d'accès et préparent un rapport de description des données. Le rapport
comprend les types de données, la quantité, ainsi que les exigences en matière de matériel et de
logiciel pour le traitement des données. Une fois que l'entreprise a approuvé son plan, elle
commence à explorer et à vérifier les données. Ils manipulent les données à l'aide de techniques
statistiques de base, évaluent la qualité des données et choisissent un ensemble de données final
pour l'étape suivante.
iii. Préparation des données
Les mineurs de données consacrent le plus de temps à cette phase, car les logiciels d'extraction de
données nécessitent des données de haute qualité. Les processus métier collectent et stockent des
données pour d'autres raisons que l'extraction, et les mineurs de données doivent les affiner avant de
les utiliser pour la modélisation. La préparation des données implique les processus suivants.
- Nettoyer les données
Par exemple, gérer les données manquantes, les erreurs de données, les valeurs par défaut et les
corrections de données.
- Intégrer les données
Par exemple, combiner deux ensembles de données disparates pour obtenir l'ensemble de données
cible final.
- Formater les données
Par exemple, convertir les types de données ou configurer les données pour la technologie minière
spécifique utilisée.
iv. Modélisation des données
Les mineurs de données introduisent les données préparées dans le logiciel d'extraction de données
et étudient les résultats. Pour ce faire, ils peuvent choisir parmi plusieurs techniques et outils
d'exploration de données. Ils doivent également passer des tests pour évaluer la qualité des résultats
de l'exploration des données. Pour modéliser les données, les data scientists peuvent :
Former les modèles de machine learning (ML) sur des ensembles de données plus petits
avec des résultats connus.
Utiliser le modèle pour analyser plus avant des ensembles de données inconnues
Ajuster et reconfigurer le logiciel d'exploration de données jusqu'à ce que les résultats soient
satisfaisants.
v. Evaluation
Après avoir créé les modèles, les mineurs de données commencent à les mesurer par rapport aux
objectifs commerciaux initiaux. Ils partagent les résultats avec les analystes commerciaux et
recueillent les réactions. Le modèle peut répondre correctement à la question initiale ou présenter
des modèles nouveaux et inconnus jusqu'alors. Les mineurs de données peuvent modifier le modèle,
ajuster l'objectif commercial ou réexaminer les données, en fonction du retour d'information de
l'entreprise. L'évaluation, le retour d'information et la modification continus font partie du processus
de découverte des connaissances.
vi. Déploiement
Pendant le déploiement, d'autres parties prenantes utilisent le modèle de travail pour générer des
renseignements commerciaux. Le spécialiste des données planifie le processus de déploiement, qui
comprend l'enseignement des fonctions du modèle, la surveillance continue et la maintenance de
l'application d'exploration de données. Les analystes commerciaux utilisent l'application pour créer
des rapports destinés à la direction, partager les résultats avec les clients et améliorer les processus
commerciaux.
3. Les techniques de l'exploration des données
Les techniques d'exploration de données font appel à divers domaines d'apprentissage qui se
recoupent, notamment l'analyse statistique, le machine learning et les mathématiques. Quelques
exemples ci-dessous.
Exploration des règles d'association
L'extraction de règles d'association est le processus qui consiste à trouver des relations entre deux
ensembles de données différents, apparemment sans rapport. Les énoncés « si-alors » démontrent la
probabilité d'une relation entre deux points de données. Les scientifiques des données mesurent la
précision des résultats à l'aide de critères de soutien et de confiance. La prise en charge mesure la
fréquence d'apparition des éléments liés dans l'ensemble de données, tandis que la confiance
indique le nombre de fois où une déclaration de type "si-alors" est exacte.
Par exemple, lorsque les clients achètent un article, ils achètent aussi souvent un deuxième article
lié. Les vendeurs peuvent utiliser l'exploration d'associations sur les données d'achats antérieurs
pour identifier l'intérêt d'un nouveau client. Ils utilisent les résultats de l'exploration des données
pour alimenter les sections recommandées des magasins en ligne.
Classification
La classification est une technique complexe d'exploration de données qui entraîne l'algorithme ML
à trier les données en catégories distinctes. Elle utilise des méthodes statistiques telles que les arbres
de décision et les plus proches voisins pour identifier la catégorie. Dans toutes ces méthodes,
l'algorithme est préprogrammé avec des classifications de données connues pour deviner le type
d'un nouvel élément de données.
Par exemple, les analystes peuvent entraîner le logiciel d'exploration de données en utilisant des
images étiquetées de pommes et de mangues. Avec une certaine précision, le logiciel peut alors
prédire si une nouvelle image est une pomme, une mangue ou un autre fruit.
Clustering
Le clustering consiste à regrouper plusieurs points de données en fonction de leurs similitudes. Il est
différent de la classification car il ne peut pas distinguer les données par catégorie spécifique mais
peut trouver des modèles dans leurs similarités. Le résultat de l'exploration de données est un
ensemble de clusters où chaque collection est distincte des autres groupes, mais où les objets de
chaque cluster sont similaires d'une certaine manière.
Par exemple, l'analyse cluster peut être utile pour les études de marché lorsqu'on travaille avec des
données multivariées provenant d'enquêtes. Les spécialistes des études de marché utilisent l'analyse
cluster pour diviser les consommateurs en segments de marché et mieux comprendre les relations
entre les différents groupes.
Analyse des séquences et des chemins
Les logiciels d'exploration de données peuvent également rechercher des schémas dans lesquels un
ensemble particulier d'événements ou de valeurs conduit à des événements ultérieurs. Il peut
reconnaître une variation dans les données qui se produit à intervalles réguliers ou dans le flux et le
reflux des points de données au fil du temps.
Par exemple, une entreprise peut utiliser l'analyse de cheminement pour découvrir que les ventes de
certains produits augmentent juste avant les fêtes ou pour remarquer que le temps plus chaud attire
davantage de personnes sur son site web.
4. Les types d'explorations de données
Selon les données et l'objectif de l'extraction, l'exploration de données peut avoir plusieurs branches
ou spécialisations. Examinons-en quelques-uns :
L'exploration de processus
L'exploration de processus est une branche de l'exploration de données qui vise à découvrir,
surveiller et améliorer les processus d'entreprise. Il extrait des connaissances à partir des journaux
d'événements disponibles dans les systèmes d'information. Il aide les organisations à voir et à
comprendre ce qui se passe dans ces processus au jour le jour.
Par exemple, les entreprises de commerce électronique ont de nombreux processus, comme
l'approvisionnement, les ventes, les paiements, le recouvrement et l'expédition. En consultant les
journaux de données sur les achats, ils peuvent constater que la fiabilité des livraisons de leurs
fournisseurs est de 54 % ou que 12 % des fournisseurs livrent systématiquement en avance. Ils
peuvent utiliser ces informations pour optimiser leurs relations avec les fournisseurs.
Exploration de texte
L'exploration de texte ou l'exploration de données textuelles consiste à utiliser un logiciel
d'exploration de données pour lire et comprendre un texte. Les spécialistes des données utilisent
l'exploration de texte pour automatiser la découverte de connaissances dans des ressources écrites
telles que des sites web, des livres, des courriels, des critiques et des articles.
Par exemple, une entreprise de médias numériques pourrait utiliser l'exploration de texte pour lire
automatiquement les commentaires sur ses vidéos en ligne et classer les avis du public comme
positifs ou négatifs.
Exploration prédictive
L'exploration prédictive des données utilise l'intelligence économique pour prédire les tendances. Il
aide les chefs d'entreprise à étudier l'impact de leurs décisions sur l'avenir de l'entreprise et à faire
des choix efficaces.
Par exemple, une entreprise peut examiner les données relatives aux retours de produits antérieurs
pour concevoir un système de garantie qui n'entraîne pas de pertes. En utilisant l'exploration
prédictive, ils prévoient le nombre potentiel de retours dans l'année à venir et créent un plan de
garantie d'un an qui tient compte de la perte lors de la détermination du prix du produit
LE DATA MINING
1. Définition
Le Data Mining ou forage de données consiste à analyser de vastes volumes de données pour
découvrir des tendances et des corrélations. Afin de résoudre leurs problèmes et de découvrir de
nouvelles opportunités, les entreprises de tous les secteurs analysent de vastes volumes de données.
Les data scientists et autres analystes sont chargés de chercher de précieuses informations au sein de
larges bases de données.
Or, ce processus s’apparente au forage d’une montagne en quête de minerais rares. Dans ces deux
situations, il est question d’explorer un vaste volume de matériau pour trouver une valeur cachée.
C’est la raison pour laquelle on parle de Data Mining, ou forage de données.
Le Data Mining permet de répondre à des questions et de résoudre des problèmes qui prennent
traditionnellement trop de temps et sont bien trop complexes. Pour y parvenir, on analyse les
données en utilisant différentes techniques statistiques.
Ce processus permet d’identifier des tendances, des relations entre les données qui seraient passées
inaperçues de prime abord. Les découvertes ainsi réalisées peuvent être utilisées pour prédire les
événements les plus probables et agir en fonction.
Le Data Mining combine plusieurs branches de l’informatique et de l’analyse de données. L’une de
ses caractéristiques principales est l’automatisation, par le biais du machine learning ou d’outils de
bases de données, afin d’accélérer le processus analytique et de découvrir des informations
pertinentes plus rapidement.
2. Les étapes et méthodes du data mining
Les étapes et méthodes du Data Mining
Le processus de Data Mining se décompose en plusieurs étapes. Tout commence par la capture et
le stockage des données.
Par la suite, les données sont triées selon leurs catégories. On procède ensuite à l’analyse afin de
découvrir des tendances ou des corrélations.
Plusieurs méthodes analytiques peuvent être utilisées. L’analyse en cluster consiste à rechercher
des tendances et des motifs récurrents dans des groupes de données. La technique de régression
permet de prédire les résultats les plus probables à partir de variables connues.
La détection d’anomalie a pour but de détecter des phénomènes inhabituels dans un ensemble de
données. Le forage de « patterns » séquentielles, quant à lui, vise à découvrir les connexions et les
dépendances entre les données.
3. Les techniques couramment utilisées en data mining.
Les techniques de fouille de données mises en place lors d’un projet de Data Mining proviennent
de l’Intelligence artificielle et des statistiques elles-mêmes. Ce sont des algorithmes qui sont
appliqués sur un ensemble des données d’une source (ex : data wharehouse) dans le but d’améliorer
la qualité des données et d’en obtenir des résultats.
Réseaux neuronaux
C’est un paradigme d’apprentissage et de traitement automatisé qui s’inspire du fonctionnement
du système nerveux humain. Ce système permet aux neurones d’être interconnectés dans un
réseau (réseau neuronal) qui collabore pour produire des stimuli de sortie.
Arbres de décision
C’est un modèle de prédiction qui est utilisé dans le domaine de l’Intelligence artificielle à partir
d’une base de données où sont construits des diagrammes de constructions logiques. Il s’agit d’un
système similaire à la prédiction basée sur des règles. Celles-ci servent à la représentation d’une
série de conditions qui se présentent successivement dans la résolution des problèmes.
Techniques statistiques
C’est une expression symbolique sous forme d’égalité qui est utilisée dans les plans
expérimentaux et la régression. Elle permet d’identifier les facteurs qui modifient la variable.
Regroupement (clustering)
Il s’agit du regroupement d’une série de vecteurs selon certains critères, dont le plus considéré est la
distance. Il s’agit d’agencer les vecteurs d’entrée de manière à ce qu’ils soient plus proches de ceux
ayant des caractéristiques communes.
LE MACHINE LEARNING
1. Définition
Le Machine Learning ou apprentissage automatique est un domaine scientifique, et plus
particulièrement une sous-catégorie de l’intelligence artificielle. Elle consiste à laisser des
algorithmes découvrir des » patterns « , à savoir des motifs récurrents, dans les ensembles de
données. Ces données peuvent être des chiffres, des mots, des images, des statistiques…Tout ce qui
peut être stocké numériquement peut servir de données pour le Machine Learning. En décelant les
patterns dans ces données, les algorithmes apprennent et améliorent leurs performances dans
l’exécution d’une tâche spé[Link] résumer, les algorithmes de Machine Learning
apprennent de manière autonome à effectuer une tâche ou à réaliser des prédictions à partir de
données et améliorent leurs performances au fil du temps. Une fois entraîné, l’algorithme pourra
retrouver les patterns dans de nouvelles données
2. Étapes de fonctionnement du Machine Learning.
Le développement d’un modèle de Machine Learning repose sur quatre étapes principales. En règle
générale, c’est un data scientist qui gère et supervise ce procédé.
La première étape consiste à sélectionner et à préparer un ensemble de données d’entraînement.
Ces données seront utilisées pour nourrir le modèle de Machine Learning pour apprendre à résoudre
le problème pour lequel il est conçu.
Les données peuvent être étiquetées, afin d’indiquer au modèle les caractéristiques qu’il devra
identifier. Elles peuvent aussi être non étiquetées, et le modèle devra repérer et extraire les
caractéristiques récurrentes de lui-même.
Dans les deux cas, les données doivent être soigneusement préparées, organisées et nettoyées. Dans
le cas contraire, l’entraînement du modèle de Machine Learning risque d’être biaisé. Les
résultats de ses futures prédictions seront directement impactés.
La deuxième étape consiste à sélectionner un algorithme à exécuter sur l’ensemble de données
d’entraînement. Le type d’algorithme à utiliser dépend du type et du volume de données
d’entraînement et du type de problème à résoudre.
La troisième étape est l’entraînement de l’algorithme. Il s’agit d’un processus itératif. Des
variables sont exécutées à travers l’algorithme, et les résultats sont comparés avec ceux qu’il aurait
du produire. Les « poids » et le biais peuvent ensuite être ajustés pour accroître la précision du
résultat.
On exécute ensuite de nouveau les variables jusqu’à ce que l’algorithme produise le résultat
correct la plupart du temps. L’algorithme, ainsi entraîné, est le modèle de Machine Learning.
La quatrième et dernière étape est l’utilisation et l’amélioration du modèle. On utilise le modèle
sur de nouvelles données, dont la provenance dépend du problème à ré[Link] exemple, un
modèle de Machine Learning conçu pour détecter les spams sera utilisé sur des emails.
De son côté, le modèle de Machine Learning d’un aspirateur robot ingère des données résultant de
l’interaction avec le monde réel comme le déplacement de meubles ou l’ajout de nouveaux objets
dans la pièce. L’efficacité et la précision peuvent également s’accroître au fil du temps.
3. Les principaux algorithmes de Machine Learning
Il existe une large variété d’algorithmes de Machine Learning. Certains sont toutefois plus
couramment utilisés que d’autres. Tout d’abord, différents algorithmes sont utilisés pour les
données étiquetées.
Les algorithmes de régression, linéaire ou logistique, permettent de comprendre les relations
entre les données. La régression linéaire est utilisée pour prédire la valeur d’une variable
dépendante basée sur la valeur d’une variable indépendante. Il s’agirait par exemple de prédire
les ventes annuelles d’un commercial en fonction de son niveau d’études ou de son expérience.
La régression logistique est quant à elle utilisée quand les variables dépendantes sont binaires.
Un autre type d’algorithme de régression appelé machine à vecteur de support est pertinent quand
les variables dépendantes sont plus difficiles à classifier.
Un autre algorithme ML populaire est l’arbre de décision. Cet algorithme permet d’établir des
recommandations basées sur un ensemble de règles de décisions en se basant sur des données
classifiées. Par exemple, il est possible de recommander sur quelle équipe de football parier en se
basant sur des données telles que l’âge des joueurs ou le pourcentage de victoire de l’équipe.
Pour les données non étiquetées, on utilise souvent les algorithmes de clustering. Cette méthode
consiste à identifier les groupes présentant des enregistrements similaires et à étiqueter ces
enregistrements en fonction du groupe auquel ils appartiennent.
Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi les algorithmes de clustering,
on compte les K-moyennes, le TwoStep ou encore le Kohonen.
Les algorithmes d’association permettent quant à eux de découvrir des patterns et des relations
dans les données, et à identifier les relations « si / alors » appelées « règles d’association » . Ces
règles sont similaires à celles utilisées dans le domaine du Data Mining ou forage de données.
Enfin, les réseaux de neurones sont des algorithmes se présentant sous la forme d’un réseau à
plusieurs couches. La première couche permet l’ingestion des données, une ou plusieurs couches
cachées tirent des conclusions à partir des données ingérées, et la dernière couche assigne une
probabilité à chaque conclusion.
Un réseau de neurones « profond » est composé de multiples couches cachées permettant
chacune de raffiner les résultats de la précédente. On l’utilise dans le domaine du Deep Learning.
4. Le Deep Learning
Le Deep Learning est une branche du Machine Learning, mais il s’agit aujourd’hui de la plus
couramment utilisée. Pour faire simple, le Deep Learning est une version améliorée du Machine
Learning.
L’apprentissage profond utilise une technique lui conférant une aptitude supérieure à
détecter les patterns même les plus subtiles. Cette technique est appelée réseau de neurones
profond. Cette profondeur correspond au large nombre de couches de noeuds de calcul qui
constituent ces réseaux et travaillent en collaboration pour traiter les données et délivrer des
prédictions.
Ces réseaux de neurones s’inspirent directement du fonctionnement du cerveau humain. Les
noeuds de calcul sont comparables aux neurones, et le réseau en lui-même s’apparente au cerveau.
5. Les differents types de Machine Learning
On distingue trois techniques de Machine Learning : l’apprentissage supervisé, l’apprentissage
non-supervisé, et l’apprentissage par renforcement. Dans le cas de l’apprentissage supervisé, le
plus courant, les données sont étiquetées afin d’indiquer à la machine quelles patterns elle doit
rechercher.
Le système s’entraîne sur un ensemble de données étiquetées, avec les informations qu’il est
censé déterminer. Les données peuvent même être déjà classifiées de la manière dont le système est
supposé le faire.
Cette méthode nécessite moins de données d’entraînement que les autres, et facilite le processus
d’entraînement puisque les résultats du modèle peuvent être comparés avec les données déjà
étiquetées. Cependant, l’étiquetage des données peut se révéler onéreux. Un modèle peut aussi être
biaisé à cause des données d’entraînement, ce qui impactera ses performances par la suite lors du
traitement de nouvelles données.
Au contraire, dans le cas de l’apprentissage non supervisé, les données n’ont pas d’étiquettes. La
machine se contente d’explorer les données à la recherche d’éventuelles patterns. Elle ingère de
vastes quantités de données, et utilise des algorithmes pour en extraire des caractéristiques
pertinentes requises pour étiqueter, trier et classifier les données en temps réel sans intervention
humaine.
Plutôt que d’automatiser les décisions et les prédictions, cette approche permet d’identifier les
patterns et les relations que les humains risquent de ne pas identifier dans les données. Cette
technique n’est pas très populaire, car moins simple à appliquer. Elle est toutefois de plus en plus
populaire dans le domaine de la cybersécurité.
L’apprentissage » semi-supervisé « se situe entre les deux et offre un compromis entre
apprentissage supervisé et non-supervisé. Pendant l’entraînement, un ensemble de données étiqueté
de moindre envergure est utilisé pour guider la classification et l’extraction de caractéristiques à
partir d’un ensemble plus large de données non étiquetées.
Cette approche s’avère utile dans les situations où le nombre de données étiquetées est insuffisant
pour l’entraînement d’un algorithme supervisé. Elle permet de contourner le problème.
Enfin, l’apprentissage par renforcement consiste à laisser un algorithme apprendre de ses erreurs
pour atteindre un objectif. L’algorithme essayera de nombreuses approches différentes pour tenter
d’atteindre son but.
En fonction de ses performances, il sera récompensé ou pénalisé pour l’inciter à poursuivre dans
une voie ou à changer d’approche. Cette technique est notamment utilisée pour permettre à une IA
de surpasser les humains dans les jeux.
Par exemple, AlphaGo de Google a battu le champion de Go grâce à l’apprentissage par
renforcement. De même, OpenAI a entraîné une IA capable de vaincre les meilleurs joueurs du jeu
vidéo Dota 2.
5. Machine Learning et analyse de données
Le Machine Learning est massivement utilisé pour la data science et l’analyse de données. Il
permet de développer, de tester et d’appliquer des algorithmes d’analyse prédictive sur différents
types de données afin de prédire le futur.
En automatisant le développement de modèle analytique, le Machine Learning permet d’accélérer
l’analyse de données et de la rendre plus précise. Il permet d’assigner aux machines des tâches au
cœur de l’analyse de données comme la classification, le clustering ou la détection d’anomalie.
Les algorithmes ingèrent les données et délivrent des inférences statistiques, et peuvent s’améliorer
de manière autonome au fil du temps. Lorsqu’ils détectent un changement dans les données, ils sont
capables de prendre des décisions sans intervention humaine.
Pour l’heure, un humain reste toutefois nécessaire pour passer en revue les résultats des analyses
produites par les algorithmes de Machine Learning. Son rôle est de donner du sens à ces résultats,
ou encore de s’assurer que les données traitées par l’algorithme ne soient ni biaisées ni altérées.