Q1) Quels sont les principaux facteurs ayant permis les avancées récentes en intelligence artificielle, et quelles en
sont les conséquences en termes d'applications ?
Les progrès en matériel informatique, l'abondance de données et les
améliorations des algorithmes ont conduit à des performances remarquables en
intelligence artificielle, mettant en lumière ses promesses et ses applications
potentielles.
Q2) Qu'est-ce que la régression polynomiale et dans quel cas est-elle plus appropriée que la régression linéaire
simple ?
La régression polynomiale est une technique de régression où la relation entre
la variable indépendante et la variable dépendante est approximée par un polynôme
de degré n. Elle est particulièrement utile lorsque les données présentent une
relation non linéaire.
Q3) Expliquez le compromis biais-variance dans le contexte de l’apprentissage automatique. Quels sont les risques
associés à un biais ou à une variance trop élevés ?
Le compromis biais-variance se réfère à l'équilibre délicat entre la précision d'un modèle
et sa capacité à généraliser à de nouvelles données. Un modèle avec un biais élevé est
trop simpliste (sous-ajusté), tandis qu'un modèle avec une variance élevée est trop
complexe (sur-ajusté).
Q4) Pourquoi l'accuracy (précision globale) peut-elle être une métrique trompeuse dans le cas de jeux de données
déséquilibrés ?
Non, l'accuracy peut être trompeuse lorsqu'elle est utilisée avec des données
déséquilibrées. Par exemple, un modèle peut afficher une haute accuracy en
prédisant systématiquement la classe majoritaire, mais il pourrait échouer à
identifier correctement les classes minoritaires.
Q5) En quoi le MAE (Mean Absolute Error) diffère-t-il du MSE et du RMSE, notamment en ce qui concerne les
valeurs aberrantes ?
Effectivement, le MAE (Mean Absolute Error) est moins sensible aux valeurs
aberrantes par rapport au MSE (Mean Squared Error) ou au RMSE (Root Mean
Squared Error). Cela est dû au fait que le MAE calcule la moyenne des valeurs
absolues des écarts entre les prédictions et les valeurs réelles, ce qui réduit l'impact
des grandes erreurs individuelles sur la métrique globale.
Q6) Pourquoi la sélection des caractéristiques (feature selection) est-elle importante dans les modèles
d’apprentissage, et quelles sont les méthodes courantes pour la réaliser ?
La sélection des caractéristiques est cruciale pour améliorer la performance des
modèles, réduire la complexité et prévenir le surajustement. Les principales
catégories incluent les méthodes filtrantes (Filter Methods), les méthodes
intégrées (Embedded Methods) et les méthodes d'enveloppement (Wrapper
Methods).
Q7) Expliquez le principe de la validation croisée K-fold et son intérêt dans l’évaluation de modèles en machine
learning.
La validation croisée K-fold divise les données en K sous-ensembles. Le
modèle est entraîné sur K-1 sous-ensembles et testé sur le sous-ensemble restant
à chaque itération. Ce processus est répété K fois, chaque sous-ensemble étant
utilisé comme ensemble de test exactement une fois. La performance moyenne
obtenue offre une estimation fiable de la capacité de généralisation du modèle.
Q8) Comment fonctionne l’algorithme des K plus proches voisins (KNN) pour la classification, et quelles sont les
mesures de distance les plus souvent utilisées ?
Le KNN (K-Nearest Neighbors) classe une donnée en se basant sur les classes
majoritaires parmi ses K voisins les plus proches. La proximité est souvent
mesurée par la distance euclidienne ou d'autres mesures de distance appropriées
dans l'espace des caractéristiques.
Q9) Comparez les approches One-vs-One et One-vs-Rest pour la classification multi-classes. Dans quel cas l’une
pourrait être préférable à l’autre ?
One-vs-One (un contre un) : Chaque paire de classes est comparée à l'aide
d'un classifieur binaire distinct. Si on a N classes, N(N-1)/2 classifieurs sont
construits. La classe qui remporte le plus grand nombre de duels (prédictions
positives) est choisie comme prédiction finale.
One-vs-Rest (un contre tous) : Un classifieur binaire est entraîné pour chaque
classe individuellement afin de la distinguer de toutes les autres classes regroupées
ensemble. La classe dont le classifieur donne le score le plus élevé est choisie
comme prédiction finale pour une observation donnée.
Q10)
A/ Quelles sont les différences entre Narrow AI, General AI et Super AI en termes de capacités et de champs
d’application ?
Narrow AI : Une intelligence artificielle spécialisée dans l'exécution d'une seule
tâche ou un ensemble limité de tâches spécifiques.
General AI : Une intelligence artificielle capable de comprendre, apprendre et
appliquer des connaissances dans une variété de domaines et de tâches, de
manière similaire à l'intelligence humaine générale.
Super AI : Une intelligence artificielle qui dépasse l'intelligence humaine dans
tous les aspects et domaines possibles, souvent envisagée comme une forme d'IA
très avancée et hypothétique.
B/ Quelle est la différence fondamentale entre l’apprentissage automatique (Machine Learning) et la programmation
traditionnelle ?
Machine Learning : L'ordinateur apprend à partir des données en améliorant ses
performances sans nécessiter une programmation explicite pour chaque tâche.
Programmation générale : Les développeurs écrivent des instructions
spécifiques pour chaque tâche afin de définir le comportement attendu de
l'ordinateur.
C/ Quelle est la fonction du coût dans un modèle d’apprentissage automatique, et quel est le rôle de la descente de
gradient ?
Fonction du coût : Évalue l'erreur du modèle en quantifiant la différence entre
les prédictions et les valeurs réelles.
Descente de gradient : Algorithme utilisé pour minimiser la fonction du coût
en ajustant itérativement les paramètres du modèle afin d'optimiser les
prédictions.
D/ Quelles sont les différences entre les modèles paramétriques et non-paramétriques en machine learning ?
Paramétrique : Suppose une forme spécifique pour la relation entre les
variables, par exemple une forme linéaire, et utilise un nombre fixe de paramètres
pour caractériser cette relation.
Non-paramétrique : Ne fait pas de supposition préalable sur la forme
fonctionnelle de la relation entre les variables et peut donc utiliser un nombre
variable de paramètres pour s'adapter aux données.
E/ Comment distingue-t-on un problème de classification multi-classe d’un problème de classification multi-label ?
Multi-label : Une situation où une instance de données peut être associée
à plusieurs étiquettes de classe simultanément. Par exemple, une image peut être
étiquetée avec plusieurs objets différents qu'elle contient.
Multi-class : Chaque instance de données est assignée à une seule classe parmi
un ensemble de classes possibles. Par exemple, dans un problème de classification
de texte en langues, chaque texte est classé comme appartenant à une seule langue
parmi plusieurs disponibles.
F/ Quelles sont les différences entre l’erreur de généralisation et l’erreur de test dans l’évaluation des modèles ?
Erreur de généralisation : C'est l'erreur que fait le modèle sur des données qu'il
n'a jamais vues auparavant, c'est-à-dire sur des données de validation ou de test
qui ne sont pas utilisées pendant l'entraînement.
Erreur de test : C'est l'erreur mesurée sur un ensemble de données distinct,
appelé ensemble de test, qui est réservé spécifiquement pour évaluer la
performance finale du modèle après qu'il a été entraîné sur l'ensemble d'
entraînement et validé sur l'ensemble de validation.
G/ Définissez un "high leverage point" et une "observation influente" dans le contexte des modèles statistiques. En
quoi peuvent-ils impacter les résultats ?
High leverage point : Il s'agit d'une observation ayant des valeurs extrêmes pour
les prédicteurs, pouvant potentiellement influencer l'ajustement global du modèle
statistique. Ces points peuvent exercer une traction significative sur la ligne
de régression ou sur la courbe ajustée.
Observation influente : Une observation est dite influente si sa suppression ou
modification entraîne un changement substantiel dans les résultats de l'ajustement
du modèle. Cela peut se traduire par une variation notable dans les paramètres du
modèle ou dans ses prédictions.
H/ Comparez les méthodes d’agrégation Bagging et Boosting en apprentissage ensembliste. Quels sont leurs
principes et leurs différences principales ?
Bagging (Bootstrap Aggregating) : Technique qui consiste à entraîner
plusieurs modèles sur des sous-ensembles aléatoires de données (échantillonnés
avec remplacement) et à combiner leurs prédictions pour améliorer la stabilité et
la précision globale du modèle. Chaque modèle individuel peut être entraîné de
manière parallèle, ce qui réduit le risque de surajustement en moyennant les
prédictions.
Boosting : Méthode d'apprentissage ensembliste où plusieurs modèles sont entraînés séquentiellement.
Chaque modèle successif se concentre sur les erreurs faites par les modèles précédents, en mettant plus de
poids sur les observations mal prédites. Cela permet d'améliorer progressivement la performance globale du
Soit un modèle de classification multi-classes appliqué à trois classes A, B et C. Les métriques
suivantes sont obtenues :
modèle. `
Classe A : TP = 2, FP = 1, FN = 1
Classe B : TP = 1, FP = 3, FN = 0
Exercice 3: Classe C : TP = 3, FP = 0, FN = 3
Classe A: Calculez pour chaque classe la précision, le rappel, le score F1, ainsi que la moyenne macro
(macro average) du F1-score global.
Precision = TPa / (TPa + FPa) = 2 / (2 + 0 + 1) = 2/3
Rappel = TPa / (TPa + FNa) = 2 / (2 + 1 + 0) = 2/3
F1.a = 2 * (2/3 * 2/3) / (2/3 + 2/3) = 2/3
Classe B:
Precision = TPb / (TPb + FPb) = 1 / (1 + 1 + 2) = 1/4
Rappel = TPb / (TPb + FNb) = 1 / (0 + 1 + 0) = 1
F1.b = 2 * (1/4 * 1) / (1/4 + 1) = 2/5
Classe C:
Precision = TPc / (TPc + FPc) = 3 / (0 + 0 + 3) = 1
Rappel = TPc / (TPc + FNc) = 3 / (1 + 2 + 3) = 1/2
F1.c = 2 * (1 * 1/2) / (1 + 1/2) = 2/3
Macro Average F1 = (F1.a + F1.b + F1.c) / 3 = (2/3 + 2/5 + 2/3) / 3 = 26/45