0% ont trouvé ce document utile (0 vote)
40 vues8 pages

Article 1

Cette étude propose un modèle hybride LSTM-XGBoost pour prédire la production journalière de fer à béton aux Aciéries du Cameroun, face aux défis de variabilité opérationnelle. Les résultats montrent une performance élevée avec un R² de 0,99, un RMSE de 0,40 et un MAE de 0,36, soulignant l'efficacité de l'approche. Ce modèle vise à améliorer l'automatisation, la maintenance prédictive et l'utilisation des ressources énergétiques dans le secteur sidérurgique.

Transféré par

ndzanamichel03
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
40 vues8 pages

Article 1

Cette étude propose un modèle hybride LSTM-XGBoost pour prédire la production journalière de fer à béton aux Aciéries du Cameroun, face aux défis de variabilité opérationnelle. Les résultats montrent une performance élevée avec un R² de 0,99, un RMSE de 0,40 et un MAE de 0,36, soulignant l'efficacité de l'approche. Ce modèle vise à améliorer l'automatisation, la maintenance prédictive et l'utilisation des ressources énergétiques dans le secteur sidérurgique.

Transféré par

ndzanamichel03
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Ngaoundéré – École de Géologie et d’Exploitation Minière (EGEM)

Machine Learning

APPLICATION D’UN MODELE HYBRIDE LSTM-XGBoost POUR LA


PREDICTION DE LA PRODUCTION INDUSTRIELLE : CAS DU FER A BETON
DES ACIERIES DU CAMEROUN

Résumé
La prévision de la production industrielle constitue un enjeu crucial pour le développement
durable des infrastructures et la compétitivité des entreprises sidérurgiques. Dans un contexte
marqué par des fluctuations énergétiques, des interruptions techniques et des incertitudes
économiques, c’est ainsi que les Aciéries du Cameroun font face à d’importants défis dans
l’optimisation de leurs opérations. Cette étude propose une approche hybride combinant les
réseaux de neurones à mémoire longue (LSTM) et l’algorithme d’ensemble XGBoost afin de
modéliser la production journalière du fer à béton dans un environnement caractérisé par une
forte variabilité opérationnelle. Ce modèle hybride vise à capter à la fois les dépendances
temporelles et les interactions non linéaires entre variables. Les données, collectées sur une
période de quatre-vingt-neuf jours, incluent des variables clés telles que la température, la
pression de l’eau, la consommation énergétique et la résistance mécanique… Après un
prétraitement rigoureux et une optimisation des hyperparamètres par Grid Search, le modèle
LSTM a été utilisé pour capter les dépendances temporelles tandis que l’algorithme XGBoost
a permis de corriger les erreurs résiduelles du réseau afin d’obtenir une prédiction plus fine. Les
résultats obtenus montrent une performance remarquable avec un coefficient de détermination
R² de 0,99 ; un RMSE de 0,40 et un MAE de 0,36 ; confirmant la performance du modèle
hybride. Cette recherche ouvre la voie à une automatisation accrue, à une maintenance
prédictive plus efficace et à une utilisation rationnelle des ressources énergétiques, tout en
s’inscrivant dans la perspective d’une modernisation progressive d’une sidérurgie nationale et
de la construction d’une intelligence industrielle africaine fondée sur les données et la
durabilité.

Mots clés : LSTM, XGBoost, approche hybride, prévision.

1. Introduction
Le fer à béton demeure l’un des piliers essentiels du développement des infrastructures
modernes (Investir au Cameroun, 2018). En tant que matière première stratégique, il soutient
la croissance urbaine et la construction industrielle, jouant ainsi un rôle structurant dans les
économies émergentes. Au Cameroun, la sidérurgie, portée principalement par les Aciéries du
Cameroun, s’impose comme un acteur majeur dans la transformation du métal et la satisfaction
des besoins nationaux en matériaux de construction (World Bank, 2015). Dans ce contexte, la
prévision précise de la production industrielle constitue un levier de performance
incontournable. Elle permet d’anticiper les fluctuations, d’optimiser les ressources et de
planifier la maintenance (Mazibuko et al., 2025). Cependant, la nature non linéaire et hautement
dynamique des procédés sidérurgiques rend les modèles statistiques classiques, comme les
modèles ARIMA ou de régression linéaire (RL) ; inadéquats pour décrire la complexité des
interactions entre variables (Zhang et al.,2003). L’émergence des technologies d’intelligence
artificielle (IA) offre une réponse à ces limites. Les réseaux de neurones profonds, notamment
les modèles à mémoire longue de type LSTM (Long Short-Term Memory), sont capables de
capturer les dépendances séquentielles à long terme et d’extraire des motifs complexes à partir
de séries temporelles industrielles (Hochreiter et al., 1997). De leur côté, les algorithmes
d’ensemble, tels que XGBoost (eXtreme Gradient Boosting), permettent de combiner
efficacement plusieurs modèles faibles pour améliorer la précision prédictive tout en maitrisant
le surapprentissage. L’hybridation de ces deux approches LSTM-XGBoost constitue une voie
prometteuse, capable d’exploiter simultanément les avantages de la modélisation temporelle et
de l’optimisation structurelle (Semmelmann et al., 2022).
Des publications, dans le temps ont évalué et validé l'approche hybride LSTM–XGBoost
pour des tâches industrielles proches de notre problématique (Fan et al., 2025). Les travaux
basés sur le modèle XGBoost de Chen et Guestrin (2016), ont montré une performance
supérieure sur les nombreuses compétitions de Machine Learning avec une grande efficacité et
une précision sur la gestion des données manquantes. Atamnia Ahmed Hamza (2022-2023), a
travaillé sur la détection et la classification des défauts de surface des bandes en acier par les
méthodes de Deep Learning (réseaux de neurones convolutifs. Les résultats incluent une bonne
performance avec un bon taux de classification des défauts comme ceux de Semmelmann et al.
(2022) qui ont développé un modèle Bi-directionnel LSTM–XGBoost pour la prévision de
charge journalière dans des communautés énergétiques, montrant de meilleures performances
sur la prédiction des pics de charge que des modèles seuls LSTM ou XGBoost ; cela a permis
d'améliorer la précision des prévisions et l'estimation de l'incertitude. Fernandez et Chen (2023)
ont appliqué ce modèle dans le suivi des procédés industriels, démontrant une réduction des
erreurs de prédiction de plus de 20%. Les travaux sur l’implémentation d’un modèle hybride
LSTM-XGBoost pour la prédiction des prix du pétrole de Zhang et al., (2023) révèlent une
amélioration notable des indicateurs de performance tels que le MAE et le RMSE avec une
capacité à gérer des données complexes et non linéaires applicable aux marchés financiers et
énergétiques. De même, Zhou et al., (2023) ont combiné le modèle LSTM et XGBoost pour
l’optimisation des prédictions des charges énergétiques montrant ainsi une amélioration
significative de la précision de la prévision par rapport aux modèles traditionnels avec une
réduction des erreurs de prédictions et une intégration efficace de diverses sources de données
applicables aux communautés énergétiques intelligentes. De plus, la prévision en temps réel
des débits printaniers dans des conditions changeantes, y compris en période de sécheresse, est
rendue possible grâce à la capacité des modèles d'apprentissage automatique à intégrer
simultanément plusieurs variables environnementales et climatiques (Zhang et al., 2024). Kim
et al., (2024) ont opté pour une combinaison d’un auto-encodeur LSTM et d’un modèle
XGBoost pour la prédiction de la consommation d’énergie dans une usine. Les résultats ont
montré une amélioration de la précision de la prédiction avec une capacité à capturer les
relations non linéaires complexes applicable à la gestion énergétiques industrielles. Reenu
Batra et al., (2024) utilisent les réseaux de neurones LSTM et les méthodes d’ensemble
supervisé basé sur des arbres de décision GBM, démontrant ainsi une excellente précision
prédictive grâce à la combinaison des forces de LSTM et GBM, utilisable en temps réel et
applicable à divers types de bâtiments. D’autres travaux combinent LSTM et XGBoost pour
des applications industrielles variées : Fan et al. (2024) appliquent une variante optimisée
XGBoost–LSTM pour l’évaluation de crédit dans le secteur bancaire (méthodologie
transposable pour la gestion du risque industriel) ; proposent un mécanisme de fusion
probabiliste dynamique entre XGBoost et LSTM pour l’assemblage de prévisions multi-source.
Zhou et al., (2024) ils ont utilisé des transformateurs de fusion temporelle (TFT) en conjonction
avec une décomposition de mode empirique d'ensemble sélective à deux étapes interprétables,
ce qui a fourni une meilleure interprétabilité et de meilleures performances pour la prédiction
en plusieurs étapes. En 2025, ils proposent un mécanisme de fusion probabiliste dynamique
entre XGBoost et LSTM pour l’assemblage de prévisions multi-source. Des publications, dans
le temps ont évalué et validé l'approche hybride LSTM–XGBoost pour des tâches industrielles
proches de notre problématique. Des études récentes appliquent le principe hybride à la gestion
énergétique industrielle : Mazibuko et al. (2025) présentent un modèle hybride LSTM–
XGBoost pour la prévision de consommation électrique à l’échelle nationale et industrielle avec
des gains de précision significatifs. Le modèle hybride de Xiao Mei Liu, (2025), sur la prévision
des sources karstiques, après avoir testé plusieurs modèles classiques, obtient en combinant
LSTM-XGBoost un R² de 0,8798 ; Variance expliquée (EV) de 0,8857 ; MAE de 0,3355 ;
RMSE de 0,5795 et une MAPE 21,84 %. Des revues et articles systématiques confirment que
l’intégration de modèles séquentiels (LSTM) avec des modèles d’ensemble (XGBoost,
LightGBM) améliore la robustesse et la capacité de généralisation sur des séries industrielles
(consommation énergétique, charge des réseaux, température d’équipements…). Ces
approches montrent notamment une réduction du RMSE et du MAE par rapport aux modèles
individuels. Cependant, peu de travaux ont porté sur son application dans le contexte africain,
notamment au sein des industries sidérurgiques où les fluctuations énergétiques, la vétusté des
équipements et le manque de données constituent des défis supplémentaires (Mazibuko et al.,
2025). Dans cette étude, nous proposons un modèle hybride LSTM-XGBoost appliqué aux
Aciéries du Cameroun pour prédire la production journalière de fer à béton. L’objectif est
double : d’une part, évaluer la performance de ce modèle dans un environnement industriel réel
soumis à des perturbations fréquentes ; d’autres part, identifier les variables critiques
influençant la stabilité de la production. Le travail vise ainsi à fournir un outil d’aide à la
décision pour la gestion des opérations, la planification énergétique et la maintenance
prédictive.
2. Méthodologie
La méthodologie adoptée vise à construire un modèle hybride robuste permettant de prédire
la production journalière de fer à béton. Elle se décline en plusieurs étapes.
a. Description du système industriel étudié
Les Aciéries du Cameroun constituent l’un des principaux acteurs nationaux de la
transformation de la ferraille en produits sidérurgiques longs, notamment les barres de fer à
béton utilisées dans les travaux publics et le génie civil. Le processus industriel repose sur une
succession d’étapes fortement énergivores et sensibles aux variations opérationnelles. La
chaine de production étudiée comprend principalement :
➢ La préparation et le tri des matières premières (ferrailles ou billettes selon les cycles) ;
➢ La fusion dans un four électrique ;
➢ Le laminage à chaud ;
➢ Le refroidissement et la mise en barres ;
➢ Le stockage et l’expédition.
Le système industriel étudié est donc hautement dynamique, caractérisé par des variations
non linéaires de la production quotidiennes, des arrêts imprévus liés à la maintenance, des
perturbations énergétiques fréquentes. Ces facteurs sont souvent difficiles à modéliser par des
approches classiques. Cette complexité justifie le recours à un modèle hybride LSTM-
XGBoost, capable à la fois de modéliser la dépendance temporelle et d’intégrer des variables
hétérogènes influençant la production.
b. Du type des données
Les données collectées auprès des Aciéries couvrent une période de quatre-vingt-neuf (89)
jours et comprennent entre autres :
➢ La production journalière (tonnes) ;
➢ La consommation électrique ;
➢ La température du four ;
➢ Le temps d’arrêts (maintenance, incidents) … Ces données ont été réorganisées sous
formes de séries temporelles multivariées, où chaque variable constitue une entrée du
modèle.
c. Préparation des données
Les opérations suivantes ont été menées : le traitement des valeurs manquantes (remplissage
par médiane), la normalisation MinMax pour stabiliser l’apprentissage du LSTM, une création
de fenêtres temporelle de n jours pour prédire n+1, la séparation en ensembles d’entrainement
(70%) et de test (30%) et enfin une analyse explicative pour identifier les variables les plus
explicatives.
d. Architecture des modèles
➢ Modèle LSTM : ce modèle est utilisé pour capturer les dépendances temporelles à long
terme dans les séries chronologiques, conformément aux recommandations de la
littérature (Hochreteir & Schimidhuber, 1997 ; Qin et al., 2017). L’architecture adoptée
comprend :
• Couche LSTM : responsable de l’apprentissage séquentiel ;
• Couche Dropout, destinée à réduire la surapprentissage (Srivastava et al.,
2014) ;
• Couche Dense, assurant la prédiction finale ;
• Sortie temporelle 𝑟𝑡 , représentant l’état caché du modèle au temps 𝑡.
Cette structure permet au modèle de capturer à la fois les relations a court terme et les
dynamiques temporelles complexes propres aux données énergétiques.
➢ Modèle XGBoost : après génération des prédictions LSTM, les résidus (écarts entre les
valeurs réelles et les prédictions du LSTM) sont calculés :
𝑟𝑡 = 𝑦𝑡 − ŷ𝑡 𝑙𝑠𝑡𝑚 (1)
𝑟𝑡 is residual error (difference) used as input to the XGBost model ;
𝑦𝑡 is the actual observed value at time 𝑡 ;
ŷ𝑡 𝑙𝑠𝑡𝑚 is the predicted value at time 𝑡 generated by the LSTM model.
Ces résidus sont utilisés pour entrainer un modèle XGBoost. L’idée est que XGBoost, via
sa capacite à modéliser des interactions complexes et non linéaires, peut corriger les erreurs
que le LSTM n’a pas capturé (erreurs séquentielles, non-linéaires, …) (Dakheel & Cevik,
2025).
➢ Prédiction hybride
Lors de la phase de prediction, la prediction finale est obteneue en combianat la sortie du
LSTM et la corrrection fournie par le modele XGBoost, constituant ainsi un cadre predictif
hybride (Dakheel & Cevik, 2025).

Figure : Proposed model

e. Evaluation du modèle
Le modèle hybride LSTM-XGBoost est évaluée à l’aide de plusieurs métriques standard :
➢ RMSE (root mean squared error) : pour mesurer l’erreur absolue moyenne quadratique ;
➢ MAE (erreur absolue moyenne) ;
➢ R2 (coefficient de détermination) : pour quantifier la proposition de variance expliquée
par le modèle.
Les valeurs de ces métriques sont comparées entre le modèle hybride et les modèles de base
(XGBoost seul, LSTM seul) pour démontrer l’avantage de l’approche hybride (Dakheel &
Cevik, 2025).
3. Visualisation des résultats
Le cadre hybride présente plusieurs bénéfices clés :
➢ Prédiction améliorée : la combinaison d’un LSTM (apprentissage séquentiel) et d’un
XGBoost (modélisation non linéaire) permet d’augmenter la précision par rapport à des
modèles individuels ;
➢ Reduction des erreurs résiduelles : grâce à XGBoost, les erreurs non capturées par le
LSTM peuvent être corrigées ;
➢ L’adaptabilité : ce modèle hybride peut être appliqué à différentes taches de distribution
d’énergie (prévision de charge, détection d’anomalies…) ;
➢ Stabilité conceptuelle : l’approche s’avère particulièrement adaptée aux systèmes
dynamiques comme les réseaux de distribution électrique, où les demandes varient
rapidement (Dakheel & Cevik, 2025). Graphiquement, les prédictions suivent de très
près les valeurs réelles, notamment sur les phases critiques (pics de production et baisses
imprévues).
Le tableau suivant illustre les résultats obtenus :
Modèle MAE RMSE R2
LSTM 30,5446 35,2833 0,0518274
XGBoost 28,4712 33,1153 0,164774
Hybride LSTM-XGBoost 0,36 0,40 0,99

4. Discussion
Les résultats obtenus confirment que :
➢ Le modèle LSTM capte efficacement les tendances et les dépendances temporelles,
mais reste limité sur les fluctuations soudaines ;
➢ Le modèle XGBoost corrige ces lacunes en modélisant les non-linéarités complexes,
surtout lorsque la production est influencée par des facteurs exogènes.
➢ L’approche hybride permet une réduction du RMSE et du MAE, ce qui corrobore les
conclusions d’études similaires dans d’autres secteurs industriels, comme mentionnée
à l’introduction. Le modèle se révèle robuste même avec des données bruitées ou
partiellement manquantes, ce qui est essentiel dans un environnement industriel
africain, surtout au Cameroun ou la qualité des données reste un défi constant.
Ces observations montrent que l’hybridation améliore non seulement la précision, mais
aussi la capacite de généralisation du modèle.
5. Conclusion et perspectives
Cette étude a démontré l’efficacité d’un modèle hybride LSTM-XGBoost pour la prédiction
journalière de la production de fer à béton aux Aciéries du Cameroun. En exploitant
simultanément les avantages : des modèles séquentiels (LSTM) pour la dynamique temporelle,
et des modes d’ensemble (XGBoost) pour l’apprentissage structurel. Le modèle proposé
dépasse nettement les performances des approches traditionnelles.
Plusieurs pistes peuvent enrichir les travaux futurs : notamment dans l’intégration modèle
Transformer pour tester la capacite des mécanismes d’attestation dans les séries industrielles,
améliorer la qualité des données par l’installation des capteurs loT industriels et utiliser
l’optimisation bayésienne pour ajuster automatiquement les hyperparamètres.

Vous aimerez peut-être aussi