0% ont trouvé ce document utile (0 vote)
4 vues76 pages

Memoire Master Version Finale

Ce mémoire explore l'utilisation du deep learning pour prévoir la production céréalière dans les communes du Borgou au Bénin entre 1995 et 2023, en se concentrant sur des réseaux de neurones LSTM. La méthodologie inclut des analyses descriptives, une modélisation LSTM et des simulations Monte Carlo, montrant que le modèle LSTM capture efficacement les dynamiques non linéaires de la production. Les résultats indiquent que la production céréalière dépend de l'extension des superficies cultivées, et le modèle LSTM, associé à Monte Carlo, est un outil fiable pour la planification agricole.

Transféré par

ulotossou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
4 vues76 pages

Memoire Master Version Finale

Ce mémoire explore l'utilisation du deep learning pour prévoir la production céréalière dans les communes du Borgou au Bénin entre 1995 et 2023, en se concentrant sur des réseaux de neurones LSTM. La méthodologie inclut des analyses descriptives, une modélisation LSTM et des simulations Monte Carlo, montrant que le modèle LSTM capture efficacement les dynamiques non linéaires de la production. Les résultats indiquent que la production céréalière dépend de l'extension des superficies cultivées, et le modèle LSTM, associé à Monte Carlo, est un outil fiable pour la planification agricole.

Transféré par

ulotossou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

REPUBLIQUE DU BENIN

***************
UNIVERSITE DE PARAKOU (UP)
***************
ECOLE NATIONALE DE STATISTIQUE, DE PLANIFICATION ET DE DEMOGRAPHIE
(ENSPD)
********
Mémoire de fin de formation pour l’obtention d’un Master

Mention : Statistique Appliquée

Spécialité : Statistique Appliquée à l’Agriculture et aux Vivants

Thème :

APPROCHE DE DEEP LEARNING POUR LA PREVISION DE LA


PRODUCTION CEREALIERE DANS LES COMMUNES DU
BORGOU

Réalisé par :
DADO TOSSOU Ulrich

Directeur :
Co-directeur
Dr. Epiphane SODJINOU Dr. François KOLADJO
Professeur Titulaire des Universités du Maître- Assistant du CAMES
CAMES

Mémoire soutenu le : 11/12/ 2025 à l’Université de Parakou

Devant le jury composé comme suit :

Président : VODOUHE Fifanou (PT)

Rapporteur : SODJINOU Epiphane (PT)

Examinateur 1 : LOKONOU Boris (MCA)

Examinateur 2 : KOLADJO François (MA)


REPUBLIQUE DU BENIN

***************
UNIVERSITE DE PARAKOU (UP)
***************
ECOLE NATIONALE DE STATISTIQUE, DE PLANIFICATION ET DE DEMOGRAPHIE
(ENSPD)
********
Mémoire de fin de formation pour l’obtention d’un Master

Mention : Statistique Appliquée

Spécialité : Statistique Appliquée à l’Agriculture et aux Vivants

Thème :

APPROCHE DE DEEP LEARNING POUR LA PREVISION DE LA


PRODUCTION CEREALIERE DANS LES COMMUNES DU
BORGOU

Réalisé par :
DADO TOSSOU Ulrich

Directeur : Co-directeur

Dr. Epiphane SODJINOU Dr. François KOLADJO

Professeur Titulaire des Universités du Maître- Assistant du CAMES


CAMES
Mémoire soutenu le : 11/12/ 2025 à l’Université de Parakou

Devant le jury composé comme suit :

Président : VODOUHE Fifanou (PT)

Rapporteur : SODJINOU Epiphane (PT)

Examinateur 1 : LOKONOU Boris (MCA)

Examinateur 2 : KOLADJO François (MA)


CERTIFICATION

Je soussigné Professeur Epiphane SODJINOU, Agroéconomiste–Biostatisticien, Professeur


des Universités du CAMES, certifie que le présent mémoire intitulé :
« Approche de deep learning pour la prévision de la production céréalière dans les
communes du Borgou », réalisé sous ma direction par DADO TOSSOU Ulrich, a intégré
l’ensemble des corrections et recommandations formulées par le jury à l’issue de la soutenance,
dans le cadre de l’obtention du Master en Statistiques Appliquées à l’Agriculture et aux
Vivants (SAAV).

Professeur Epiphane SODJINOU

i
DEDICACE
Je dédie ce travail à mes parents notamment :

• Mon père Jean-Marie DADO TOSSOU

• Ma marâtre Méchidath Towobola Méchidath

Pour leurs amours, leurs soutiens tout au long de mon parcours académique ; pour m’avoir
transmis le goût de l’effort et de la persévérance, et pour leur confiance inébranlable en mes
capacités.

ii
REMERCIEMENTS
Je tiens à exprimer ma profonde gratitude à toutes les personnes et institutions qui ont contribué,
de près ou de loin, à la réalisation de ce mémoire.

Tout d’abord, je remercie sincèrement mes encadreurs académiques, Epiphane SODJINOU et


François KOLADJO, pour leurs conseils avisés, leur disponibilité, leur patience et leur soutien
constant tout au long de ce travail.

Je souhaite également remercier l’ensemble du corps enseignant de l’Ecole Nationale de la


Statistique, de la Planification et de le Démographie (ENSPD), qui, par la richesse de leurs
enseignements et la qualité de leurs encadrements, m’ont permis de développer les compétences
nécessaires à la réalisation de ce travail.

J’adresse mes remerciements au Directeur Exécutif du GERED-ONG, Mr SACCA Léonce et à


son équipe pour m’avoir accueilli dans le cadre du déroulement de mon stage.

Mes remerciements s’adressent aussi à mes collègues, amis et camarades de promotion, pour
leur soutien moral, leurs encouragements et les échanges fructueux qui ont enrichi mes
réflexions tout au long de ce mémoire.

Enfin, je remercie toutes les personnes et institutions qui, d’une manière ou d’une autre, ont
contribué à la collecte des données et à la réussite de ce mémoire.

À toutes et à tous, je vous adresse mes plus sincères remerciements.

iii
TABLE DES MATIERES
LISTES DES ABREVIATIONS .................................................................................................................... vii

RESUME .................................................................................................................................................................... ix

INTRODUCTION ..................................................................................................................................................1

CHAPITRE I : REVUE DE LITTERATURE .........................................................................................4

I. Cadre conceptuel et definitions .................................................................................... 4

1. Intelligence artificielle ............................................................................................... 4

2. Machine Learning .................................................................................................... 5

3. Deep Learning ............................................................................................................ 6

4. Agriculture de précision ........................................................................................ 14

5. Analyse prédictive.................................................................................................... 15

6. Simulation de Monte Carlo..................................................................................... 16

II. Travaux scientifiques ............................................................................................... 17

CHAPITRE II : CADRE MÉTHODOLOGIE ..................................................................................... 21

1. Milieu d’etude. ............................................................................................................. 21

2. Materiel et methodes d’etude ..................................................................................... 21

2.1. Vérification et traitement des valeurs manquantes .............................................. 22

2.2. Détection et traitement des valeurs aberrantes..................................................... 22

2.3. Homogénéisation...................................................................................................... 23

2.4. Vérification de la cohérence inter-variables :........................................................ 23

2.5. Normalisation des variables quantitatives :........................................................... 23

3. Methodes d’analyse des donnees ................................................................................ 24

3.1. Analyse des tendances d’évolution et comparaison des performances entre les
types de céréales .............................................................................................................. 24

3.2. Identifier les corrélations entre superficie, rendement et production................. 24

3.3. Modélisation prédictive par deep learning ............................................................ 24

iv
3.4. Paramétrage du réseau de neurones LSTM .......................................................... 27

3.5. Optimisation par descente de gradient stochastique et régularisation pour du


réseau LSTM……………..…………………………………………………………….28

3.6. Évaluation du modèle .............................................................................................. 30

3.7. Simulation de Monte Carlo..................................................................................... 30

4. Limites de la recherche ............................................................................................... 33

I. Presentation des resultats ........................................................................................... 36

A. Analyse de la dynamique de la production céréalières dans les communes du


Borgou .............................................................................................................................. 36

B. Implémentation du modèle Lstm ............................................................................... 42

C. Simulation Monte Carlo ............................................................................................. 50

1. Analyses des statistiques descriptives des données simulées................................ 50

2. Distribution des variables simulées ........................................................................ 51

3. Corrélation entre les variables simulées ................................................................ 52

4. Distribution des valeurs issus de la prédiction ...................................................... 53

5. Distribution des erreurs de prédiction des données simulées .............................. 54

6. Evaluation des performances du modèle sur les données simulées ..................... 55

II. DISCUSSION .................................................................................................................................................. 56

CONCLUSION ET PERSPECTIVES ...................................................................................................... 59

REFERENCES BIBLIOGRAPHIQUES ................................................................................................. 61

v
LISTES DES FIGURES

Figure 1: L'intelligence artificielle et ces sous-domaines .......................................................... 5


Figure 2: Réseau de neurone biologique .................................................................................... 8
Figure 3: Architecture des réseaux de neurones artificiels ....................................................... 12
Figure 4: Structure d'une unité de neurone artificiel (Adapté de Paola et al.,1995) ................ 13
Figure 5: Evolution de la production céréalière de 1995-2023 ................................................ 37
Figure 6: Evolution de la production par cultures de 1995-2023............................................. 38
Figure 7: Production moyenne par type de céréale .................................................................. 39
Figure 8: Evolution de la production par commune ................................................................. 41
Figure 9: Matrice de corrélations entre superficie, rendement et production........................... 42
Figure 10: Évolution des valeurs prédites ................................................................................ 46
Figure 11: Distribution des erreurs ........................................................................................... 47
Figure 12: Comparaison entre la Production Réelle et la Production Prédite .......................... 48
Figure 13: Évaluation de la performance du modèle et analyse du biais ................................. 49
Figure 14: Histogrammes avec des courbes de densité superposées des distributions des
variables simulées..................................................................................................................... 52
Figure 15: Matrice de corrélation ............................................................................................. 53
Figure 16 : Distribution des valeurs issus de la prédiction....................................................... 54
Figure 17 : Distribution des erreurs de prédiction .................................................................... 55

vi
LISTES DES ABREVIATIONS

AI : Intelligence Artificielle

AP : Agriculture de Précision

AR : Modèles Autorégressifs (Auto-Regressive)

ARIMA : Modèles Auto-Régressifs Intégrés à Moyenne Mobile

ARMA : Modèles Auto-Régressifs à Moyenne Mobile

CNN : Réseaux de Neurones Convolutifs (Convolutional Neural Networks)

ECPA : European Conference on Precision Agriculture

EFITA : European Federation for Information Technology in Agriculture, Food and the
Environment

FCNN : Fully Connected Neural Networks

GAN : Generative Adversarial Networks

GPU : Graphics Processing Unit

ICPA : International Conference on Precision Agriculture

ILSVRC : ImageNet Large Scale Visual Recognition Challenge

ISPA : International Society of Precision Agriculture

LSTM : Long Short-Term Memory

MA : Modèles à Moyenne Mobile (Moving Average)

MAE : Mean Absolute Error (Erreur Absolue Moyenne)

MAEP : Ministère de l’Agriculture, de l’Élevage et de la Pêche

MC : Monte Carlo

vii
MLP : Perceptron Multicouches (Multilayer Perceptron)

RMSE : Root Mean Squared Error (Erreur Quadratique Moyenne)

RNN : Réseaux Récurrents (Recurrent Neural Networks)

SARIMA : Modèles Saisonniers ARIMA (Seasonal ARIMA)

SIG : Systèmes d’Information Géographique

viii
RESUME

L’intelligence artificielle, et plus particulièrement le deep learning, transforme l’agriculture


en permettant d’anticiper les variations de production et de renforcer la sécurité alimentaire. Ce
mémoire se concentre sur la prévision de la production céréalière (maïs, riz, mil, sorgho) dans
les communes du département du Borgou (Bénin) sur la période 1995-2023, en utilisant des
réseaux de neurones récurrents LSTM. L’étude examine également les relations entre superficie
cultivée, rendement et production.

La méthodologie combine analyses descriptives, modélisation LSTM et simulations Monte


Carlo. Les données ont été divisées en jeux d’entraînement, de validation et de test. Le modèle
LSTM comporte deux couches cachées (64 et 32 neurones), des régularisations L1-L2, un
Dropout à 20 % et une sortie linéaire, optimisé par MSE. Les performances sont évaluées par
MSE, MAE et R².

Les résultats montrent que le modèle LSTM capture efficacement les dynamiques non
linéaires et la saisonnalité des séries temporelles. Les simulations Monte Carlo montre que le
modèle s’adapte aux incertitudes associées aux variables d’entrée. Le maïs domine la
production, le mil reste stable, le riz progresse modérément et le sorgho fluctue. La distribution
des erreurs indique une légère sous-estimation des valeurs extrêmes mais une forte concordance
générale avec les données réelles.

En conclusion, la production céréalière au Borgou dépend majoritairement de l’extension


des superficies. Le LSTM, renforcé par Monte Carlo, constitue un outil fiable pour la
planification agricole et la sécurité alimentaire. Les perspectives incluent l’intégration de
variables climatiques et socio-économiques, le développement de pratiques agricoles durables
et l’exploration de modèles hybrides (CNN-LSTM) pour une agriculture de précision.

Mots-clés : Agriculture de précision, Deep Learning, LSTM, Prévision de production, Séries


temporelles, Monte Carlo, Céréales, Bénin.

ix
ABSTRACT

Artificial intelligence, and particularly deep learning, is transforming agriculture by


enabling the anticipation of production variations and strengthening food security. This thesis
focuses on forecasting cereal production (maize, rice, millet, sorghum) in the communes of the
Borgou department (Benin) over the period 1995–2023 using LSTM recurrent neural networks.
The study also examines the relationships between cultivated area, yield, and total production.

The methodology combines descriptive analyses, LSTM modelling, and Monte Carlo
simulations. The dataset was divided into training, validation, and test sets. The LSTM model
consists of two hidden layers (64 and 32 neurons), L1–L2 regularization, a 20% dropout rate,
and a linear output layer, optimized using the MSE loss function. Model performance is
assessed using MSE, MAE, and R².

The results show that the LSTM model effectively captures nonlinear dynamics and
seasonality in the time series. The Monte Carlo simulations indicate that the model adapts well
to uncertainties in input variables. Maize dominates total production, millet remains stable, rice
progresses moderately, and sorghum fluctuates. The error distribution reveals a slight
underestimation of extreme values but a strong overall agreement between predicted and
observed data.

In conclusion, cereal production in Borgou depends primarily on the expansion of


cultivated areas. The LSTM model, strengthened by Monte Carlo simulations, provides a
reliable tool for agricultural planning and food security. Future perspectives include integrating
climatic and socio-economic variables, developing sustainable agricultural practices, and
exploring hybrid models (CNN-LSTM) for precision agriculture.

Keywords : Precision agriculture, Deep learning, LSTM, Production forecasting, Time series,
Monte Carlo, Cereals, Benin.

x
INTRODUCTION

Au cours des dernières décennies, le monde a connu une transformation technologique sans
précédent, marquée par l’essor rapide de l’intelligence artificielle (IA). De nombreux secteurs
tels que la santé, la finance, l’énergie, l’éducation ou encore les transports ont été profondément
transformés par des outils intelligents capables d’analyser de grandes masses de données,
d’apprendre et de prédire avec une précision remarquable.

Le secteur agricole n’échappe pas à cette dynamique. Selon Russell et Norvig (2021), l’IA
désigne « la capacité d’une machine à reproduire certaines fonctions cognitives humaines telles
que l’apprentissage, la perception ou la prise de décision ». Dans le domaine agricole, pl usieurs
études (Kamilaris & Prenafeta-Boldú, 2018 ; Liakos et al., 2018) ont démontré l’efficacité des
approches d’apprentissage profond (deep learning) dans la prédiction des rendements, la gestion
des ressources et la détection des maladies. Ces approches favorisent une agriculture de
précision plus durable, en optimisant les intrants et en réduisant les impacts environnementaux
(Wolfert et al., 2017).

L’intelligence artificielle contribue également à l’amélioration des prévisions météorologiques,


un élément crucial pour les agriculteurs. En exploitant de vastes quantités de données
historiques et en temps réel, les algorithmes d’apprentissage automatique permettent de fournir
des prévisions fiables, facilitant ainsi la planification des semis, de l’irrigation et des récoltes.
Ces innovations apparaissent d’autant plus essentielles que la population mondiale, estimée à
9,2 milliards d’habitants d’ici 2050 (ONU, 2017), nécessitera une augmentation de 70 % de la
production agricole actuelle. Dès lors, l’intégration de l’IA dans le secteur agricole s’impose
comme une solution stratégique pour accroître la productivité tout en préservant les ressources
naturelles.

Ces avancées ont favorisé l’émergence de l’agriculture de précision, qui consiste à intervenir
au bon moment et au bon endroit afin d’améliorer l’efficacité et la durabilité des pratiques
agricoles (Gebbers & Adamchuk, 2010). Parmi les approches les plus prometteuses,
l’apprentissage profond se distingue par sa capacité à reconnaître des relations non l inéaires
complexes à partir de données volumineuses. Des modèles tels que les réseaux de neurones
récurrents (RNN) et leurs variantes Long Short-Term Memory (LSTM) ont démontré leur
efficacité dans l’analyse de séries temporelles agricoles, la prévision des rendements et la
détection de maladies (Kamilaris & Prenafeta-Boldú, 2018).

1
Au Bénin, pays à forte vocation agricole, les enjeux liés à la sécurité alimentaire, à la
dégradation des sols et aux changements climatiques demeurent préoccupants. Le sous-secteur
des céréales, qui joue un rôle central dans la sécurité alimentaire, reste exposé à de multiples
aléas : irrégularité des pluies, faible mécanisation, déforestation et disponibilité limitée de
données fiables pour la planification (Adégbidi et al., 2020 ; Baco & Houssou-Gandonou,
2018).

Les outils statistiques classiques de prévision, tels que les modèles ARIMA et SARIMA,
présentent des limites importantes. Leur nature linéaire ne permet pas de capturer la complexité
et la non-linéarité des phénomènes agricoles influencés simultanément par de nombreux
facteurs interdépendants (Box & Jenkins, 1976 ; Zhang, 2003). Cela réduit leur efficacité pour
anticiper les fluctuations de la production céréalière dans un contexte marqué par le changement
climatique.

L’importance stratégique des céréales au Bénin se traduit par leur poids dans la production
nationale. En 2023–2024, la production de maïs a atteint 2 059 254 tonnes, soit une hausse de
27,1 % par rapport à 2022, tandis que le riz et le couple mil-sorgho ont produit respectivement
492 626 et 733 309 tonnes (MAEP, 2024). Ces chiffres traduisent une forte dépendance du pays
à ces cultures, mais également des variations importantes d’une campagne à l’autre. Selon
Houssou et al. (2021), ces fluctuations fragilisent la sécurité alimentaire et appellent à une
meilleure capacité de prévision.

Dès lors, la question centrale de cette recherche est la suivante : dans quelle mesure les
techniques de l’apprentissage profond peuvent-elles contribuer à prédire l’évolution de la
production céréalière dans les communes du Borgou au Bénin ? Pour y répondre, nous
proposons de mettre en œuvre un modèle de réseaux de neurones récurrents de type LSTM.
Plus spécifiquement, il s’agira de :

- Étudier les dynamiques temporelles de la production dans les communes du département


de Borgou de 1995 à 2023 ;
- Implémenter et évaluer un modèle de réseau de neurones récurrent de type LSTM pour
prédire la production céréalière à partir de données historiques ;
- Développer une simulation de Monte Carlo permettant de générer des scénarios futurs
de la production afin de vérifier la robustesse de notre modèle et d’anticiper les
fluctuations.

2
Ainsi, nous formulons les hypothèses suivantes :

ᶿ La production céréalière dans les communes du département de Borgou présente des


variations significatives dans le temps, influencées par des facteurs tels que la
superficie cultivée, le type de céréales et les conditions climatiques.
ᶿ Un modèle de réseau de neurones récurrent de type LSTM est capable de capturer la
complexité et la non-linéarité des séries temporelles de production céréalière et
permet de prédire avec précision les productions futurs à partir des données
historiques.
ᶿ L’intégration d’une simulation de Monte Carlo permet de générer des scénarios
plausibles pour la production future et de tester la robustesse du modèle prédictif face
aux incertitudes, contribuant ainsi à mieux anticiper les fluctuations de la production
céréalière.

Enfin, ce mémoire est structuré en trois grandes parties complémentaires. La première partie
présente une revue critique de la littérature sur les modèles de l’intelligence artificielles tels que
le machine learning, le Deep Learning, l’Agriculture de Précision, l’analyse prédictive, les
modèles classiques de séries temporelles ainsi que la simulation de Monte Carlo et une synthèse
des articles abordant notre thème. La deuxième partie décrit le cadre méthodologique, incluant
le milieu d’étude, la source des données et les outils d’analyse utilisés, notamment R pour les
analyses descriptives et Python pour l’implémentation du modèle de réseaux de neurones. La
troisième partie expose et discute les résultats obtenus, avant de passer à la discussion.

3
CHAPITRE I : REVUE DE LITTERATURE
I. CADRE CONCEPTUEL ET DEFINITIONS
1. Intelligence artificielle

Notion apparue dès les années 1950, l’intelligence artificielle (IA) peut être définie comme
l’ensemble de techniques permettant à des machines d’accomplir des tâches et de résoudre des
problèmes normalement réservés aux humains et à certains animaux. Il s’agit donc de
techniques qui visent à reproduire, imiter ou simuler l’intelligence, ou en tout cas les capacités
que l’on peut associer à ce terme : capacité à percevoir son environnement, à interagir avec lui,
à communiquer au moyen d’un langage, à raisonner, à planifier des actions et à résoudre des
problèmes complexes (Russell & Norvig, 2021).

Selon John McCarthy (1956), l’un des pionniers du domaine, l’intelligence artificielle est « la
science et l’ingénierie de la fabrication de machines intelligentes ». Elle est considérée comme
un champ majeur de l’informatique qui cherche à développer des systèmes capables d’exécuter
des tâches nécessitant normalement l’intelligence humaine, telles que la reconnaissance visuelle,
la prise de décision, la traduction automatique ou encore l’apprentissage à partir de données
(Nilsson, 2010).

Au fil des décennies, l’IA a connu plusieurs évolutions majeures, passant de l’approche
symbolique à l’apprentissage automatique (machine learning) et à l’apprentissage profond
(deep learning), qui repose sur des réseaux de neurones artificiels capables d’extraire
automatiquement des représentations complexes à partir de grandes quantités de données
(LeCun, Bengio & Hinton, 2015).

Aujourd’hui, l’intelligence artificielle est devenue un outil essentiel dans de nombreux


secteurs, notamment la santé, la finance, l’industrie et surtout l’agriculture, où elle offre des
solutions innovantes pour améliorer l’efficacité, réduire les coûts et optimiser les processus de
production (Kamilaris & Prenafeta-Boldú, 2018). Grâce à des algorithmes puissants, l’IA
permet d’automatiser des tâches, d’analyser de vastes ensembles de données et de proposer des
recommandations précises basées sur des modèles prédictifs.

Les modèles d’intelligence artificielle se déclinent en plusieurs sous-domaines comme


l’indique le figure 1, chacun étant adapté à des applications spécifiques. Parmi eux, le Machine
Learning (apprentissage automatique) occupe une place centrale. Il consiste à permettre aux

4
machines d’apprendre à partir de données sans être explicitement programmées, et constitue le
fondement de la plupart des systèmes intelligents modernes (Goodfellow, Bengio & Courville,
2016).

Figure 1: L'intelligence artificielle et ces sous-domaines

2. Machine Learning (ML)

Le Machine Learning (ML) est le socle de l’intelligence artificielle. Il repose sur le principe
selon lequel un système peut apprendre des relations ou des structures d’un ensemble de
données, afin de faire des prédictions ou prendre des décisions sur les nouvelles données
(Bishop,2006). Tout ce qui peut être stocké numériquement peut servir de données pour le
Machine Learning. Selon Alpaydin (2020), le ML s’appuie sur des algorithmes capables
d’extraire automatiquement des motifs à partir des données et d’ajuster leurs paramètres pour
minimiser les erreurs. Les principaux types d’apprentissage automatique sont :

• L’apprentissage supervisé, le plus courant, les données sont étiquetées afin d’indiquer
à la machine quelles patterns elle doit rechercher. Le système s’entraîne sur un ensemble
de données étiquetées, avec les informations qu’il est censé déterminer. Les données
peuvent même être déjà classifiées de la manière dont le système est supposé le faire.
Cette méthode nécessite moins de données d’entraînement que les autres, et facilite le
processus d’entraînement puisque les résultats du modèle peuvent être comparés avec
les données déjà étiquetées.

• L’apprentissage non supervisé, utilisé pour regrouper ou segmenter les données sans
étiquettes. La machine se contente d’explorer les données à la recherche d’éventuelles
patterns. Elle ingère de vastes quantités de données, et utilise des algorithmes pour en
extraire des caractéristiques pertinentes requises pour étiqueter, trier et classifier les
données en temps réel sans intervention humaine. Plutôt que d’automatiser les décisions

5
et les prédictions, cette approche permet d’identifier les patterns et les relations que les
humains risquent de ne pas identifier dans les données. Cette technique n’est pas très
populaire, car moins simple à appliquer. Elle est toutefois de plus en plus populaire dans
le domaine de la cybersécurité.

• L’apprentissage par renforcement, où un agent apprend à partir de ses interactions


avec l’environnement pour maximiser une récompense cumulative. C’est-à-dire que,
l’apprentissage par renforcement consiste à laisser un algorithme apprendre de ses
erreurs pour atteindre un objectif. L’algorithme essayera de nombreuses approches
différentes pour tenter d’atteindre son but. En fonction de ses performances, il
sera récompensé ou pénalisé pour l’inciter à poursuivre dans une voie ou à changer
d’approche. Cette technique est notamment utilisée pour permettre à une IA de surpasser
les humains dans les jeux.

Le Machine Learning consiste également à développer un modèle capable d’apprendre à


partir de données, en utilisant un algorithme d’optimisation visant à minimiser l’erreur entre les
prédictions du modèle et les valeurs réelles observées. Selon Goodfellow, Bengio et Courville
(2016), « le processus d’apprentissage d’un modèle consiste à ajuster ses paramètres afin de
minimiser une fonction de coût qui mesure la divergence entre les prédictions et les données
réelles » (Deep Learning, MIT Press). Il regroupe plusieurs modèles, chacun accompagné de
son algorithme d’optimisation, tels que l’algorithme de CART pour les arbres de décision, les
forêts aléatoires, la marge maximum pour les machines à vecteurs de support (SVM), la
descente de gradients pour les modèles de régression linéaire et surtout les réseaux de neurones
artificiels qu’on utilise dans le domaine du Deep Learning.

3. Deep Learning

Le Deep Learning ou apprentissage profond étend le machine learning en ajoutant de la «


profondeur » (complexité). C’est une technique d’apprentissage automatique fondée sur des
réseaux neuronaux profonds, capables de représenter et d’extraire automatiquement les
structures complexes des données. Selon Yann LeCun, l’un des pionniers du domaine et lauréat
du prix Turing en 2018, « la technologie du deep learning apprend à représenter le monde, c’est-
à-dire comment la machine va représenter la parole ou l’image, par exemple ». Pour Geoffrey
Hinton (2012), le Deep Learning repose sur l’idée que « les ordinateurs peuvent apprendre à
percevoir le monde par eux-mêmes, en découvrant la structure cachée des données ». Il insiste

6
sur la capacité des réseaux neuronaux profonds à « modéliser des relations complexes entre
variables », rendant possible la reconnaissance d’images, la traduction automatique ou encore
la prédiction de phénomènes non linéaires.

Enfin, Yoshua Bengio (2009) définit le Deep Learning comme « une méthode d’apprentissage
basée sur des réseaux de neurones composés de multiples couches, capables de transformer les
données brutes en représentations de plus en plus abstraites et utiles pour la prise de décision ».
Il met l’accent sur la profondeur du modèle, c’est-à-dire le grand nombre de couches cachées
qui permettent au réseau de capter la complexité des phénomènes réels.

Il est considéré comme une extension des réseaux de neurones artificiels classiques, dans
laquelle l’architecture du modèle comprend plusieurs couches cachées permettant d’apprendre
des représentations hiérarchiques des données. Selon Goodfellow, Bengio et Courville (2016),
le Deep Learning correspond à « l’apprentissage à l’aide de réseaux de neurones profonds,
c’est-à-dire des modèles comportant de nombreuses couches de traitement non linéaires ». De
même, LeCun, Bengio et Hinton (2015) soulignent que ces architectures profondes ont permis
des avancées majeures dans des domaines tels que la vision par ordinateur, la reconnaissance
vocale et le traitement automatique du langage.

Ainsi, les premiers réseaux de neurones ont donc été inventés en 1943 par deux
mathématiciens et neuroscientifiques du nom de Warren McCulloch et Walter Pitts. Dans leur
article scientifique intitulé : "A Logical Calculus of the ideas immanent in nervous activity", ils
expliquent comment ils ont pu programmer des neurones artificiels en s'inspirant du
fonctionnement des neurones biologiques.

D’abord en biologie, les neurones sont des cellules excitables connectées les unes aux aut res,
et ayant pour rôle de transmettre des informations dans notre système nerveux. Chaque neurone
est composé de plusieurs dendrites, d'un corps cellulaire, et d'un axone. Les dendrites sont en
quelque sorte les portes d'entrée d'un neurone. C’est au niveau de la synapse, que le neurone
reçoit des signaux lui provenant des neurones qui le précèdent. Ces signaux peuvent être de
type excitateur ou à l'inverse inhibiteur. Lorsque la somme de ces signaux dépasse un certain
seuil, le neurone s'active et produit alors un signal électrique. Ce signal circule le long de l'axone
en direction des terminaisons pour être envoyé à son tour vers d'autres neurones de notre
système nerveux ; ces neurones qui fonctionneront exactement de la même manière. Warren
McCulloch et Walter Pitts ont essayé de modéliser ce fonctionnement des neurones biologiques

7
en considérant qu'un neurone pouvait être représenté par une fonction de transfert, qui prend en
entrée des signaux X et qui retourne une sortie Y.

Figure 2: Réseau de neurone biologique

C’est ainsi que Warren McCulloch et Walter Pitts ont développé, en 1943, les premiers neurones
artificiels, appelés plus tard Threshold Logic Units (unités logiques à seuil). Ce modèle ne
traitait initialement que des entrées logiques binaires. Les deux chercheurs ont démontré qu’un
tel système pouvait reproduire des fonctions logiques élémentaires comme les portes AND et
OR, et qu’en connectant plusieurs neurones entre eux, à la manière du cerveau humain, il
devenait possible de résoudre des problèmes de logique booléenne complexes. Toutefois, ce
modèle présentait une limite majeure : il ne disposait d’aucun algorithme d’apprentissage, ce
qui empêchait le réseau d’ajuster ses poids de manière autonome.

Une quinzaine d’années plus tard, en 1957, Frank Rosenblatt, psychologue américain,
améliora le modèle de McCulloch et Pitts en proposant le premier algorithme d’apprentissage
de l’histoire du Deep Learning, donnant naissance au Perceptron simple. Comme le neurone
étudié précédemment, le Perceptron s’active lorsque la somme pondérée de ses entrées dépasse
un certain seuil, généralement zéro. Toutefois, Rosenblatt y ajouta un algorithme
d’apprentissage permettant d’ajuster les poids afin que le neurone produise les sorties désirées.

Pour développer cet algorithme, Rosenblatt s’inspira de la théorie de Donald Hebb, 1949.
Elle stipule que lorsque deux neurones biologiques sont excités simultanément, leurs
connexions synaptiques se renforcent. Transposé au Perceptron, cela signifie qu’un neurone
artificiel ajuste ses paramètres chaque fois qu’une entrée est activée en même temps que la
sortie de référence. La mise à jour des poids se fait selon la formule :

𝑊 = 𝑊 + α(𝑌𝑟𝑒𝑓 − 𝑌𝑝𝑟𝑜𝑑𝑢𝑖𝑡 ).X

8
Où α est le pas d’apprentissage ; W les paramètres ; X l’entrée de neurones ; 𝑌𝑟𝑒𝑓 sortie de
référence et 𝑌𝑝𝑟𝑜𝑑𝑢𝑖𝑡 la sortie produite par le neurone. Si la sortie produite diffère de la sortie
attendue, les poids sont progressivement ajustés pour rapprocher la sortie du seuil d’activation.
Lorsque la sortie devient correcte, les poids cessent d’évoluer.

Ainsi, le Perceptron de Rosenblatt constitue le premier modèle capable d’apprendre de ses


erreurs. Il est important de noter que de nombreux phénomènes réels sont de nature non linéaire,
ce modèle montrait alors ses limites. Il ne pouvait traiter que des problèmes linéairement
séparables, comme la classification de points séparés par une droite. Ce qui limite sa capacité à
résoudre des problèmes nécessitant la modélisation de relations non linéaires.

Dans les années 1980, une avancée majeure marque l’histoire des réseaux de neurones avec
les travaux de Geoffrey Hinton, David Rumelhart et Ronald Williams. Ces chercheurs ont
introduit le Perceptron Multicouches (MLP) et surtout l’algorithme de rétropropagation du
gradient, ouvrant ainsi la voie à l’apprentissage profond. Le Perceptron Multicouches a résolu
ce problème en introduisant plusieurs couches cachées composées de neurones dotés de
fonctions d’activation non linéaires (telles que la sigmoïde ou la tangente hyperbolique),
capables de modéliser des relations complexes entre les variables d’entrée et de sortie. Grâce à
la rétropropagation du gradient, les poids de toutes les couches du réseau peuvent être ajustés
de manière optimale, permettant ainsi un apprentissage plus efficace.

Cette innovation a posé les bases du Deep Learning moderne, en rendant possible
l’entraînement de réseaux de neurones capables de représenter des structures de données
beaucoup plus complexes. Dans les années 1990, de nouvelles variantes du perceptron
multicouches apparaissent. Yann LeCun crée les réseaux de neurones convolutifs (CNN),
capables de reconnaître des images.

Le Deep Learning n’a véritablement pris son essor qu’à partir de 2012 lors de la célèbre
compétition ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Une équipe de
chercheurs dirigée par Geoffrey Hinton présenta un modèle appelé AlexNet, un réseau de
neurones convolutif capable de reconnaitre et de classer automatiquement des images à grandes
échelles, en apprenant les caractéristiques visuelles pertinentes sans intervention humaine.
Exploitant la puissance des GPU (Graphics Processing Unit), ou processeur graphique, ce
modèle a permis de réduire le taux d’erreur de 25% en 2011 à 12% en 2012 lors de la
compétition.

9
Cette percée a démontré le potentiel immense des réseaux de neurones profonds et a ouvert la
voie à une nouvelle ère d’applications de l’intelligence artificielle, dans des domaines aussi
variés que la reconnaissance vocale, le traitement automatique du langage, la santé, et bien sûr,
la prédiction de données complexes.

3.1. Trois grandes familles de réseaux profonds

Aujourd’hui, on distingue plusieurs grandes familles de réseaux profonds permettant de


résoudre différents types de problèmes. Chaque famille se distingue par sa structure interne, le
type de données qu’elle traite et la nature des tâches qu’elle permet d’accomplir, qu’il s’agisse
de classification, de prédiction, de reconnaissance d’images ou d’analyse de séries temporelles.

3.1.1. Les réseaux de neurones convolutifs (Convolutional Neural Networks,


ConvNets ou CNN).

Les réseaux de neurones convolutifs (CNN), à l’origine des avancées majeures depuis 2012,
sont conçus pour traiter des données structurées en grille, comme les images ou les signaux
(Goodfellow, Bengio & Courville, 2016). Inspirés du cortex visuel humain, ils apprennent
automatiquement des caractéristiques hiérarchiques, des motifs simples (bords, textures) aux
structures complexes (objets) (LeCun, Bengio & Hinton, 2015).

Un CNN est composé de couches de convolution, qui extraient les caractéristiques locales via
des filtres appliqués par convolution ; de couches de pooling, qui réduisent la taille des cartes
de caractéristiques tout en conservant l’information essentielle ; et de couches entièrement
connectées, qui agrègent les informations pour la prédiction finale (Yamashita et al., 2018).
L’entraînement se fait par rétropropagation et descente de gradient, ajustant les poids pour
minimiser l’erreur entre prédictions et valeurs réelles (Rumelhart, Hinton & Williams, 1986).

Les CNN permettent d’extraire automatiquement des caractéristiques pertinentes, réduisent


la complexité computationnelle grâce au partage des poids et aux opérations de pooling, et sont
efficaces pour des applications telles que la classification d’images, la détection d’objets et la
reconnaissance faciale (Gu et al., 2018).

3.1.2. Réseaux neuronaux récurrents

Les réseaux de neurones récurrents (RNN) représentent une catégorie particulière de


réseaux de neurones artificiels conçus pour le traitement et l’analyse des données séquentielles
10
ou temporelles, telles que le texte, la parole ou les séries chronologiques. Contrairement aux
réseaux de neurones à propagation avant (feedforward), les RNN introduisent des connexions
récurrentes qui permettent aux informations de circuler d’un instant temporel à un autre,
conférant ainsi au modèle une mémoire interne. Cette mémoire lui permet de capturer les
dépendances temporelles entre les éléments successifs d’une séquence (Goodfellow, Bengio &
Courville, 2016).

Hochreiter et Schmidhuber (1997) précisent que les RNN constituent une famille de
modèles capables de traiter des séquences de longueur variable tout en conservant l'information
sur les états antérieurs afin de prédire les futurs états. Leur travail a d’ailleurs conduit à la
création de l’architecture Long Short-Term Memory (LSTM), destinée à résoudre les problèmes
de disparition et d’explosion du gradient lors de l’apprentissage.

Le fonctionnement d’un RNN repose sur l’itération d’une cellule récurrente à travers la
séquence d’entrée. À chaque pas de temps, le réseau reçoit une entrée 𝑥𝑡 et l’état caché ℎ𝑡−1
provenant du pas précédent. La sortie ℎ𝑡 est calculée selon la formule :

ℎ𝑡 = 𝑓 (𝑊{𝑥ℎ} 𝑥𝑡 + 𝑊{ℎℎ} ℎ{𝑡−1} + 𝑏ℎ )

Où 𝑊{𝑥ℎ} et 𝑊{ℎℎ} sont des matrices de poids, un vecteur de biais 𝑏ℎ et une fonction
d’activation 𝑓. Cette sortie peut ensuite être utilisée pour produire la sortie finale 𝑦𝑡 à l’aide
d’une couche de sortie, selon :

𝑦𝑡 = 𝑔(𝑊{ℎ𝑦}ℎ𝑡 + 𝑏𝑦 )

Les réseaux de neurones récurrents sont entraînés par rétropropagation à travers le temps
(Backpropagation Through Time, BPTT), qui étend la rétropropagation classique aux
séquences en accumulant les gradients sur tous les pas de temps. Cette architecture permet aux
RNN de capturer des dépendances à court terme dans les données séquentielles, mais ils
peuvent rencontrer des difficultés à mémoriser des informations sur de longues séquences en
raison du problème de gradient qui s’évanouit ou explose (Hochreiter & Schmidhuber, 1997).

Les RNN présentent plusieurs avantages majeurs pour le traitement de données


séquentielles et temporelles. Ils permettent de modéliser efficacement les dépendances entre les
éléments d’une séquence, ce qui est particulièrement utile pour des applications telles que la
prédiction de séries temporelles, la reconnaissance vocale, le traitement du langage naturel et
l’analyse de données financières (Goodfellow, Bengio & Courville, 2016). Leur architecture

11
récurrente permet au réseau de conserver un état mémoire des informations passées, ce qui leur
confère un avantage par rapport aux réseaux de neurones traditionnels pour les tâches où le
contexte historique est crucial.

Figure 3: Architecture des réseaux de neurones artificiels

3.1.3. Les réseaux antagonistes génératifs (Generative Adversarial Networks, GAN)

Les réseaux antagonistes génératifs (GAN), introduits par Goodfellow et al. (2014),
combinent deux réseaux en compétition : le générateur, qui produit des données synthétiques,
et le discriminateur, qui distingue les données réelles de celles générées. Cette interaction
compétitive permet au générateur de créer progressivement des échantillons très réalistes, tandis
que le discriminateur améliore sa capacité de classification. Les GAN sont particulièrement
efficaces pour générer des images, du texte ou de l’audio, pour l’augmentation de jeux de
données et pour simuler des scénarios rares, le tout en apprentissage non supervisé.

D’autres architectures de réseaux neuronaux complètent le panel : les CNN pour


l’extraction hiérarchique de caractéristiques dans les images et signaux, les RNN/LSTM pour
modéliser les dépendances temporelles dans les séquences, les réseaux ART pour un
apprentissage stable et continu, les SOM pour la classification non supervisée et la visualisation
de données multidimensionnelles, les FCNN entièrement connectés pour un apprentissage
global, et les réseaux de Hopfield pour la mémoire associative et l’optimisation. Chaque type
de réseau est adapté à des types de données et des tâches spécifiques, illustrant la diversité et la
flexibilité des approches en intelligence artificielle.

3.2. Règles d'activation des neurones


Chaque neurone du réseau fonctionne comme une unité de calcul autonome qui détermine
son état d'activation à partir des informations fournies par les neurones de la couche précédente

12
(Figure 2.2). Les neurones possèdent un niveau d'activation qui leur est associé à chaque instant
et dont la force dépend de la quantité d'informations reçue de ses voisins. Si l'activation du
neurone i a tendance à accroître celle du neurone 𝑗 , alors la connexion 𝑊𝑦 , est dite excitatrice
avec un poids positif. Par contre, si l'activation de i tend à diminuer celle de j, la connexion est
dite inhibitrice avec un poids négatif (Bourret et al, 1991). Mais un neurone ne transmet pas
toujours l'information qu'il reçoit. En effet, le neurone n'est activé que si le potentiel d'act ivation
qu'il reçoit dépasse un certain seuil. Il transmet alors une réponse dont la valeur est celle de son
niveau d'activation. Lorsque le neurone n'est pas activé, il ne transmet aucune information à ses
voisins.

Figure 4: Structure d'une unité de neurone artificiel (Adapté de Paola et al.,1995)

La somme pondérée des signaux reçus par un neurone est déterminée par la relation suivante
(Shearer et al., 1998) ;

𝑜𝑝𝑗 = ∑ 𝑤𝑗𝑖 𝑥𝑝𝑖 + 𝜃𝑗


𝑖

𝑖 où 𝑜𝑝𝑗 est la somme pondérée des entrées du neurone 𝑗, 𝑊𝑗𝑖 est le poids de connexion
entre le neurone actuel j et le neurone précédent i, 𝑥𝑝𝑖 est la sortie des neurones 𝑖 connectés
au neurone 𝑗 pour le cas 𝑝 et 𝜃𝑗 est le biais dont la valeur d'entrée est une constante égale à
1.

Le résultat de l'équation est ensuite transformé par une fonction d'activation non linéaire pour
déterminer l'état d'activation 𝑎𝑝𝑗 du neurone 𝑗 qui sera transféré aux neurones 𝑘 de la
couche suivante. Toutes les fonctions continues et dérivables en tous points de l'espace peuvent
être utilisées comme fonctions d'activation (Paola et Schowengerdt, 1995).

3.2.1. Fonctions d’activations

13
Elles sont un élément central des réseaux de neurones, car elles introduisent de la non-
linéarité dans le modèle. Sans elles, un réseau de neurones, même profond, se réduirait à une
simple combinaison linéaire des entrées, limitant fortement sa capacité à modéliser des relations
complexes. Plusieurs fonctions sont couramment utilisées :

➢ La fonction sigmoïde : Souvent utilisée pour des problèmes de classification binaire.

1
𝜎(𝑥 ) =
1 + 𝑒 −𝑥

➢ La fonction tanh : Très utilisée dans les réseaux récurrents (RNN, LSTM) pour centrer
les données autour de zéro.

𝑒 𝑥 − 𝑒 −𝑥
tanh(𝑥 ) =
𝑒 𝑥 + 𝑒 −𝑥

➢ La fonction ReLU (Rectified Linear Unit) : Très populaire dans les réseaux profonds,
notamment CNN et LSTM.

ReLU(x) = max (0, x)

➢ La fonction Leaky ReLU : variante améliorée de la ReLU permettant une meilleure


propagation des gradients négatifs ;

𝑥 𝑠𝑖 𝑥 > 0
𝐿𝑒𝑎𝑘𝑦 𝑅𝑒𝐿𝑈 = {
𝛼𝑥 𝑠𝑖𝑛𝑜𝑛

➢ La fonction Softmax : Classification multi-classes, transforme les sorties en


probabilités.

𝑒 𝑥𝑖
𝑆𝑜𝑓𝑡𝑚𝑎𝑠(𝑥𝑖 ) =
∑𝑖 𝑒 𝑥𝑖

4. Agriculture de précision (AP)


L’agriculture de précision (AP) est une approche innovante qui adapte les pratiques
agricoles à la variabilité des parcelles en utilisant des technologies telles que GPS, capteurs,
drones, télédétection et SIG pour collecter et analyser des données. Elle permet de moduler les
intrants selon les besoins précis des cultures, améliorant ainsi la productivité, réduisant les coûts
et limitant l’impact environnemental. L’AP inclut la géolocalisation, les capteurs, la
télédétection, les logiciels d’aide à la décision, les machines agricoles intelligentes et les
systèmes de gestion des données connectés. En combinant efficacité économique, durabilité et

14
innovation technologique, elle favorise une production plus efficace et responsable, renforçant
la qualité, la traçabilité et la durabilité des systèmes agricoles.

5. Analyse prédictive

L’analyse prédictive utilise les données historiques pour anticiper des événements ou
comportements futurs grâce à des modèles statistiques et d’apprentissage automatique. En
agriculture, elle permet de prévoir les rendements, détecter précocement les maladies ou
attaques parasitaires, optimiser l’usage des intrants et planifier les récoltes. Elle s’appuie sur
l’exploitation des tendances et des corrélations, notamment dans les séries temporelles, pour
soutenir la prise de décision et améliorer la gestion des systèmes agricoles. On distingue donc :

5.1. Modèles autorégressifs (AR)

Les modèles autorégressifs (AR) supposent que la valeur future d’une série temporelle peut
être exprimée comme une combinaison linéaire de ses valeurs passées. Formellement, un
modèle AR(p) est défini comme :

𝑋𝑡 = ϕ1 𝑋𝑡−1 + ϕ2 𝑋𝑡−2 + ⋯ + ϕ𝑝 𝑋𝑋−𝑝 + ԑ𝑡

5.2. Modèles à moyenne mobile (MA)

Les modèles à moyenne mobile (MA) utilisent les erreurs passées pour modéliser la série
temporelle. Un modèle MA(q) s’exprime ainsi :

𝑋𝑡 = μ + ԑ𝑡 + θ1 ԑ𝑡−1 + ⋯ + θ𝑞 ԑ𝑡−𝑞

5.3. Modèles ARMA et ARIMA

Ce sont des méthodes classiques qui combinent l’auto-régression et la moyenne mobile,


l’ARIMA intégrant en plus une différenciation pour traiter les séries non stationnaires.

𝑋𝑡 = ∅1 𝑋𝑡−1 + ⋯ + ∅𝑝 𝑋𝑡−𝑝 + ԑ𝑡 + θ1 ԑ𝑡−1 + θ𝑝 ԑ𝑡−𝑞

5.4. Modèles saisonniers (SARIMA)

Pour les séries temporelles présentant des variations saisonnières régulières, les modèles
SARIMA (Seasonal ARIMA) intègrent des composantes saisonnières additionnelles. Ils sont
particulièrement adaptés aux données agricoles et météorologiques où les fluctuations
saisonnières sont importantes.

15
L’analyse prédictive constitue un levier majeur de la transformation numérique de l’agriculture,
en fournissant aux producteurs et décideurs des informations fiables et en temps réel pour
améliorer la prise de décision, la productivité et la durabilité des exploitations agricoles.

Toutefois, ces modèles classiques reposent sur des hypothèses strictes : linéarité, stationnarité
et distribution normale des erreurs. Ils peuvent avoir des performances limitées lorsque les
séries présentent des non-linéarités complexes ou des dépendances à long terme. Cela explique
l’émergence de modèles de machine learning et de deep learning (RNN, LSTM, GRU) pour la
prévision de séries temporelles plus complexes.

6. Simulation de Monte Carlo

La méthode de Monte Carlo (MC) est une technique d’estimation numérique reposant sur
l’utilisation de nombres aléatoires pour résoudre des problèmes déterministes complexes. Elle
tire son origine des travaux de Stanislaw Ulam et John von Neumann dans les années 1940,
dans le cadre du projet Manhattan, avant d’être formalisée par Metropolis et Ulam (1949).
Depuis, cette approche est devenue un outil central en modélisation, finance, physique,
ingénierie et agriculture, notamment pour l’évaluation de l’incertitude, la prédiction de risques
ou l’optimisation de processus décisionnels (Fishman, 1996 ; Kroese et al., 2014).

Sur le plan théorique, la méthode de Monte Carlo repose sur l’estimation d’une espérance
mathématique ou d’une intégrale difficile à résoudre analytiquement. Si l’on cherche à estimer
une quantité de la forme :

𝐼 = 𝔼[𝑓(𝑋)] = ∫ 𝑓(𝑥 )𝑝 (𝑥 )𝑑𝑥


Ω

où 𝑓(𝑥) représente la fonction d’intérêt et 𝑝(𝑥) la densité de probabilité d’une variable


aléatoire 𝑋, l’approche Monte Carlo consiste à générer un grand nombre 𝑁 d’échantillons
indépendants 𝑥1 ,𝑥2 , … 𝑥𝑛 , puis à approximer 𝐼 par la moyenne empirique suivante :

𝑁
1
Î𝑁 = ∑ 𝑓(𝑥𝑖 )
𝑁
𝑖=1

D’après la loi des grands nombres, l’estimateur Î𝑁 converge vers la valeur réelle 𝐼 lorsque
1
𝑁 ⟶ ∞. L’erreur d’estimation diminue proportionnellement à , selon :
√𝑁

𝜎
𝐸𝑟𝑟𝑒𝑢𝑟 ≈
√𝑁

16
où 𝜎 est l’écart-type de 𝑓(𝑋). Cela illustre la stabilité statistique de la méthode et justifie
son utilisation pour obtenir des résultats robustes à partir de grands volumes de simulations.

Le principe de la simulation de Monte Carlo repose sur la modélisation de l’incertitude et


l’évaluation des conséquences de différentes variables aléatoires sur un système donné. La
méthodologie typique comprend plusieurs étapes : identification des variables d’entrée
incertaines, définition de leurs distributions de probabilité, génération d’échantillons aléatoires,
exécution du modèle pour chaque échantillon, et analyse statistique des résultats (Kroese et al.,
2014). Ce processus permet de quantifier l’incertitude et de produire des prévisions
probabilistes, plutôt qu’une unique estimation déterministe.

Ainsi, la simulation de Monte Carlo représente un outil fondamental dans la modélisation


prédictive et la prise de décision en contexte incertain. Elle illustre la puissance des méthodes
probabilistes pour traiter des problèmes réels complexes, tout en reliant la théorie statistique à
des applications pratiques dans divers domaines scientifiques.

II. TRAVAUX SCIENTIFIQUES

La prévision des séries temporelles constitue un enjeu majeur dans de nombreux domaines,
notamment la météorologie, l’agriculture et l’économie. Les modèles traditionnels ARIMA
(Autoregressive Integrated Moving Average) restent populaires pour leur capacité à capturer les
tendances linéaires et la saisonnalité des données. Box et Jenkins (1970) ont établi les bases de
cette approche, largement utilisée pour la prédiction de la température et de la consommation
énergétique (Zhao & Magoules, 2012 ; Bianco et al., 2009 ; Maia et al., 2009), ainsi que pour
des applications économiques et agricoles. Toutefois, ARIMA présente certaines limites,
notamment dans la modélisation des dépendances non linéaires et des fluctuations rapides. À
ce propos, Aye et Karaman (2018) ainsi que Claveria & Torra (2014) ont montré que, bien que
les modèles ARIMA puissent gérer la saisonnalité, ils s’avèrent moins efficaces pour les
prévisions à long terme ou pour des séries présentant des variations complexes.

Dans ce contexte, les modèles basés sur l’apprentissage profond, en particulier les LSTM
(Hochreiter & Schmidhuber, 1997), ont émergé pour pallier ces limitations. Les LSTM sont
capables de modéliser des dépendances à long terme et des interactions complexes entre
différentes séquences temporelles. Plusieurs études ont démontré leur supériorité par rapport à
ARIMA pour la prédiction de la température, des conditions extrêmes et des indices
physiologiques des cultures, avec des erreurs de prédiction réduites et une précision nett ement

17
améliorée (Sagheer & Kotb, 2019 ; Sezer et al., 2022 ; Sajo et al., 2021). Plus récemment, Dhal
et al. (2024) ont appliqué des LSTM à entrées multiples et sorties multi-étapes pour prédire la
couverture végétale (CC) dans des champs de coton, obtenant des RMSE nettement inférieures
à celles des modèles ARIMA et des LSTM à entrer unique, notamment pour les stades précoces
de croissance. De même, Mahaluça et al. (2024) ont comparé ARIMA et LSTM pour la
production de maïs au Mozambique, sur des données allant de 1961 à 2022, et ont montré que
le LSTM capturait efficacement les variations complexes et non linéaires de la production, avec
un MAPE de 2,64 % contre 16,39 % pour ARIMA. Par ailleurs, Kasthuri & Selvakumar (2021)
et Taslim & Murwantara (2023) ont souligné que la performance relative des modèles dépend
fortement de la taille et de la qualité des données : les LSTM sont plus efficaces pour des petits
ensembles de données ou des séries comportant des valeurs manquantes, tandis qu’ARIMA
reste performant pour de grands ensembles réguliers. Enfin, des études comparatives sur les
séries économiques et financières (Siami-Namini et al., 2018) indiquent que les LSTM peuvent
réduire les taux d’erreur de 84 à 87 % par rapport à ARIMA, confirmant leur supériorité pour
les séries présentant des motifs non linéaires et des influences externes complexes. Ces travaux
mettent en évidence que le choix du modèle doit être guidé par la nature des données, la
complexité des séries et l’objectif de prévision, et que des approches combinées ou adaptatives,
utilisant ARIMA pour les tendances linéaires à long terme et LSTM pour les fluctuations
complexes, constituent une stratégie optimale.

D’autres études confirment cette tendance et renforcent la conclusion selon laquelle les
modèles basés sur les réseaux de neurones artificiels surpassent les approches traditionnelles
pour la prévision des prix et des rendements agricoles. Dans cette continuité, plusieurs
recherches récentes se sont intéressées à l’application concrète des méthodes d’apprentissage
automatique et profond, illustrant les avancées méthodologiques et les perspectives
prometteuses pour améliorer la précision des prévisions et soutenir la prise de décision dans le
secteur agricole.

Ainsi, Konnon et al. (2023) mettent en évidence que la volatilité des prix agricoles constitue un
défi majeur, notamment dans le contexte du changement climatique. Leur étude propose un
modèle de prévision du prix du maïs au Bénin, combinant données historiques et variables
climatiques (température, précipitations). Plusieurs méthodes d’apprentissage automatique ont
été comparées, incluant la régression linéaire, les arbres de décision, la forêt aléatoire, XGBoost
et les réseaux de neurones LSTM. Les résultats montrent que les LSTM intégrant les données
climatiques surpassent significativement les approches traditionnelles, avec une RMSE de

18
0,1749, une MAE de 0,1561 et une MAPE de 0,1055. Une application web associée permet en
outre de fournir des prévisions en temps réel et des visualisations interactives, contribuant à une
meilleure prise de décision, à la sécurité alimentaire et à la stabilité des marchés agricoles en
Afrique.

Par ailleurs, Md. Abu Jabed et Masrah Azrifah Azmi Murad (2024) proposent une revue
exhaustive portant sur la prédiction des rendements agricoles, mettant en avant l’efficacité de
l’intelligence artificielle, à travers l’apprentissage automatique (ML) et profond (DL). Leur
analyse de 115 articles montre que les facteurs climatiques et environnementaux, tels que
température, précipitations, type de sol, humidité et indices de végétation (NDVI, EVI, LAI,
NDWI), influencent fortement le rendement. Les méthodes ML les plus utilisées incluent
Random Forest (RF), SVM, ANN, XGBoost, Arbres de Décision et Régression Linéaire
Multiple, tandis que les techniques DL incluent CNN, LSTM et DNN. Les approches hybrides
combinant plusieurs algorithmes, telles que CNN-LSTM ou CNN-DNN, sont particulièrement
efficaces lorsqu’elles intègrent des données de télédétection, capturant à la fois les informations
spatiales et temporelles.

De même, Guissé Seck et al. (2024) illustrent l’efficacité des DNN optimisés par
algorithmes génétiques pour la prévision des rendements au Sénégal, atteignant un R² de 0,92
et utilisant des techniques d’IA explicable (XAI, LIME) pour identifier les caractéristiques
déterminantes, comme le type de culture, et classifier les cultures les plus adaptées aux
conditions pédoclimatiques locales. Enfin, Sun et al. (2019) proposent un modèle CNN-LSTM
combinant CNN et LSTM pour la prédiction du rendement du soja au niveau des comtés aux
États-Unis, démontrant des performances supérieures aux modèles CNN ou LSTM individuels
et offrant un potentiel pour d’autres cultures telles que le maïs, le blé ou les pommes de terre.

En conclusion, cette étude démontre que les réseaux de neurones, en particulier le


LSTM, constituent une alternative plus robuste et performante que les approches statistiques
classiques comme ARIMA pour la prévision de la production agricole, grâce à leur aptitude à
modéliser la non-linéarité et la variabilité temporelle des données.

Toutes ces avancées méthodologiques et les résultats prometteurs obtenus, il est important
de souligner que ces études ne sont pas exemptes de limites, tant sur le plan conceptuel que
méthodologique, qui méritent d’être analysées de manière critique.

Malgré la pertinence et la performance démontrée des modèles de prévision basés sur le


Machine learning (ML) et le Deep learning (DL), plusieurs limites ressortent de la littérature
19
consultée. En effet, la majorité des travaux s’arrêtent à la phase d’implémentation et
d’évaluation du modèle, sans procéder à des tests de robustesse à travers des simulations de
scénarios alternatifs. Très peu d’auteurs examinent comment les variat ions des variables
explicatives peuvent influencer la stabilité et la fiabilité des prédictions obtenues.

Comme le soulignent Tamayo-Vera et al. (2024) dans leur revue des techniques d’apprentissage
automatique appliquées aux études agro-climatiques, la plupart des recherches négligent
l’analyse de sensibilité et la validation sous scénarios climatiques, ce qui compromet la
généralisation des résultats. De même, Xu et al. (2025), dans une étude sur l’impact de la
variabilité climatique sur le rendement agricole en Jordanie, insistent sur la nécessité d’intégrer
des approches de sensibilité basées sur la variance pour mieux comprendre l’influence relative
de chaque variable d’entrée. Wimalasiri et al. (2023) montrent d’ailleurs, à travers leur analyse
agroclimatique du millet en Asie du Sud, que la simulation de scénarios de changement
climatique permet d’évaluer la résilience et la stabilité des rendements dans le temps.

L’absence de telles validations dynamiques dans la plupart des études limite donc la
capacité à généraliser les résultats et à garantir la robustesse des modèles face à des contextes
réels marqués par une forte incertitude. Pour y remédier, Sun et al. (2019) et Guissé Seck et al.
(2024) suggèrent que les futures recherches intègrent des analyses de sensibilité, des tests sous
différents scénarios climatiques, et des approches d’explicabilité de l’IA (XAI) afin d’assurer
la fiabilité, la transparence et la transférabilité des modèles prédictifs.

Ainsi, il apparaît nécessaire que les travaux futurs adoptent une démarche intégrée combinant
la modélisation prédictive, la simulation de scénarios et l’analyse de robustesse, notamment
dans des environnements agricoles soumis à de fortes fluctuations climatiques et économiques.

20
CHAPITRE II : CADRE MÉTHODOLOGIE

1. MILIEU D’ETUDE.

Situé au nord du Bénin, le département du Borgou couvre une superficie de 25 856 km², soit
environ 23 % du territoire national. Il dispose de 13 962 km² de terres cultivables, représentant
54 % de sa superficie totale, ce qui témoigne de son fort potentiel agricole. Administrativement,
le Borgou est subdivisé en huit communes : Kalalè, N’dali, Pèrèrè, Nikki, Sinendé, Bembèrèkè,
Parakou et Tchaourou, elles-mêmes réparties en 43 arrondissements et 310 villages et quartiers
de ville. Selon le Recensement Général de la Population et de l’Habitation (RGPH), le
département compte une population totale de 1 214 249 habitants, dont 803 926 appartiennent
à la population agricole, regroupant 83 275 ménages agricoles.

L’économie du Borgou repose largement sur l’agriculture, principal moyen de subsistance des
ménages. Environ 94,8 % des ménages agricoles s’activent dans le secteur végétal, traduisant
la prédominance de la production végétale dans le secteur rural (RGPH-4, 2013). Cette
dynamique se retrouve dans la mise en œuvre du Programme de Relance du Secteur Agricole
(PRSA), où les cultures céréalières représentent 53,1 % des productions prioritaires.
L’importance de l’agriculture dans le Borgou se manifeste également par le fait que 67,92 % de
la population totale dépend directement de cette activité pour ses moyens d’existence, ce qui
rend la performance agricole déterminante pour la sécurité alimentaire et le développement
économique local.

La présente étude porte sur la production céréalière dans les communes du Borgou entre 1995
et 2023, en se concentrant sur cinq cultures essentielles : le riz, le maïs, le sorgho, le mil et le
soja. Ces cultures ont été sélectionnées en raison de leur rôle stratégique, à la fois socio-
économique, en assurant les revenus d’une large part des ménages agricoles, et nutritionnel, en
contribuant de manière significative à la sécurité alimentaire des populations rurales et
urbaines).

2. MATERIEL ET METHODES D’ETUDE

Les données utilisées dans cette étude proviennent de la Plateforme de la Direction de la


Statistique Agricole (DSA), couvrant la période allant de 1995 à 2023. Ces données incluent les
superficies cultivées par culture et par commune, les rendements, ainsi que la production totale.

21
Pour le traitement et l’analyse de ces données, nous avons utilisé deux environnements
logiciels complémentaires. Le logiciel R a été employé pour le prétraitement des données,
incluant le nettoyage des informations, la transformation des variables et le codage des variables
catégorielles. Parallèlement, Python a été utilisé pour la construction du modèle de réseau de
neurones LSTM, la réalisation de la simulation de type Monte Carlo, ainsi que pour la
visualisation et l’analyse statistique des résultats. Les principales bibliothèques Python
mobilisées comprennent pandas et numpy pour la manipulation et la gestion des données,
tensorflow/keras pour le développement du modèle LSTM, matplotlib et seaborn pour la
création des graphiques, ainsi que [Link] pour générer les distributions aléatoires utilisées
dans la simulation Monte Carlo.

L’ensemble de ce matériel a permis de traiter de manière rigoureuse les données historiques,


tout en intégrant la variabilité et l’incertitude inhérentes aux productions agricoles, et de
produire des résultats fiables pour l’analyse des prédictions du modèle. Le pré-traitement prend
en compte :

2.1. Vérification et traitement des valeurs manquantes

Tout d’abord, il est essentiel de s’assurer de la complétude et de la fiabilité de la base de


données. En effet, la présence de valeurs manquantes peut biaiser les résultats et compromettre
la performance des modèles prédictifs. Ainsi, une procédure systématique nous a permis de
détecter 144 valeurs manquantes dans la base de données. Une méthode d’interpolation
linéaires est alors appliquée au jeu de donnée afin de combler ces valeurs manquantes . Cette
technique consiste à estimer une valeur manquante en reliant par une droite les deux
observations adjacentes connues, ce qui permet de préserver la continuité des tendances
historiques et de limiter les biais statistiques.

2.2. Détection et traitement des valeurs aberrantes

Les valeurs aberrantes (ou outliers) sont des observations qui s'écartent significativement des
autres données, c’est-à-dire des valeurs extrêmes au-delà de l’intervalle interquartile (IQR)
susceptible de fausser les analyses. Dans le cas de nos données IQR est fixé à

Il est donc important de les identifier et de décider de la manière de les traiter. La méthode
courante prend en compte la visualisation graphique. Elle consiste à utiliser des diagrammes en
boîte (boxplots) ou des histogrammes pour visualiser la distribution des données et identifier
visuellement les valeurs aberrantes.

22
2.3. Homogénéisation

L’homogénéité désigne la cohérence interne des données collectées en termes de format,


d’unité de mesure, de périodicité et de structure. Pour garantir l’homogénéité de la base de
données, plusieurs étapes seront suivies

2.4. Vérification de la cohérence inter-variables :

La relation entre production, rendement et superficie cultivée sera systématiquement contrôlée


selon la formule :

𝑷𝒓𝒐𝒅𝒖𝒄𝒕𝒊𝒐𝒏 = 𝑺𝒖𝒑𝒆𝒓𝒇𝒊𝒄𝒊𝒆 ∗ 𝑹𝒆𝒏𝒅𝒆𝒎𝒆𝒏𝒕

La codification de la variables Cultures avec pour modalité de manière uniforme.

La variable « Cultures » de notre base de données est qualitative nominale, avec quatre
modalités distinctes : maïs, riz, sorgho et mil. Or, les modèles de Deep Learning ne peuvent
traiter que des variables numériques. Il est donc nécessaire de transformer cette variable
catégorielle en une représentation numérique appropriée. Nous avons recouru la méthode One-
Hot Encoding. Elle permet d’éviter l’introduction d’une hiérarchie artificielle entre les céréales,
contrairement à la codification simple qui pourrait être interprétée à tort par l’algorithme
comme une relation d’ordre. Ainsi, chaque céréale est représentée par un vecteur binaire de
dimension 5.

2.5. Normalisation des variables quantitatives :

Les données collectées sur la production céréalière présentent des échelles très différentes. En
effet, les superficies cultivées sont exprimées en hectares, le rendement en kilogrammes par
hectare, et la production totale en kilogrammes. Si elles étaient utilisées directement dans les
modèles de prédiction, la variable « production » dominerait les calculs du fait de son ordre de
grandeur élevé par rapport aux autres. Pour corriger ce déséquilibre et permettre une
comparaison équitable entre les variables, une étape de normalisation est effectuée. Nous avons
donc a effectué une standardisation par Z-score. Cette transforme les données pour obtenir une
distribution centrée (moyenne nulle) et réduite (écart-type égal à 1), selon la formule :

𝒙−µ
𝑿=
𝝈

Où x représente la valeur initiale, μ la moyenne de la variable, σ : l’écart-type.

23
Cette transformation a permis de mettre toutes les variables sur la même échelle, de stabiliser
l’entraînement des modèles de prédiction et d’éviter qu’une variable à forte amplitude ne
domine artificiellement les calculs.

3. METHODES D’ANALYSE DES DONNEES

3.1. Analyse des tendances d’évolution et comparaison des performances entre les types
de céréales

L’analyse des tendances d’évolution et la comparaison des performances entre les types de
céréales reposent sur l’exploitation de séries chronologiques afin de comprendre la dynamique
spatio-temporelle de la production céréalière. Dans un premier temps, des statistiques
descriptives telles que la moyenne, la variance, l’écart-type, le minimum et le maximum sont
calculées par année, culture et commune, afin de caractériser les niveaux de production et leur
variabilité. Des outils graphiques, notamment des courbes d’évolution, des diagrammes en
barres, ont permis de visualiser les dynamiques, de comparer les productions entre cultures.
Parallèlement, un ajustement de régression linéaire a été appliqués pour dégager les tendances
de fond. Cette approche combinée a facilité non seulement l’identification et l’interprétation
des trajectoires générales de la production céréalière au fil du temps, mais également la
comparaison des performances entre les différents types de céréales en termes de superficie
cultivée, de rendement et de production totale.

3.2. Identifier les corrélations entre superficie, rendement et production.

Pour mieux comprendre les relations entre les variables quantitatives de la production
céréalière, une analyse de corrélation est réalisée. Elle permet de déterminer l’existence et
l’intensité des liens entre la superficie cultivée, le rendement et la production totale. L’objectif
est de vérifier si une augmentation de la superficie cultivée ou du rendement se traduit par une
variation proportionnelle de la production totale, et d’identifier quelles variables sont les plus
fortement associées. Les corrélations sont quantifiées à l’aide du coefficient de corrélation r de
Pearson lorsque les variables suivent une distribution normale, ou du coefficient ρ de Spearman
en cas de non-normalité. Cette étape nous a permis de comprendre la dynamique des données
et de préparer la modélisation.

3.3. Modélisation prédictive par deep learning

La mise en œuvre du modèle de prédiction par réseau de neurones a été réalisée en langage
Python, à l’aide de bibliothèques spécialisées du Deep Learning.

24
La bibliothèque Keras a servi d’interface principale pour la conception et l’entraînement du
modèle, facilitant la définition des couches, des fonctions d’activation et des paramètres
d’optimisation. Elle repose sur TensorFlow, utilisé comme moteur de calcul pour gérer les
opérations matricielles, la rétropropagation du gradient et l’accélération de l’apprentissage via
les GPU.

Pour le traitement des données, pandas et numpy ont été mobilisés pour le nettoyage et la
transformation, tandis que scikit-learn a permis la normalisation, la division en jeux
d’entraînement, de validation et de test, ainsi que le calcul des métriques d’évaluation. Enfin,
matplotlib et seaborn ont servi à la visualisation des performances et à l’analyse graphique des
résultats.

Cette combinaison d’outils a permis de concevoir un modèle LSTM performant, capable de


capturer les dépendances temporelles et les relations non linéaires entre les variables, offrant
ainsi des prédictions robustes et précises sur la production céréalière.

3.3.1. Découpage des données en ensembles d’apprentissage, de validation et de test

Afin d’assurer une évaluation rigoureuse et objective des performances du modèle de Deep
Learning, l’ensemble des données est divisé en trois sous-échantillons distincts : jeu
d’entraînement, jeu de validation et jeu de test.

ᶿ Jeu d’entraînement (Training set)

Il comprend environ 70 % des données, soit 672 observations. Ce sous-ensemble est utilisé pour
ajuster les paramètres internes du réseau LSTM, tels que les poids et les biais, afin que le modèle
apprenne les relations entre les variables explicatives et la variable cible.

ᶿ Jeu de validation (Validation set)

Il représente environ 15 % des données, 128 observations. Ce jeu permet de suivre les
performances du modèle au cours de l’entraînement, d’ajuster les hyperparamètres et d’éviter
le surapprentissage.

ᶿ Jeu de test (Test set)

Il correspond aux 15 %, 128 restants. Ces données ne sont utilisées qu’après l’entraînement
complet du modèle afin d’évaluer sa capacité de généralisation sur des périodes futures,
simulant la situation réelle de prévision.

25
3.3.2. Architecture du modèle LSTM

Le modèle a été conçu sous forme d’un réseau séquentiel, comprenant :

- Une couche d’entrée définissant la forme des données d’apprentissage

Dans le cadre de cette étude, chaque échantillon correspond à une fenêtre temporelle glissante
représentant l’évolution des variables explicatives sur une période donnée. Ainsi, la couche
d’entrée permet au réseau d’intégrer simultanément plusieurs informations : les tendances
temporelles issues des années précédentes, la variabilité interannuelle des facteurs de
production, et les différences entre cultures et communes. Elle joue donc un rôle essentiel dans
la transmission de la dynamique spatio-temporelle des données vers les couches cachées du
réseau, assurant ainsi une compréhension contextuelle des phénomènes agricoles avant le
processus d’apprentissage proprement dit.

- Deux couches cachées LSTM associé à des fonctions d’activation, des couches de
régularisation :

Les couches cachées constituent le cœur du réseau de neurones, là où s’effectue la véritable


extraction des caractéristiques temporelles et non linéaires à partir des données d’entrée. Notre
modèle est structuré autour de deux couches LSTM successives, chacune remplissant un rôle
spécifique dans le processus d’apprentissage. Une fonction d’activation de type tangente
hyperbolique (tanh), adaptée à la modélisation des dépendances temporelles est intégrée à
chacune des couches e notre modèle suivis des couches de régularisations Dropout puis L1, L2
pour éviter les poids excessifs et stabiliser l’apprentissage

- Une couche de sortie à activation linéaire

La couche de sortie du modèle a été configurée pour produire la valeur prédite de la variable «
Production », qui constitue la variable cible dans cette étude. Étant donné qu’il s’agit d’un
problème de régression, la couche de sortie ne comporte qu’un seul neurone, chargé de fournir
une valeur numérique continue correspondant à la production prédite pour une combinaison
donnée de variables explicatives. La fonction d’activation utilisée dans cette couche est la
fonction linéaire. Ce choix est justifié par le fait qu’une fonction linéaire permet de conserver
l’échelle réelle des valeurs de sortie.

Ainsi, le modèle peut prédire librement des valeurs de production, qu’elles soient faibles ou
élevées, en cohérence avec la nature quantitative et non bornée de cette variable.

26
3.4. Paramétrage du réseau de neurones LSTM

Le paramétrage du réseau de neurones artificiels constitue une étape déterminante pour


assurer la performance du modèle prédictif. Il consiste à définir la structure du réseau ainsi que
l’ensemble des hyperparamètres qui régissent son apprentissage. Dans le cadre de cette étude,
le modèle est construit sous forme d’un réseau à propagation avant (feed-forward neural
network) comprenant une couche d’entrée, deux couches cachées, et une couche de sortie.

Le paramétrage du réseau de neurones consiste donc à définir ses principales caractéristiques


structurelles et fonctionnelles afin d’optimiser la précision des prédictions. Plusieurs éléments
seront pris en compte :

La couche d’entrée : constitue la première étape du réseau de neurones LSTM. Elle reçoit les
données séquentielles préparer préalablement.

❖ Nombre de couches cachées et de neurones par couche.

Le modèle de prédiction repose sur une architecture à deux couches LSTM successives, conçue
pour capter la complexité temporelle des données agricoles.

La première couche, composée de 64 neurones, a pour rôle de détecter les relations dynamiques
entre la superficie cultivée, le rendement et la production. Elle identifie notamment les
tendances saisonnières et les effets retardés de la production, assurant une représentation fine
des variations temporelles.

La seconde couche, plus compacte avec 32 neurones, condense les informations extraites pour
générer une représentation plus stable et généralisable du comportement productif des cultures.

L’empilement de ces deux couches permet ainsi d’équilibrer profondeur et capacité


d’apprentissage : il est suffisamment puissant pour modéliser la complexité des phénomènes
agricoles sans tomber dans le surapprentissage. Ce compromis garantit des prédictions fiables
et robustes à partir des données historiques

❖ Fonctions d’activation.

Deux types de fonctions d’activation ont été utilisés selon le rôle des couches :

Les deux couches cachées du réseau utilisent la fonction tanh, particulièrement adaptée aux
modèles récurrents tels que les LSTM. Elle transforme les valeurs d’entrée dans un intervalle
compris entre -1 et +1, ce qui permet de :

27
ᶿ Centrer les données autour de zéro pour un apprentissage plus stable ;

ᶿ Limiter la propagation d’erreurs extrêmes dans le temps (vanishing gradient) ;

ᶿ Mieux capturer les dépendances temporelles dans les séries chronologiques.

Le choix de cette fonction s’explique donc par sa capacité à maintenir la stabilité des gradients
et à améliorer la rétention d’information dans les séquences temporelles longues, ce qui est
crucial dans le cadre de la modélisation de la production agricole.

La couche de sortie du modèle adopte une fonction d’activation linéaire, car l’objectif est de
prédire une valeur continue (production céréalière en tonnes).

Cette fonction permet au modèle de produire directement une sortie proporti onnelle à la
combinaison pondérée des entrées, sans contrainte de borne. Ainsi, elle garantit une sortie
quantitative cohérente avec la nature du problème de régression.

L’association d’une activation tanh pour les couches internes et d’une activation linéaire pour
la sortie constitue une configuration standard dans les modèles LSTM de prévision de séries
temporelles. Elle offre un compromis optimal entre stabilité numérique, capacité de
généralisation et précision prédictive, tout en assurant une convergence rapide lors de
l’apprentissage.

3.5. Optimisation par descente de gradient stochastique et régularisation pour du réseau


LSTM

Le réseau est entraîné via la descente de gradient stochastique (SGD), une méthode itérative
qui met à jour les poids du modèle en minimisant l’erreur de prédiction.

ᶿ Le taux d’apprentissage initial :

Souvent noté η, constitue un hyperparamètre essentiel dans le processus d’optimisation du


réseau de neurones. Il détermine l’amplitude des ajustements apportés aux poids du modèle à
chaque itération de la descente de gradient. En d’autres termes, il contrôle la vitesse à laquelle
le réseau apprend à partir des erreurs commises durant l’entraînement. Il est fixé à 0,001 avec
des ajustements possibles dans [0,0001 – 0,01] afin d’obtenir la meilleure convergence.

ᶿ Techniques de régularisation

Pour limiter le risque de surapprentissage, des couches de régularisation Dropout ainsi que des
pénalisations L1 et L2 ont été intégrées après chaque couche LSTM.

28
Le Dropout, introduit par Srivastava et al. (2014), consiste à désactiver aléatoirement 20 % des
neurones à chaque itération, favorisant ainsi la diversité de l’apprentissage et une meilleure
généralisation du modèle.

Les régularisations L1 (0.0001) et L2 (0.001) ajoutent des pénalités sur les poids du réseau : la
première encourage la parcimonie en annulant certains poids, tandis que la seconde limite leur
amplitude excessive pour stabiliser l’apprentissage.

Leur combinaison, appelée régularisation élastique (Elastic Net), assure un équilibre entre
simplicité du modèle et stabilité numérique.

Ces techniques ont permis d’améliorer la robustesse prédictive, de stabiliser la convergence du


modèle et d’assurer des prédictions fiables malgré la variabilité des données agricoles.

ᶿ Fonction de coût :

Dans un réseau de neurones, la fonction de coût (ou fonction de perte) quantifie l’écart entre
les prédictions du modèle et les valeurs réelles observées. Pour la prédiction de la production,
la fonction choisie est l’erreur quadratique moyenne (MSE) :
𝒏
𝟏
𝑴𝑺𝑬 = ∑(𝒚𝒊 − 𝒚̂𝒊 )𝟐
𝒏
𝒊−𝟏

Où 𝒚𝒊 est la valeur réelle, 𝒚


̂𝒊 la valeur prédite et 𝑛 le nombre d’observations. Cette
fonction punit fortement les grandes erreurs, permettant ainsi d’optimiser le réseau pour
produire des prédictions précises et fiables.

ᶿ Early Stopping :

Le mécanisme d’early stopping a été introduit pour interrompre automatiquement


l’apprentissage lorsque la performance du modèle sur l’ensemble de validation cesse de
s’améliorer après un certain nombre d’époques consécutives. Cette technique permet d’éviter
que le réseau n’apprenne de manière excessive les particularités du jeu d’entraînement, ce qui
pourrait dégrader sa capacité de généralisation. Il garantit donc un entraînement efficace et
éviter le surapprentissage. Un critère de patience de 10 à 20 itérations a donc été retenu : si la
perte de validation (validation loss) ne diminue plus durant cette période, l’entraînement
s’arrête automatiquement. Cela permet un équilibre optimal entre performance et efficacité
computationnelle.

ᶿ Nombre maximum d’itérations :


29
Le modèle a été entraîné sur un maximum de 200 itérations (époques), ce qui correspond
au nombre de fois que l’ensemble des données d’entraînement est entièrement parcouru par le
réseau. Cependant, grâce à l’early stopping, l’entraînement s’arrête souvent avant d’atteindre
cette limite lorsque la convergence est atteinte. Ce paramètre a été choisi après plusieurs essais
afin de garantir la stabilité de l’erreur de validation, permettant ainsi d’assurer un apprentissage
suffisant tout en limitant le risque de surapprentissage.

ᶿ Une couche de sortie composée d’un seul neurone à activation linéaire

Dans le cas de notre étude, un seul neurone suffit, puisque l’objectif est de générer une valeur
continue unique de la production en tonnes. La fonction d’activation de ce neurone est linéaire,
ce qui signifie que la sortie est directement égale à la combinaison linéaire des entrées pondérées
et du biais

Ces hyperparamètres seront ajustés progressivement grâce à l’ensemble de validation, en testant


différentes combinaisons, afin de trouver le compromis optimal entre performance prédictive
et généralisation.

3.6. Évaluation du modèle

L’évaluation de la performance du modèle est réalisée à l’aide de plusieurs métriques :

RMSE (Root Mean Squared Error) pour mesurer l’erreur moyenne de prédiction ;

𝑛
(𝑦̂𝑖 − 𝑦𝑖 )2
𝑅𝑀𝑆𝐸 = √∑
𝑛
𝑖=1

MAE (Mean Absolute Error) pour estimer l’écart absolu moyen ;


𝑛
1
𝑀𝐴𝐸 = ∑ |𝑥𝑖 − 𝑥|
𝑛
𝑖=1

R (coefficient de détermination) pour évaluer la proportion de variance expliquée par


le modèle.

Ces indicateurs ont permis de juger la qualité des prédictions et la robustesse du modèle sur la
série temporelle.

3.7. Simulation de Monte Carlo

30
Afin d’évaluer l’adaptabilité du modèle prédictif face aux incertitudes des données
agricoles, une simulation de type Monte Carlo a été réalisée. Cette méthode consiste à
considérer la superficie cultivée et le rendement comme des variables aléatoires suivant une
distribution normale, reflétant leur variabilité naturelle.

De nombreux tirages aléatoires sont ensuite générés à partir de ces distributions et propagés
dans le modèle, permettant d’analyser la manière dont celui-ci réagit à des fluctuations
imprévisibles des données d’entrée.

Cette approche offre une vision plus réaliste du comportement du modèle dans différents
contextes possibles et permet de produire des prédictions assorties d’intervalles de confiance,
traduisant les incertitudes inhérentes aux systèmes de production agricole.

3.7.1. Simulation des données d’entrée

Pour évaluer l’adaptabilité du modèle face aux incertitudes inhérentes aux données
agricoles, 2 000 itérations ont été réalisées à partir de deux variables explicatives principales :

La superficie cultivée (en hectares) : elle est supposée suivre une distribution normale centrée
sur la moyenne observée dans l’échantillon réel. L’écart-type retenu traduit la dispersion
moyenne constatée entre les communes du département.

Le rendement (en tonnes par hectare) : il suit également une distribution normale, dont les
paramètres (moyenne et écart-type) sont issus des statistiques historiques des cultures
céréalières de la zone d’étude.

La production totale simulée pour chaque itération est ensuite calculée comme le produit de la
superficie et du rendement, permettant ainsi de générer une large gamme de situations possibles.

Une analyse descriptive préliminaire (moyenne, médiane, variance et intervalles de variation)


a été effectuée afin de vérifier la cohérence et la représentativité des valeurs simulées avant leur
intégration dans le modèle de prédiction.

3.7.2. Intégration des données simulées dans le modèle

Les valeurs simulées de superficie et de rendement ont ensuite été injectées dans le modèle
LSTM préalablement entraîné sur les séries chronologiques réelles.

À chaque itération, une paire de valeurs aléatoires est tirée selon leurs distributions respectives
et combinée avec les autres variables explicatives nécessaires à la prédiction.

31
Cette intégration permet de produire, pour chaque scénario simulé, une valeur prédite de la
production céréalière.

L’objectif de cette étape est d’obtenir non pas une estimation unique de la production, mais une
distribution complète de prédictions possibles, reflétant la variabilité naturelle des conditions
agricoles.

3.7.3. Propagation dans le modèle prédictif

Chaque couple de valeurs simulées est propagé à travers le réseau neuronal LSTM.

Le modèle, fondé sur l’apprentissage profond, tient compte des dépendances temporelles et
spatiales issues de l’entraînement, ainsi que du type de culture et de la commune considérée.

Pour chaque itération, il génère une prédiction de la production céréalière correspondante.

Au terme des 2000 simulations, on obtient un ensemble de prédictions aléatoires dont la


distribution représente la variabilité attendue de la production dans des conditions fluctuantes
de superficie et de rendement.

Cette approche par propagation répétée permet de quantifier l’incertitude associée aux
prévisions et d’évaluer la stabilité du modèle face aux perturbations possibles des variables
d’entrée.

3.7.4. Analyse statistique des résultats simulés

Les résultats issus des simulations ont fait l’objet d’une analyse statistique approfondie
visant à évaluer la robustesse, la fiabilité et la sensibilité du modèle.

Les indicateurs calculés comprennent :

ᶿ La moyenne, la médiane et l’écart-type des valeurs simulées de production pour estimer


la tendance centrale et la dispersion globale ;

ᶿ Les intervalles de confiance à 95 %, permettant de délimiter la plage probable des


productions prédites ;

ᶿ Une analyse de sensibilité, mesurant l’impact des variations de la superficie et du


rendement sur les prédictions du modèle ;

ᶿ Une analyse de stabilité, observant la constance des résultats à travers différents


scénarios de stress simulés.

32
Ces analyses permettent de mieux comprendre la marge d’incertitude autour des estimations du
modèle et d’identifier les facteurs les plus influents sur la production.

3.7.5. Interprétation et visualisation des résultats

Pour faciliter la compréhension et la communication des résultats, plusieurs représentations


graphiques ont été mobilisées :

ᶿ Des histogrammes pour illustrer la distribution des productions simulées et la dispersion


des valeurs autour de la moyenne ;

ᶿ Des boxplots pour visualiser les valeurs extrêmes, les médianes et les zones de
concentration des prédictions ;

ᶿ Des graphes comparatifs entre scénarios de simulation, afin d’analyser la réponse du


modèle à des modifications ciblées des paramètres d’entrée (par exemple, augmentation
de 10 % du rendement ou réduction de 5 % de la superficie).

Ces visualisations permettent d’apprécier de manière claire la variabilité et la cohérence interne


du modèle, tout en offrant un support visuel à la discussion des performances obtenues.

L’ensemble de ces analyses contribue à valider la robustesse du modèle LSTM et à renforcer la


fiabilité des conclusions tirées de l’étude.

4. LIMITES DE LA RECHERCHE

Malgré la rigueur scientifique adoptée dans la présente recherche et la pertinence des


approches mobilisées, cette étude comporte certaines limites qu’il convient de souligner afin de
mieux situer la portée et la fiabilité des résultats obtenus. Ces limites se rapportent
principalement à la disponibilité des données, à la structure du modèle utilisé, aux hypothèses
sous-jacentes à la simulation, ainsi qu’à la généralisation des résultats.

La première limite concerne la qualité et la disponibilité des données utilisées pour


l’entraînement et la validation du modèle. Bien que les séries chronologiques mobilisées
couvrent une période relativement longue, allant de 1995 à 2023, certaines d’entre elles
comportaient des valeurs manquantes ou incohérentes, nécessitant des interpolations ou des
corrections manuelles. Ces ajustements, bien qu’indispensables pour assurer la cohérence du
jeu de données, peuvent introduire des biais susceptibles d’affecter la précision du modèle. Par
ailleurs, plusieurs variables explicatives importantes, telles que la pluviométrie journalière, la
température moyenne, l’humidité du sol, la disponibilité des intrants agricoles, les fluctuations

33
des prix ou encore les politiques de subvention, n’ont pas pu être intégrées en raison de leur
indisponibilité ou de leur hétérogénéité selon les sources. Cette limitation réduit la capacité du
modèle à capturer l’ensemble des interactions complexes entre les déterminants climatiques,
économiques et techniques de la production agricole.

Sur le plan méthodologique, la modélisation basée sur le réseau de neurones récurrent


LSTM présente également certaines limites. Si cette architecture se révèle particulièrement
efficace pour modéliser les dépendances temporelles et les non-linéarités des séries
chronologiques, elle reste sensible à la taille et à la qualité de l’échantillon d’entraînement. Dans
cette étude, le jeu de données a été réparti entre trois sous-ensembles : un ensemble
d’apprentissage de 672 observations, un ensemble de validation de 128 observations et un
ensemble de test de 128 observations. Cette répartition, bien que méthodologiquement justifiée,
limite la capacité de généralisation du modèle dans un contexte de données limitées. Par
ailleurs, le modèle tend à sous-estimer les valeurs extrêmes et demeure vulnérable au
phénomène de surapprentissage (overfitting), malgré l’utilisation de techniques de
régularisation. De plus, le modèle a traité chaque observation de manière indépendante, sans
intégrer les corrélations spatiales potentielles entre les différentes zones de production. Une
approche spatio-temporelle combinant les LSTM avec des réseaux convolutifs (CNN-LSTM)
pourrait offrir de meilleures performances en capturant la variabilité géographique des
rendements.

Concernant la simulation Monte Carlo, utilisée pour tester la robustesse du modèle et


évaluer les scénarios de production, certaines limites méthodologiques subsist ent également.
Le bruit aléatoire introduit à chaque itération repose sur l’hypothèse d’une distribution normale
des erreurs, ce qui ne reflète pas toujours fidèlement la réalité. Les erreurs résiduelles observées
dans les séries agricoles peuvent présenter des distributions asymétriques ou comporter des
valeurs extrêmes (queues épaisses), notamment en période de stress climatique ou d’anomalie
économique. En outre, les scénarios simulés se basent essentiellement sur des variations
hypothétiques des variables principales (superficie, rendement), sans intégrer explicitement
l’influence de facteurs exogènes dynamiques tels que les politiques agricoles, les innovations
technologiques ou les aléas climatiques extrêmes. Ces simplifications, bien que nécessaires
pour la faisabilité du modèle, peuvent restreindre la portée interprétative des simulations.

Une autre limite importante concerne la portée et la généralisation des résultats. Les prédictions
obtenues sont directement liées au contexte agroécologique, économique et institutionnel de la
zone d’étude. De ce fait, leur extrapolation à d’autres régions ou cultures doit être envisagée
34
avec prudence. Le modèle fournit essentiellement une estimation quantitative de la production,
mais n’explique pas en profondeur les mécanismes causaux reliant les différentes variables. En
d’autres termes, il s’agit d’un modèle prédictif plus que d’un modèle explicatif. Cette
caractéristique limite la compréhension fine des déterminants structurels de la production
agricole.

Enfin, ces différentes limites ouvrent des perspectives d’amélioration pour les travaux
futurs. L’intégration de variables agro-climatiques détaillées et de données socio-économiques
actualisées permettrait d’enrichir la base de données et d’améliorer la précision des prédictions.
De même, l’adoption d’architectures hybrides combinant LSTM, CNN ou modèles bayésiens
pourrait aider à mieux capter la variabilité spatio-temporelle des phénomènes agricoles.
L’utilisation d’approches d’apprentissage explicable pourrait également permettre d’identifier
les facteurs les plus déterminants dans la prédiction de la production. Enfin, l’élargissement de
la simulation Monte Carlo à des scénarios climatiques prospectifs offrirait une meilleure
évaluation de la résilience des systèmes agricoles face aux changements environnementaux et
aux chocs externes.

35
CHAPITRE III : RESULTATS ET DISCUSSION

I. PRESENTATION DES RESULTATS

A. Analyse de la dynamique de la production céréalières dans les communes du


Borgou

Cette section examine l’évolution spatio-temporelle de la production céréalière dans les


communes du Borgou entre 1995 et 2023. L’objectif est d’identifier les tendances, fluctuations
et disparités observées selon les cultures et les localités.

1. Évolution de la production céréalière

L’étude des tendances d’évolution de la production céréalière repose sur l’analyse de séries
chronologiques. Dans un premier temps, l’analyse des statistiques descriptives a montré que la
moyenne des valeurs varie autour de zéro, avec une médiane légèrement négative de 0,167, ce
qui suggère que la majorité des observations se situent en dessous d’une référence ou d’une
valeur de base. La variance et l’écart-type sont globalement élevés (moyenne variance ≈ 0,979
et écart-type moyen ≈ 0,574), indiquant une forte dispersion des données entre les communes
et au fil des années. Les valeurs minimales atteignent environ -0,39 et les maximales dépassent
0,83, voire 9,77 pour certaines observations extrêmes, ce qui révèle la présence de fort es
fluctuations ponctuelles dans la production. Cette distribution suggère que certaines communes
ont des performances très supérieures à la moyenne tandis que d’autres restent largement en
déficit, mettant en évidence à la fois une hétérogénéité spatiale et temporelle importante dans
les données.

Ensuite, nous avons mobilisée des méthodes graphiques notamment la représentation des
séries annuelles sous forme de courbes d’évolution pour visualiser l’évolution de la production
totale ainsi que les dynamiques et les performances des cultures par communes, des diagrammes
en barres pour comparer les productions entre ces cultures.

Toutefois, avant de comparer les productions des différentes céréales, un test non
paramétrique de Kruskal–Wallis a donc été utilisé, confirmant des différences significatives
entre les productions (p < 2,2e-16). Les comparaisons post hoc révèlent que le maïs produit
significativement plus que le mil (p < 0,001), le riz (p < 0,001) et le sorgho (p < 0,001), tandis
que le mil et le riz ne diffèrent pas (p = 0,999). Le sorgho est légèrement supérieur au mil (p =
0,039) et montre une différence marginale avec le riz (p = 0,057). Ces résultats confirment la

36
prépondérance du maïs dans le système céréalier et l’importance des cultures secondai res pour
la sécurité alimentaire.

La production céréalière totale dans le département du Borgou a globalement augmenté


entre 1995 et 2023, bien que ponctuée de fluctuations. La période 1995‑2003 se caractérise par
de faibles rendements et une forte variabilité, probablement liée à des conditions climatiques
défavorables et à un accès limité aux intrants. Entre 2003 et 2005, la production connaît une
croissance soutenue, reflétant l’adoption de meilleures pratiques agricoles et une meilleure
structuration du secteur. La période 2006‑2014 montres des variations irrégulières, avec des
hausses et baisses alternées, traduisant l’instabilité des rendements due à la variabilité
pluviométrique et à d’autres perturbations économiques ou environnementales. À partir de
2015, la production repart à la hausse de manière relativement stable jusqu’en 2019, indiquant
une meilleure adaptation des producteurs et l’effet positif des politiques agricoles. Une légère
baisse est observée autour de 2020‑2022. Enfin, 2023 enregistre un pic historique de
production, attribuable à des conditions climatiques favorables, à l’adoption accrue des
techniques modernes et aux innovations technologiques.

Figure 5: Evolution de la production céréalière de 1995-2023

2. Évolution de la production par cultures au fil du temps

Le graphique de la Figure 6 illustre l’évolution de la production des principales cultures


céréalières (maïs, riz, mil et sorgho) entre 1995 et 2023. Le maïs domine largement l’ensemble,
avec une croissance soutenue malgré quelques fluctuations entre 2000 et 2012, avant une hausse
marquée à partir de 2013 culminant en 2023. Cette progression reflète un fort engouement des
producteurs, soutenu par un meilleur accès aux intrants, à des variétés améliorées et à un
accompagnement technique renforcé.

37
Le mil reste quant à lui stable et faiblement productif sur toute la période, indiquant une
stagnation probablement liée à sa rentabilité limitée. Le riz enregistre une amélioration
progressive, notamment depuis 2019, sous l’effet des initiatives publiques de promotion de la
riziculture et de l’introduction de variétés plus performantes. Le sorgho, enfin, présente une
forte volatilité, marquée par des alternances de hausses et de baisses attribuables aux aléas
climatiques et aux variations de superficies cultivées.

Globalement, le graphique confirme la nette prédominance du maïs dans la production


céréalière du Borgou, tandis que le riz amorce une dynamique de croissance encourageante et
que le mil et le sorgho demeurent à des niveaux plus modestes.

Figure 6: Evolution de la production par cultures de 1995-2023

3. Comparaison de la production moyenne par type de céréale

L’analyse du graphique de la production moyenne par type de céréale vient confirmer es


différences significatives entre les cultures étudiées remarquée après le test de test de Kruskal–
Wallis. Le Maïs se distingue nettement comme le meilleur performeur, avec une production
moyenne positive d’environ 0,75 tonne, ce qui en fait le moteur principal de la production
céréalière. En revanche, le Mil, le Riz et le Sorgho affichent des valeurs négatives sur l’axe de
la production moyenne, indiquant une sous-performance par rapport à une référence ou à la
moyenne globale des quatre cultures. Parmi ces trois céréales, le Riz accuse le déficit le plus
important, avec une production moyenne proche de -0,45 tonne, suivi du Mil (-0,35 tonne) et
du Sorgho (-0,20 tonne). Cette distribution souligne une polarisation marquée : le Maïs domine
largement la production, tandis que les autres cultures restent en retrait. Ces résultats mettent
en évidence la prépondérance du Maïs dans le système agricole et la nécessité d’identifier les
facteurs limitant la production des autres céréales pour améliorer la performance globale.

38
Figure 7: Production moyenne par type de céréale

4. Évolution de la production par culture et par commune (1995-2023)

L’analyse des graphiques individuels par commune révèle une forte hétérogénéité spatiale
et temporelle de la production céréalière dans le département du Borgou. Le maïs demeure la
culture dominante dans toutes les communes, tandis que le mil, le riz et le sorgho restent
largement marginaux, avec des niveaux de production souvent proches de zéro ou négatifs.

À Bembèrèkè, la production de maïs reste faible (moins de 0,5 tonne) jusqu’en 2012, avant de
croître rapidement pour atteindre un plateau autour de 1,3 tonne entre 2016 et 2021, culminant
à plus de 1,5 tonne en 2023. Les autres cultures y demeurent marginales, confirmant le rôle
moteur du maïs dans la croissance agricole locale.

À Nikki, la production de maïs présente une forte volatilité, culminant à environ 1,75 tonne
en 2010, suivie d’une baisse puis d’un redressement vers 0,9 tonne en 2023. Le sorgho y atteint
un pic ponctuel à 0,3 tonne en 2007, tandis que le mil et le riz restent négligeables. Cette
commune illustre une croissance du maïs plus instable que celle observée à Bembèrèkè.

À Kalalé, la progression du maïs se fait par paliers : environ 0,75 tonne en 2005, suivie
d’une baisse, puis d’une reprise atteignant 1,25 tonne en 2023. Le mil et le sorgho ont joué un
rôle secondaire entre 2002 et 2010, avant de devenir marginaux, tandis que le riz reste quasi
inexistant.

Parakou se distingue par des niveaux de production très faibles. Le maïs y enregistre un pic
bref à 0,5 tonne en 2005, mais la production moyenne reste négative (entre -0,1 et -0,2 tonne)

39
après 2006. Le mil, le riz et le sorgho demeurent quasi nuls, faisant de Parakou l’une des
communes les moins productives du Borgou.

À Tchaourou, la production de maïs atteint un maximum modeste d’environ 0,45 tonne en


2010, avant d’osciller entre 0 et 0,25 tonne. Le mil et le sorgho présentent des variations
ponctuelles mais restent faibles ou négatifs, traduisant une productivité limitée.

À Pèrèrè, la production de maïs demeure quasi nulle jusqu’en 2014, avant d’augmenter
progressivement pour se stabiliser entre 0,6 et 0,8 tonne, avec un pic de 0,8 tonne en 2023. Les
autres cultures y restent marginales.

Enfin, à Sinendé, le maïs affiche une forte variabilité : une première phase de croissance
jusqu’en 2013 (pic à 1,25 tonne), suivie d’une baisse, puis d’une remontée jusqu’à 1,3 tonne en
2023. Les productions de sorgho, mil et riz y demeurent faibles et irrégulières.

Globalement, ces résultats soulignent une hégémonie nette du maïs, accompagné d’une
forte disparité spatiale des performances agricoles. Les communes comme Bembèrèkè, Kalalé
et Sinendé apparaissent comme des pôles de production majeurs, tandis que Parakou et
Tchaourou accusent un retard notable. Cette hétérogénéité met en évidence la nécessité
d’intégrer à la fois les dimensions temporelles et spatiales dans les analyses de production
céréalière afin de mieux comprendre les dynamiques agricoles du Borgou entre 1995 et 2023.

40
Figure 8: Evolution de la production par commune

5. Ajustement de régression linéaire

Enfin, afin de dégager les tendances de fond, un ajustement de régression linéaire est
appliqué aux séries. Le modèle de régression multiple, intégrant la superficie cultivée et le
rendement comme variables explicatives de la production, montre que la superficie est le facteur
dominant, avec un coefficient fortement positif et hautement significatif (0,987, p < 2e-16),
indiquant qu’une augmentation d’un hectare se traduit presque directement par une
augmentation proportionnelle de la production. Le rendement contribue également
positivement et significativement (0,048, p < 2e-16), mais son effet reste secondaire par rapport
à la superficie. Le modèle explique près de 97 % de la variance de la production (R² = 0,97), ce
qui souligne la capacité prédictive exceptionnelle des variables superficielles et de rendement
combiné, tandis que l’écart-type résiduel très faible (0,176) indique une bonne précision des
prédictions.

En résumé, cette analyse montre que l’augmentation de la production céréalière repose


principalement sur l’extension des surfaces cultivées, avec un rôle modeste mais réel d u
rendement, et que l’effet de l’année n’est significatif qu’en interaction avec ces variables.

6. Identifier les corrélations entre superficie, rendement et production

La corrélation de Spearman montre que la Superficie et la Production sont fortement liées


(ρ ≈ 0,98), ce qui indique qu’une augmentation de la superficie cultivée entraîne presque
41
toujours une augmentation proportionnelle de la production, indépendamment de la normalité
des données. En revanche, le Rendement présente une corrélation très faible avec la Superficie
(ρ ≈ 0,076) et une corrélation modérée avec la Production (ρ ≈ 0,24), ce qui suggère que les
variations de rendement influencent peu la production totale comparé à l’effet dominant de la
superficie cultivée. Cette analyse confirme que, dans ce jeu de données, la croissance de la
production est majoritairement portée par l’expansion des superficies cultivées, tandis que
l’optimisation du rendement joue un rôle secondaire.

Figure 9: Matrice de corrélations entre superficie, rendement et production

Ainsi, les résultats empiriques confirment pleinement l’hypothèse de départ : la production


céréalière dans les communes du Borgou varie de manière significative dans le temps et dans
l’espace. Les fluctuations observées sont davantage liées à des facteurs structurels (extension
des surfaces, choix des cultures dominantes) qu’à des gains de productivité. La prépondérance
du maïs et la progression récente du riz traduisent un changement progressif dans les stratégies
de production, tandis que la faible performance du mil et du sorgho révèle la persistance de
contraintes techniques et environnementales.

B. Implémentation du modèle Lstm

Cette section présente le processus de mise en œuvre du modèle LSTM utilisé pour la
prédiction de la production céréalière. Elle décrit la constitution des jeux de données, les
paramètres d’apprentissage, ainsi que les indicateurs de performance retenus pour évaluer la
précision et la robustesse du modèle.

1. Apprentissage et évaluation du modèle LSTM

42
L’ensemble des données utilisées pour l’expérimentation a été réparti en trois sous -
ensembles : un jeu d’entraînement composé de 672 observations, un jeu de vali dation
comprenant 128 observations, et un jeu de test de taille équivalente, soit 128 observations. Cette
répartition équilibrée a permis de garantir à la fois un apprentissage robuste du modèle et une
évaluation fiable de sa capacité de généralisation.

Au cours de la phase d’apprentissage, l’évolution de la fonction de perte (loss) et de l’erreur


absolue moyenne (MAE) a révélé une amélioration progressive et constante de la performance
du modèle. Dès les premières itérations, entre la première et la trentième époque, la valeur de
la fonction de perte a connu une diminution rapide, passant de 1,1031 à environ 0,03, tandis
que la MAE a enregistré une baisse notable, évoluant de 0,2869 à 0,07285. Cette décroissance
simultanée de la perte et de l’erreur absolue moyenne traduit une réduction significative des
erreurs de prédiction et témoigne d’une assimilation efficace des relations temporelles présentes
dans les données d’entrée.

À partir de la cinquantième époque, la courbe de la fonction de perte se stabilise, suggérant


une convergence efficace du modèle. Aucun signe notable de surapprentissage (overfitting) n’a
été observé à ce stade, grâce notamment à la mise en œuvre des techniques de régularisation L1
et L2, à l’application du Dropout à hauteur de 20 % après chaque couche LSTM, ainsi qu’à
l’utilisation du mécanisme Early Stopping qui interrompt automatiquement l’entraînement dès
que la performance sur les données de validation cesse de s’améliorer.

Sur le jeu de validation, le modèle affiche à la dernière époque avant arrêt anticipé une valeur
de perte de 0,027 et une MAE de 0,0673, confirmant ainsi sa capacité à généraliser correctement
sur des données qu’il n’a jamais vues pendant l’entraînement.

Enfin, l’évaluation sur le jeu de test met en évidence une erreur quadratique moyenne
(MSE) de 0,020 et une erreur absolue moyenne (MAE) de 0,046. Ces faibles valeurs démontrent
la précision élevée du modèle, avec un écart moyen d’environ 4,6 % entre les valeurs prédites
et les valeurs observées.

Dans l’ensemble, ces résultats montrent que le modèle LSTM mis en place parvient à
capturer efficacement les dépendances temporelles caractéristiques de la série étudiée et à
fournir des prédictions fiables et stables. Il maintient un bon équilibre entre apprentissage et
généralisation, confirmant la pertinence des choix méthodologiques et la robustesse de
l’approche adoptée. Ces résultats nous permettent de de confirmer partiellement notre deuxième

43
hypothèse selon laquelle le modèle LSTM est capable de capturer la complexité et la non-
linéarité des séries temporelles de production céréalière

2. Prédiction par modelé Lstm

Les résultats obtenus à l’issue de la phase de test mettent clairement en évidence la


performance et la fiabilité du modèle développé. L’analyse du tableau des prédictions montre
une forte cohérence entre les valeurs réelles observées et celles prédites par le modèle. En effet,
les écarts entre les valeurs réelles et les valeurs estimées, demeurent globalement faibles, la
majorité se situant entre –0,05 et +0,40. Cette faible dispersion traduit une capacité du modèle
à reproduire fidèlement la dynamique de la production sur des données qui n’ont pas servi à
l’entraînement, confirmant ainsi sa bonne capacité de généralisation.

L’examen des erreurs individuelles permet également de constater un comportement équilibré


du modèle. Les erreurs positives correspondent à des cas de sous-estimation où les prédictions
sont légèrement inférieures aux valeurs réelles, tandis que les erreurs négatives traduisent une
surestimation marginale, les valeurs prédites dépassant légèrement les observations. Ce
comportement symétrique démontre que le modèle n’est pas biaisé dans un sens particulier,
mais qu’il répartit ses erreurs de manière homogène autour des valeurs réelles.

Sur le plan quantitatif, les métriques globales de performance confirment ces observations. La
valeur du Mean Squared Error (MSE) enregistrée sur l’ensemble de test est de 0,027, traduisant
une erreur quadratique moyenne faible et donc une précision globale satisfaisante. De même,
le Mean Absolute Error (MAE) atteint 0,045, ce qui correspond à un écart absolu moyen
d’environ 4,5 % entre les valeurs observées et celles prédites. Ces résultats témoignent de la
capacité du modèle à produire des estimations précises, proches des valeurs réelles, tout en
limitant les écarts extrêmes.

Par ailleurs, la stabilité observée au cours de la phase d’apprentissage, notamment à partir


de la cinquantième époque, confirme la bonne convergence du modèle sans signe de
surapprentissage (overfitting). Cette stabilité résulte directement de l’intégration des techniques
de régularisation L1 et L2, de la mise en œuvre du Dropout à hauteur de 20 %, ainsi que du
mécanisme d’Early Stopping qui a permis d’interrompre automatiquement l’entraînement avant
toute dégradation de la performance sur les données de validation.

Dans l’ensemble, les résultats obtenus démontrent que le modèle LSTM a su capturer
efficacement la dynamique temporelle et la structure des données de production étudiées. Il

44
fournit des prédictions stables, cohérentes et précises, confirmant ainsi la pertinence du choix
méthodologique et la robustesse du processus de modélisation adopté.

3. Analyse des valeurs prédites

Le graphique illustre la série des productions prévues par le modèle pour l’ensemble des
observations. L’axe des ordonnées représente les valeurs de production prédites, comprises
approximativement entre -0,5 et 1,2, tandis que l’axe des abscisses correspond à l’index des
observations, allant de 0 à environ 130.

L’analyse montre une alternance marquée entre périodes de faible production et périodes de
production élevée. Les prédictions indiquent que la production reste sur de longues séquences
à un niveau bas et relativement stable, oscillant principalement entre -0,2 et -0,4. Ces périodes
de faible rendement constituent la majorité des observations et traduisent des phases de sous -
performance. La régularité de ces creux montre que le modèle anticipe ces conditions avec une
grande confiance.

En parallèle, le modèle prévoit également des augmentations ponctuelles de production,


culminant entre 0,9 et 1,2. Ces pics sont généralement très aigus, reflétant des périodes de
production élevée de courte durée. Plusieurs pics majeurs se répètent à intervalles réguliers,
notamment aux index 5, 20, 35, 50, 80, 100 et 115, ce qui suggère une certaine périodicité dans
les événements de forte production.

La structure générale des prédictions met en évidence une forte saisonnalité. La transition entre
creux et pics se fait rapidement, souvent en l’espace de 1 à 3 observations, traduisant une grande
volatilité et une sensibilité immédiate aux facteurs influençant la production, tels que les
conditions climatiques ou la disponibilité des intrants.

En conclusion, le modèle capture efficacement l’amplitude et la dynamique des


fluctuations de production. Il anticipe des périodes prolongées de faible rendement,
interrompues par des pics courts mais intenses. Cette forme en dents de scie est typique des
phénomènes fortement saisonniers, caractérisés par de longues périodes de latence suivies de
hausses ponctuelles de production. Cette représentation constitue une base solide pour
comparer les prédictions du modèle aux données réelles de production de différentes cultures,
telles que le Riz, le Mil et le Sorgho, afin de déterminer la culture que le modèle prédit le plus
précisément.

45
Figure 10: Évolution des valeurs prédites

4. Distribution des erreurs

Le graphique ci-dessous présente la distribution des erreurs, calculées comme la différence


entre les valeurs réelles et celles prédites par le modèle. L’histogramme, accompagné d’une
courbe de densité, montre que la majorité des erreurs sont centrées autour de zéro, avec une
forte concentration entre 0,0 et 0,1. Cela indique une prédominance d’erreurs faibles et une
légère tendance du modèle à sous-estimer les valeurs réelles.

La forme de la courbe suggère une distribution approximativement normale, bien que


légèrement asymétrique vers la droite, traduisant quelques cas isolés de sous-prédiction. La
plupart des erreurs restent proches de zéro, ce qui atteste de la bonne précision et de la stabilité
du modèle.

D’un point de vue statistique, la moyenne des erreurs est très proche de zéro, et la variance
modérée confirme l’absence de biais systématique significatif. Ce comportement valide
l’utilisation d’indicateurs tels que la RMSE et le R² pour évaluer la performance globale.

En somme, la distribution des erreurs révèle un modèle fiable et bien ajusté, produisant des
estimations précises avec une marge d’erreur réduite. Le léger biais positif observé pourrait être
atténué par un ajustement fin des paramètres ou l’intégration de variables explicatives
supplémentaires.

46
Figure 11: Distribution des erreurs

5. Comparaison entre la production réelle et la production prédite

La figure 12 présente la comparaison entre les valeurs réelles et prédites de la production


céréalière à l’aide du modèle LSTM. Les deux courbes affichent une superposition claire,
indiquant une forte correspondance entre les observations et les estimations. Cela montre que
le modèle parvient à reproduire avec précision la dynamique temporelle des données et à suivre
les variations de production au fil du temps.

Globalement, le comportement des deux séries est cohérent : les trajectoires sont presque
parallèles, ce qui traduit une excellente capacité du modèle à capturer les tendances générales
et les fluctuations saisonnières. L’absence de décalage visible entre les courbes démontre que
les prédictions sont bien synchronisées avec les valeurs réelles, attestant d’une bonne stabilité
et réactivité du modèle face aux changements temporels.

On note néanmoins une légère sous-estimation des pics de production, notamment durant
certaines périodes de forte productivité. Cette différence s’explique probablement par une
régularisation trop forte ou une faible représentation des valeurs extrêmes dans l’ensemble
d’entraînement. Malgré cela, la structure générale des variations est bien conservée, et les écarts
entre valeurs réelles et prédites restent faibles et ponctuels.

Sur le plan quantitatif, la proximité visuelle des courbes suggère un coefficient de


détermination (R²) élevé, probablement supérieur à 0,85, ainsi qu’une erreur quadratique

47
moyenne (RMSE) faible. Ces indicateurs confirment la fiabilité du modèle, sa bonne capacité
de généralisation et sa précision dans les prévisions.

D’un point de vue agronomique, cette concordance souligne la pertinence des variables
explicatives mobilisées qui permettent de bien représenter les facteurs déterminants de la
production céréalière.

En résumé, le modèle LSTM se distingue par sa robustesse, sa précision et sa stabilité. Il


parvient à anticiper de manière fiable l’évolution de la production céréalière, tout en traduisant
correctement la variabilité temporelle et les tendances observées dans les données historiques.
Ces résultats confirment viennent confirmer notre la pertinence de l’approche par réseaux de
neurones profonds pour la modélisation et la prévision agricoles

Figure 12: Comparaison entre la Production Réelle et la Production Prédite

6. Évaluation de la performance du modèle et analyse du biais

Le graphique ci-dessus, comparant la production réelle à la production prédite fournit un aperçu


complet de la qualité statistique du modèle et de ses biais éventuels. Les indicateurs numériques
confirment l’excellente performance du modèle. Le coefficient de détermination, R² = 0,970,
indique que le modèle explique 97 % de la variabilité totale des données réelles, ce qui traduit
un ajustement quasi parfait. L’erreur absolue moyenne (MAE = 0,046) montre que l’écart
moyen entre les valeurs prédites et réelles est très faible, tandis que la racine de l’erreur
quadratique moyenne (RMSE = 0,084) souligne l’absence d’erreurs aberrantes importantes.
Ces métriques démontrent que le modèle est globalement très fiable et précis.

L’analyse de la tendance du modèle révèle un biais systématique léger. La droite de régression


du modèle, légèrement moins inclinée que la ligne idéale y = x , indique que les valeurs
extrêmes sont modérées. Pour les productions réelles élevées (supérieures à 1,0), le modèle
sous-estime légèrement les rendements maximaux. À l’inverse, pour les valeurs négatives

48
extrêmes (inférieures à -0,25), le modèle surestime légèrement les faibles productions. Ce
comportement traduit une régularisation prudente, qui minimise le risque d’erreurs extrêmes et
favorise la stabilité des prévisions.

La dispersion des points confirme que le modèle est particulièrement précis pour les valeurs
fréquentes, comprises entre -0,50 et 0,75, où les prédictions sont très proches de la ligne idéale.
Les erreurs sont plus visibles pour les observations extrêmes, mais leur impact reste limité grâce
à la faible valeur de RMSE. Cette caractéristique montre que le modèle anticipe correctement
la majorité des situations de production faible et moyenne tout en modérant légèrement les
valeurs extrêmes.

Figure 13: Évaluation de la performance du modèle et analyse du biais

En conclusion, ce modèle constitue un outil de prédiction statistiquement robuste et fiable. Il


offre une précision maximale pour la majorité des observations, avec un biais léger et contrôlé
pour les valeurs extrêmes. Cette prudence peut être considérée comme un avantage dans un
contexte où la stabilité des prévisions est préférée à l’exactitude des rendements exceptionnels.
Le modèle fournit ainsi une base solide pour analyser et anticiper les tendances de production
des cultures telles que le Mil, le Sorgho et le Riz, et pour planifier des interventions agricoles
plus efficaces. Le modèle LSTM s’avère donc performant, précis et fiable pour la prédiction de
la production céréalière. Ces conclusions ouvrent des perspectives prometteuses pour
l’utilisation de l’intelligence artificielle dans la planification agricole, la gestion des risques
climatiques et la formulation de politiques de sécurité alimentaire plus anticipatives et fondées
sur les données.

49
Les résultats confirment notre hypothèse qui stipule que le modèle LSTM capture efficacement
la complexité et la non-linéarité des séries temporelles de production céréalière, permettant des
prédictions fiables et précises des production futurs.

C. Simulation Monte Carlo

Cette section expose la démarche de simulation de type Monte Carlo utilisée pour évaluer
l’adaptabilité du modèle face aux incertitudes. Elle présente le principe de la simulation, la
modélisation des variables aléatoires (superficie et rendement), ainsi que la procédure
d’échantillonnage adoptée pour estimer la stabilité et l’incertitude des prédictions de
production.

1. Analyses des statistiques descriptives des données simulées

Les données simulées sur la superficie cultivée montrent que l’ensemble des 2000 observations
varie entre environ 3,5 et 16,3 hectares, avec une moyenne très proche de 10 hectares. La
médiane, à 10 hectares, est quasiment égale à la moyenne, ce qui suggère une distribution
relativement symétrique sans forte asymétrie. L’écart-type de 1,97 hectares indique une
dispersion modérée autour de la moyenne, et les quartiles (25 % à 8,66 ha et 75 % à 11,31 ha)
montrent que la majorité des parcelles se situent dans une fourchette étroite autour de la valeur
centrale. Cela suggère une certaine homogénéité dans la taille des parcelles cultivées.

Concernant le rendement par hectare, les valeurs simulées vont de 0,87 à 2,11 t/ha, avec une
moyenne de 1,50 t/ha et une médiane très proche, à 1,50 t/ha. L’écart-type relativement faible
(0,20 t/ha) indique une variabilité modérée du rendement entre parcelles. Les quartiles (1,37 et
1,63 t/ha) confirment que la plupart des rendements se concentrent autour de 1,5 t/ha, suggérant
que, dans ce scénario simulé, les conditions de production sont assez stables et peu sensibles
aux variations extrêmes.

La production totale, calculée comme le produit de la superficie et du rendement, présente une


distribution plus étalée, allant de 4,36 à 29,49 tonnes, avec une moyenne de 15,01 tonnes et une
médiane de 14,91 tonnes. L’écart-type de 3,59 tonnes est plus élevé que celui des deux variables
d’entrée, ce qui est attendu puisque la production combine les variations de la superficie et du
rendement. Les quartiles (12,48 et 17,24 tonnes) montrent que la majorité des productions se
concentre autour de la moyenne, mais que certaines parcelles très grandes ou très productives
entraînent des valeurs extrêmes.

50
Globalement, ces statistiques confirment la logique des données simulées : la superficie et le
rendement sont modérément dispersés et symétriques, tandis que la production, en tant que
combinaison des deux, a une variance amplifiée et présente des valeurs extrêmes plus marquées.
Cette structure est cohérente avec un modèle agricole réaliste où la taille des parcelles et
l’efficacité de la culture influencent conjointement la production totale.

2. Distribution des variables simulées

Le graphique de la figure 14 présente trois histogrammes avec des courbes de densité


superposées, représentant les distributions de trois variables liées à un contexte agricole : la
superficie des parcelles (en hectares), le rendement par hectare (en tonnes par hectare) et la
production totale (en tonnes). Les axes des ordonnées indiquent la fréquence des observations,
tandis que les courbes lissées suggèrent une approximation par une loi normale, permettant de
visualiser la tendance générale des données.

Pour la superficie, la distribution est unimodale et symétrique, avec un pic autour de 10 à 12


hectares. La majorité des parcelles se situe entre 6 et 14 hectares, et les valeurs extrêmes sont
rares, inférieures à 4 hectares ou supérieures à 16 hectares. Cette répartition indique une
variabilité modérée et suggère que la plupart des exploitations ont des tailles similaires. La
symétrie de la distribution et l’absence de valeurs aberrantes importantes reflètent des
conditions standardisées, possiblement liées à des contraintes foncières ou à des pratiques
agricoles homogènes.

La distribution du rendement par hectare présente également une forme unimodale et


symétrique, avec un pic autour de 1,6 à 1,8 tonnes par hectare. La plupart des rendements se
situent entre 1,2 et 2,0 t/ha, et la dispersion est faible par rapport à celle des superficies. Cela
indique que la productivité par unité de surface est relativement stable. La faible variabilité
suggère que les facteurs influençant le rendement, tels que les conditions cl imatiques,
l’utilisation d’intrants ou les techniques culturales, sont homogènes dans le contexte simulé ou
observé. Le pic marqué indique que la majorité des parcelles bénéficie de conditions favorables,
avec peu de variations extrêmes dues à des aléas comme la sécheresse ou les maladies.

En ce qui concerne la production totale, la distribution reste unimodale et symétrique, mais avec
une dispersion plus importante. Le pic se situe autour de 15 à 20 tonnes, et les valeurs s’étendent
de 5 à 25 tonnes, avec quelques observations allant jusqu’à 30 tonnes. Cette plus grande
variabilité s’explique par le fait que la production est le produit de la superficie et du rendement.
Les combinaisons de grandes superficies avec des rendements élevés génèrent des valeurs
51
extrêmes, tandis que des petites parcelles ou des rendements faibles produisent les extrêmes
inférieurs. La moyenne de la production correspond logiquement au produit des moyennes de
la superficie et du rendement, confirmant la cohérence des données.

Globalement, ces distributions partagent une forme en cloche, typique de variables


approximativement normales. Cela est attendu dans un contexte agricole où de nombreux
facteurs indépendants influencent les résultats, conformément au théorème central -limite. La
production, en tant que variable combinant deux facteurs, présente une variance plus
importante, ce qui reflète l’effet multiplicatif des écarts des deux variables d’entrée. Ces
graphiques sont utiles pour modéliser des scénarios agricoles, estimer la variabilité des récoltes
et identifier les leviers d’amélioration, comme la stabilisation du rendement pour limiter les
écarts dans la production totale.

Figure 14: Histogrammes avec des courbes de densité superposées des distributions des
variables simulées

3. Corrélation entre les variables simulées

Le graphique présente une matrice de corrélation entre trois variables agricoles : superficie des
parcelles, rendement par hectare et production totale. Les coefficients vont de 1 (corrélation
parfaite) à -0,2 (faible corrélation négative).

La corrélation superficie-rendement est très faible (-0,053), indiquant que la taille des parcelles
n’influence pas le rendement par hectare. La corrélation superficie-production est forte (0,83),
montrant que les parcelles plus grandes produisent davantage. La corrélation rendement-
production est modérée (0,51), reflétant l’impact du rendement sur la production totale.

Globalement, la production dépend majoritairement de la superficie, tandis que le rendement


contribue de manière moindre. Ces relations sont cohérentes avec un modèle multiplicatif et
suggèrent qu’en pratique, augmenter la superficie est plus efficace pour accroître la production.
52
Ces corrélations linéaires ne reflètent pas d’éventuelles relations non linéaires, qui pourraient
nécessiter des analyses complémentaires.

Figure 15: Matrice de corrélation

4. Distribution des valeurs issus de la prédiction

Le graphique illustre la distribution des valeurs de production prédites par le modèle de réseau
de neurones Dense, exprimées en tonnes. Il s’agit d’un histogramme avec une courbe de densité
lissée, donnant une approximation visuelle de la loi sous-jacente des prédictions. Le contexte
est agricole, en lien avec les données simulées ou observées précédemment, notamment les
variables superficie et rendement utilisées comme entrées du modèle.

La distribution est unimodale et symétrique, avec une forme en cloche caractéristique des lois
normales. Le pic se situe autour de 15 à 20 tonnes, et la majorité des valeurs prédictives se
concentre entre 10 et 25 tonnes. Les extrêmes sont rares, les prédictions inférieures à 5 tonnes
ou supérieures à 25 tonnes apparaissent très peu, ce qui traduit des queues courtes et une faible
asymétrie. Cette forme indique que le modèle génère des prédictions stables et centrées,
cohérentes avec les tendances observées dans les données réelles.

La moyenne des valeurs prédites semble se situer autour de 16 à 17 tonnes, et la médiane est
proche de la moyenne, confirmant la symétrie. L’écart-type est modéré, reflétant la variabilité
naturelle des productions agricoles simulées. Le modèle réussit donc à reproduire à la fois la
centralité et la dispersion des données observées, sans introduire de biais systématique de sous-
estimation ou de surestimation.

Comparée à la distribution empirique de la production observée, la distribution prédite est très


similaire, ce qui indique que le modèle capture efficacement la relation multiplicative entre
superficie et rendement. Cette fidélité est cohérente avec les métriques de performance

53
calculées précédemment (RMSE faible et R² proche de 1) et confirme la bonne capacité du
modèle à généraliser sur des données nouvelles ou simulées.

Enfin, dans un contexte pratique, cette distribution prédit réaliste permet d’utiliser le modèle
pour des simulations ou des prévisions agricoles fiables. Elle offre une estimation des risques
liés à la production, comme les probabilités de récoltes faibles ou élevées, et constitue un outil
utile pour la planification et l’optimisation des exploitations. Il reste toutefois à noter que les
outliers éventuels pourraient être légèrement atténués par le modèle, ce qui reflète une
régularisation implicite et une prudence dans l’interprétation des extrêmes.

Figure 16 : Distribution des valeurs issus de la prédiction

5. Distribution des erreurs de prédiction des données simulées

Le graphique ci-dessous illustre la distribution des erreurs de prédiction d’un modèle de réseau
de neurones Dense, calculées comme la différence entre la production prédite et la production
réelle, exprimée en tonnes. Il s’agit vraisemblablement d’une évaluation des performances du
modèle sur un ensemble de test ou de validation dans un contexte agricole, où les prédicti ons
dépendent de variables comme la superficie et le rendement. L’histogramme est accompagné
d’une courbe de densité lissée, suggérant une approximation normale des résidus.

La distribution est unimodale, hautement symétrique et en forme de cloche étroite. Le pic


principal est centré sur zéro, indiquant que la majorité des prédictions sont extrêmement proches
des valeurs réelles. La fréquence maximale se situe autour de 700 observations pour des erreurs
nulles ou quasi nulles, et la plupart des erreurs sont comprises entre -0,5 et 0,5 t. Les extrêmes
sont rares, avec seulement quelques erreurs atteignant ±2 t, ce qui traduit une précision globale
élevée et une faible variabilité des prédictions.

54
Cette concentration autour de zéro montre que le modèle ne présente pas de biais systématique
: il ne sous-estime ni ne surestime la production. La forme de cloche étroite reflète une grande
fiabilité, avec des erreurs majoritairement très faibles. La normalité apparente des résidus est
un bon signe pour la validité statistique du modèle, car elle indique que les erreurs sont
aléatoires et non structurées, sans patterns résiduels ou hétéroscédasticité manifeste. Cela est
cohérent avec les métriques de performance précédemment calculées, comme une MAE
minimale d’environ 0,15 t.

Comparée aux distributions de production réelle ou prédite, cette distribution d’erreurs est
beaucoup plus concentrée. Elle confirme que les prédictions reproduisent fidèlement la réalité,
avec des écarts minimes. Dans un contexte agricole, des erreurs aussi faibles sont significatives
pour la planification et la prise de décision.

Figure 17 : Distribution des erreurs de prédiction

6. Evaluation des performances du modèle sur les données simulées

Le modèle appliqué aux données simulées montre une performance très satisfaisante avec un
RMSE de 0,300 et un R² de 0,993. Ces valeurs indiquent que le modèle prédit la production
avec un très haut niveau de précision : la racine de l’erreur quadratique moyenne (RMSE) de
0,3 tonnes suggère que l’écart moyen entre les valeurs prédites et observées est faible, tandis
que le coefficient de détermination R² proche de 1 montre que le modèle explique plus de 99 %
de la variance totale de la production. En d’autres termes, les prédictions suivent de très près la
réalité, confirmant la capacité du modèle à capturer les relations entre la superficie, le
rendement et la production.
De plus, les statistiques descriptives des erreurs apportent un éclairage complémentaire sur la
distribution des écarts entre prédictions et valeurs réelles. La moyenne des erreurs est très

55
proche de zéro (≈ 0,056), ce qui indique l’absence de biais systématique : le modèle ne tend ni
à surévaluer ni à sous-estimer la production de manière générale. La médiane (≈ 0,043) étant
également proche de zéro confirme cette symétrie des erreurs. La distribution des résidus
semble concentrée autour de zéro, avec un écart-type d’environ 0,295 tonnes, ce qui reflète une
dispersion modérée et une précision globale élevée.

L’analyse des quartiles montre que 50 % des erreurs se situent entre -0,057 et 0,178 tonnes, ce
qui signifie que la majorité des prédictions sont extrêmement proches des valeurs observées.
Les valeurs minimales et maximales des erreurs, respectivement -2,40 et 2,09 tonnes,
correspondent à des écarts plus importants, probablement liés à quelques observations
atypiques ou à des cas extrêmes dans les données simulées. Ces outliers n’affectent toutefois
pas significativement la performance globale, comme le confirme le R² élevé.

Globalement, cette évaluation indique que le modèle reproduit fidèlement la production simulée
à partir des variables d’entrée. La faible moyenne et l’écart-type limité des erreurs suggèrent
que les prédictions sont fiables et qu’il est possible de les utiliser pour des analyses ultérieures,
telles que des prévisions agricoles ou des simulations de rendement. Les rares écarts importants
pourraient être examinés plus en détail pour comprendre s’ils résultent de valeurs aberrantes ou
de situations particulières, mais ils n’entravent pas l’efficacité générale du modèle. Ce qui
confirmer notre hypothèse qui stipule que l’intégration d’une simulation de Monte Carlo permet
de générer des scénarios plausibles pour la production future et de tester la robustesse du modèle
prédictif face aux incertitudes.

II. DISCUSSION
Les résultats de cette étude offrent un éclairage pertinent sur la dynamique de la production
céréalière au Bénin ainsi que sur la performance des modèles de prévision basés sur les réseaux
de neurones, notamment le LSTM et le Dense. Les analyses menées révèlent des tendances
spatio-temporelles marquées, des disparités entre cultures et communes, ainsi qu’une forte
domination du maïs dans le système céréalier national.

La forte volatilité observée dans certaines périodes traduit la sensibilité de la production


agricole aux chocs exogènes tels que les aléas climatiques, la disponibilité des intrants ou
encore les politiques agricoles. Cependant, la tendance générale positive sur l’ensemble de la
série indique une résilience structurelle du secteur et une capacité d’adaptation progressive des
producteurs. Ces constats rejoignent ceux de Sanni et al. (2020), qui ont montré que la

56
productivité agricole au Bénin est fortement influencée par les contextes territoriaux et les
conditions agroécologiques locales.

L’analyse descriptive des données a mis en évidence une dispersion importante, avec un écart -
type élevé et une variance marquée, signe d’une forte hétérogénéité entre communes et sur la
période étudiée. La présence de valeurs extrêmes dans des communes telles que Bembèrèkè,
Kalalé et Sinendé reflète des conditions agroécologiques favorables ou une intensification
efficace des pratiques agricoles, contrairement à Parakou et Tchaourou où la production
demeure relativement faible. Ces observations confirment les résultats d’Agossou et al. (2021)
et soulignent l’importance des infrastructures agricoles, de l’accès aux intrants et du soutien
technique pour expliquer les différences locales de performance.

L’analyse de variance et le test de Kruskal–Wallis ont mis en évidence des différences


statistiquement significatives entre les productions de maïs, riz, mil et sorgho. Le maïs se
distingue nettement par des productions supérieures, corroborant les données de l’INSAE
(2022) et du MAEP (2023) qui soulignent la prépondérance de cette culture dans le système
céréalier béninois. Cette domination est étroitement liée aux politiques publiques favorisant le
maïs via des intrants subventionnés et des programmes de recherche sur les variétés améliorées.
En revanche, le mil, le riz et le sorgho restent sous-exploités, avec des rendements stagnants,
un constat similaire à celui rapporté par la FAO (2020) sur la faible intensification de certaines
cultures secondaires en Afrique subsaharienne.

La série temporelle 1995–2023 révèle trois phases distinctes : une faible performance initiale
(1995–2003), une période instable (2004–2014) et une croissance soutenue à partir de 2015,
portée principalement par le maïs. Cette fluctuation traduit une dynamique agricole marquée
par des phases d’instabilité, mais débouchant sur une amélioration de la production totale à long
terme. Les résultats indiquent que cette croissance repose surtout sur l’extension des superficies
cultivées, le coefficient de corrélation entre superficie et production étant très élevé (r = 0,98),
alors que le rendement reste faiblement corrélé (ρ = 0,24). Cette dynamique extensive rejoint
les conclusions de la Banque mondiale (2022), qui note que la croissance agricole en Afrique
subsaharienne dépend majoritairement de l’augmentation des superficies plutôt que de
l’intensification technologique. Cette trajectoire, bien que favorable à court terme, pose des
questions sur la durabilité environnementale et la sécurité alimentaire, en particulier dans un
contexte de pression foncière croissante.

57
Les contrastes entre communes confirment l’influence déterminante de la disponibilité en
terres, de la qualité des sols et de l’accès aux infrastructures rurales. Bembèrèkè, Sinendé et
Kalalé présentent des productions en forte progression, tandis que Parakou et Tchaourou restent
en retrait, en partie à cause de l’urbanisation et de la concurrence avec les activités non
agricoles. Ces observations mettent en évidence la nécessité d’une planification territoriale
différenciée et d’un renforcement ciblé des investissements agricoles, comme suggéré par Sanni
et al. (2020) et Agossou et al. (2021).

L’expérimentation des modèles LSTM montre une très bonne performance. Le LSTM présente
un coefficient de détermination R² de 0,97 et un écart moyen entre valeurs prédites et observées
de 4,6 %, tandis que le modèle Dense atteint un R² de 0,993, confirmant sa capacité à reproduire
fidèlement la relation entre superficie et rendement. Ces résultats corroborent les travaux de
Zhang et al. (2021) et Mogaka et al. (2023) sur l’efficacité des réseaux neuronaux pour les séries
temporelles agricoles, tout en soulignant leur sensibilité aux valeurs extrêmes et à la
représentativité des données d’entraînement. Les faibles erreurs (RMSE ≈ 0,3 pour Dense) et
l’absence de biais systématique renforcent la robustesse de ces approches pour la prévision de
la production agricole.

Cependant, une légère tendance à sous-estimer les pics de production a été observée,
probablement en raison de la rareté des valeurs extrêmes dans l’échantillon. Cela indique que,
malgré leur efficacité, les modèles basés sur LSTM nécessitent une diversification des données
historiques et l’intégration de variables climatiques et socio-économiques pour améliorer les
prédictions futures.

58
CONCLUSION ET PERSPECTIVES

L’étude menée sur l’évolution de la production céréalière au Bénin, couvrant la période 1995–
2023, a permis de mettre en évidence les dynamiques temporelles et spatiales des principales
cultures vivrières, notamment le maïs, le riz, le mil et le sorgho. L’approche méthodologique
adoptée, combinant analyses statistiques, tests non paramétriques, régressions multiples,
simulation Monte Carlo et modélisation par réseaux de neurones LSTM, a offert une
compréhension approfondie des déterminants de la production ainsi que de la fiabilité des
prévisions.

Les résultats révèlent que la croissance de la production repose principalement sur l’expans ion
des superficies cultivées, le rendement ayant un effet modéré. Cette tendance extensive est
confirmée par la forte corrélation entre superficie et production et par les coefficients de
régression élevés obtenus. Le maïs se distingue comme la culture dominante, avec une
progression significative de sa production, tandis que le riz, le mil et le sorgho restent
relativement stagnants. Ces observations reflètent les choix agroécologiques, la disponibilité
des intrants et les politiques publiques qui privilégient historiquement le maïs.

Les résultats issus de la modélisation LSTM confirment la robustesse et la fiabilité du modèle


pour la prévision de la production céréalière. Les valeurs prédites présentent une forte
cohérence avec les observations réelles, avec des erreurs faibles et équilibrées (MSE = 0,027 ;
MAE = 0,045 ; R² ≈ 0,97), attestant de la précision et de la capacité de généralisation du modèle.
L’analyse des séries prédites met en évidence la capacité du modèle à reproduire la dynamique
temporelle, incluant la saisonnalité et les fluctuations en dents de scie caractéristiques des cycles
agricoles, et à anticiper efficacement les périodes de faible production ainsi que les pics
ponctuels.

La simulation Monte Carlo a constitué un complément méthodologique essentiel pour tester la


robustesse et la fiabilité du modèle. Elle a permis de générer un large éventail de scénarios
représentatifs des conditions agricoles réelles, tout en contrôlant des variables critiques comme
la superficie cultivée et le rendement. Les performances obtenues sur les données simulées (R²
= 0,993 et erreurs faibles et peu dispersées) confirment la capacité du modèle à généraliser et à
reproduire fidèlement les relations entre paramètres agricoles. Cette approche a également mis
en évidence certaines limites, notamment dans la prédiction des valeurs extrêmes, soulignant

59
l’importance d’intégrer des données diversifiées et représentatives pour améliorer la précision
des prévisions futures.

Certaines limites méthodologiques et structurelles doivent être soulignées. La dépendance à


l’extension des superficies soulève des questions de durabilité, et l’absence de variables
climatiques, socio-économiques et technologiques limite l’explication complète des
fluctuations observées. De plus, les valeurs extrêmes de production sont légèrement sous-
estimées, ce qui appelle à une meilleure représentation des événements exceptionnels dans les
données d’entraînement.

Sur la base de ces résultats, plusieurs recommandations émergent : promouvoir une


intensification durable et la diversification des cultures en favorisant l’adoption de pratiques
améliorées et de variétés performantes ; intégrer des données climatiques et socio-économiques
dans les modèles prédictifs pour mieux anticiper les risques ; renforcer la planification
territoriale en ciblant les communes à faible productivité tout en consolidant les zones à fort
potentiel ; et explorer des modèles hybrides, combinant par exemple CNN–LSTM avec
mécanismes d’attention, pour améliorer la sensibilité aux événements extrêmes et aux
interactions complexes.

En définitive, cette étude met en lumière que la croissance de la production céréalière au Bénin
repose principalement sur l’extension des superficies cultivées, avec un rôle central du maïs, et
que les modèles prédictifs développés se sont révélés performants et fiables. Toutefois, assurer
une production durable et résiliente nécessitera l’intégration de variables explicatives
supplémentaires, le développement de pratiques culturales intensives et durables, et l’adoption
de stratégies adaptées aux disparités spatiales et climatiques identifiées. Ces perspectives
fournissent un cadre solide pour orienter les politiques agricoles et soutenir la sécurité
alimentaire dans la région.

60
REFERENCES BIBLIOGRAPHIQUES

1. Adegoke, O., Musa, I., & Adeyemi, T. (2021). Application of deep learning in agricultural
forecasting: Evidence from maize production in Nigeria. African Journal of Data Science,
2(1), 15–28.
2. Bhatt, C., Patel, H., Talsania, H., Patel, D., Vaghela, R., Pandya, S., ... & Modh, A. (2021).
CNN variants for computer vision : History, architecture, application, challenges and
future scope. Electronics, 10(20), 2470. [Link]
3. Bertsimas, D., & Kallus, N. (2020). From predictive to prescriptive analytics.
Management Science, 66(3), 1025–1044.
4. Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
5. Bouvrie, J. (2006). Notes on convolutional neural networks. MIT Center for Biological
and Computational Learning.
6. Bousquet, N., Adon, R., Kaid Gherbi, A., Arthur, F., Nègre, A., Baquiast, G., Simoulin, A.,
Hochard, G., & Talaouit-Mockli, F. (2020). Deep learning : des usages contrastés.
Statistique et Société, 8(3), 55–71.
7. Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis:
Forecasting and control (5th ed.). Wiley.
8. Carpenter, G. A., & Grossberg, S. (1987). A massively parallel architecture for a self-
organizing neural pattern recognition machine. Computer Vision, Graphics, and Image
Processing, 37(1), 54–115.
9. FAO. (2022). Agricultural data systems and predictive analytics for sustainable
development. Food and Agriculture Organization of the United Nations, Rome.
10. Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, 35(2), 137–144.
11. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
12. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S.,
Courville, A., & Bengio, Y. (2014). Generative adversarial nets. Advances in Neural
Information Processing Systems, 27, 2672–2680.
13. Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai, B., ... & Chen, T. (2018). Recent
advances in convolutional neural networks. Pattern Recognition, 77, 354–377.
14. Guissé Seck, M., et al. (2024). Deep neural networks optimized with genetic algorithms
for crop yield forecasting in Senegal. Computers and Electronics in Agriculture, 224,
109693.
61
15. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation,
9(8), 1735–1780. [Link]
16. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective
computational abilities. Proceedings of the National Academy of Sciences, 79(8), 2554–
2558.
17. Huang, W., Chen, Z., & Wu, J. (2023). Data normalization techniques for deep neural
networks. Applied Intelligence, 53, 2132–2145.
18. Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice (2nd
ed.). OTexts.
19. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical
learning : With applications in R. Springer.
20. Kamilaris, A., & Prenafeta-Boldú, F. X. (2018). Deep learning in agriculture : A survey.
Computers and Electronics in Agriculture, 147, 70–90.
21. Kohonen, T. (1982). Self-organized formation of topologically correct feature maps.
Biological Cybernetics, 43(1), 59–69.
22. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep
convolutional neural networks. Advances in Neural Information Processing Systems, 25,
1097–1105.
23. Kumar, R., Singh, A., & Sharma, P. (2020). Forecasting agricultural production using
LSTM networks : A case study on rice yield prediction in India. Journal of Applied Data
Science, 4(2), 45–56.
24. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.

25. Lipton, Z. C. (2015). A critical review of recurrent neural networks for sequence learning.
arXiv preprint arXiv:1506.00019.
26. Makridakis, S., Wheelwright, S. C., & Hyndman, R. J. (1998). Forecasting: Methods and
applications (3rd ed.). Wiley.
27. McCarthy, J. (1956). Proposal for the Dartmouth Summer Research Project on Artificial
Intelligence. Dartmouth College.

28. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. The Bulletin of Mathematical Biophysics, 5(4), 115–133.

62
29. Mienye, I. D., Swart, T. G., & Obaido, G. (2024). Recurrent neural networks : A
comprehensive review of architectures, variants, and applications. Information, 15(9),
517. [Link]
30. Musa, I., Bello, A., & Aliyu, M. (2023). Hybrid deep learning models for agricultural yield
prediction under climate variability. Environmental Modelling & Software, 163, 105602.
31. Nielsen, M. A. (2015). Neural networks and deep learning. Determination Press.
32. Nilsson, N. J. (2010). The quest for artificial intelligence : A history of ideas and
achievements. Cambridge University Press.
33. Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised representation learning with
deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434.
34. Rawat, W., & Wang, Z. (2017). Deep convolutional neural networks for image
classification : A comprehensive review. Neural Computation, 29(9), 2352–2449.
35. Rosenblatt, F. (1958). The perceptron : A probabilistic model for information storage and
organization in the brain. Psychological Review, 65(6), 386–408.
[Link]
36. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning represe ntations by
back-propagating errors. Nature, 323(6088), 533–536. [Link]
37. Russell, S., & Norvig, P. (2021). Artificial intelligence : A modern approach (4th ed.).
Pearson.
38. Schmidhuber, J. (2015). Deep learning in neural networks : An overview. Neural
Networks, 61, 85–117. [Link]
39. Shmueli, G., Bruce, P. C., Gedeck, P., & Patel, N. R. (2020). Data mining for business
analytics: Concepts, techniques, and applications in R (3rd ed.). Wiley.
40. Stepanov, A., Yakovlev, A., & Kolyubin, S. (2023). Preprocessing techniques in
convolutional neural networks : A review. Pattern Recognition Letters, 172, 112–124.
41. Sun, J., et al. (2019). County-level soybean yield prediction using deep learning and
remotely sensed data. Remote Sensing of Environment, 221, 173–185.
42. Tamayo-Vera, C., et al. (2024). A review of machine learning techniques in agroclimatic
studies. Agriculture, 14(3), 481.

43. Uddin, M. N., Hassan, M. M., Almogren, A., & Fortino, G. (2021). Dimensionality
reduction and feature selection for deep learning : A survey. IEEE Access, 9, 101086–
101105.

63
44. imalasiri, D., et al. (2023). Agro-climatic sensitivity analysis for sustainable crop
diversification : The case of Proso millet. Environmental Research, 229, 116061.
45. Xu, Q., et al. (2025). Variance-based sensitivity analysis of climate variability impact on
crop yield using machine learning : A case study in Jordan. Agricultural Systems, 215,
103724.
46. Yamashita, R., Nishio, M., Do, R. K. G., & Togashi, K. (2018). Convolutional neural
networks : An overview and application in radiology. Insights into Imaging, 9(4), 611–
629. [Link]
47. Zhang, J., Wang, X., & Li, H. (2024). Progress in research on deep learning-based crop
yield prediction. Agronomy, 14(10), 2264. [Link]

64

Vous aimerez peut-être aussi