Memoire Master Version Finale
Memoire Master Version Finale
***************
UNIVERSITE DE PARAKOU (UP)
***************
ECOLE NATIONALE DE STATISTIQUE, DE PLANIFICATION ET DE DEMOGRAPHIE
(ENSPD)
********
Mémoire de fin de formation pour l’obtention d’un Master
Thème :
Réalisé par :
DADO TOSSOU Ulrich
Directeur :
Co-directeur
Dr. Epiphane SODJINOU Dr. François KOLADJO
Professeur Titulaire des Universités du Maître- Assistant du CAMES
CAMES
***************
UNIVERSITE DE PARAKOU (UP)
***************
ECOLE NATIONALE DE STATISTIQUE, DE PLANIFICATION ET DE DEMOGRAPHIE
(ENSPD)
********
Mémoire de fin de formation pour l’obtention d’un Master
Thème :
Réalisé par :
DADO TOSSOU Ulrich
Directeur : Co-directeur
i
DEDICACE
Je dédie ce travail à mes parents notamment :
Pour leurs amours, leurs soutiens tout au long de mon parcours académique ; pour m’avoir
transmis le goût de l’effort et de la persévérance, et pour leur confiance inébranlable en mes
capacités.
ii
REMERCIEMENTS
Je tiens à exprimer ma profonde gratitude à toutes les personnes et institutions qui ont contribué,
de près ou de loin, à la réalisation de ce mémoire.
Mes remerciements s’adressent aussi à mes collègues, amis et camarades de promotion, pour
leur soutien moral, leurs encouragements et les échanges fructueux qui ont enrichi mes
réflexions tout au long de ce mémoire.
Enfin, je remercie toutes les personnes et institutions qui, d’une manière ou d’une autre, ont
contribué à la collecte des données et à la réussite de ce mémoire.
iii
TABLE DES MATIERES
LISTES DES ABREVIATIONS .................................................................................................................... vii
RESUME .................................................................................................................................................................... ix
INTRODUCTION ..................................................................................................................................................1
5. Analyse prédictive.................................................................................................... 15
2.3. Homogénéisation...................................................................................................... 23
3.1. Analyse des tendances d’évolution et comparaison des performances entre les
types de céréales .............................................................................................................. 24
iv
3.4. Paramétrage du réseau de neurones LSTM .......................................................... 27
v
LISTES DES FIGURES
vi
LISTES DES ABREVIATIONS
AI : Intelligence Artificielle
AP : Agriculture de Précision
EFITA : European Federation for Information Technology in Agriculture, Food and the
Environment
MC : Monte Carlo
vii
MLP : Perceptron Multicouches (Multilayer Perceptron)
viii
RESUME
Les résultats montrent que le modèle LSTM capture efficacement les dynamiques non
linéaires et la saisonnalité des séries temporelles. Les simulations Monte Carlo montre que le
modèle s’adapte aux incertitudes associées aux variables d’entrée. Le maïs domine la
production, le mil reste stable, le riz progresse modérément et le sorgho fluctue. La distribution
des erreurs indique une légère sous-estimation des valeurs extrêmes mais une forte concordance
générale avec les données réelles.
ix
ABSTRACT
The methodology combines descriptive analyses, LSTM modelling, and Monte Carlo
simulations. The dataset was divided into training, validation, and test sets. The LSTM model
consists of two hidden layers (64 and 32 neurons), L1–L2 regularization, a 20% dropout rate,
and a linear output layer, optimized using the MSE loss function. Model performance is
assessed using MSE, MAE, and R².
The results show that the LSTM model effectively captures nonlinear dynamics and
seasonality in the time series. The Monte Carlo simulations indicate that the model adapts well
to uncertainties in input variables. Maize dominates total production, millet remains stable, rice
progresses moderately, and sorghum fluctuates. The error distribution reveals a slight
underestimation of extreme values but a strong overall agreement between predicted and
observed data.
Keywords : Precision agriculture, Deep learning, LSTM, Production forecasting, Time series,
Monte Carlo, Cereals, Benin.
x
INTRODUCTION
Au cours des dernières décennies, le monde a connu une transformation technologique sans
précédent, marquée par l’essor rapide de l’intelligence artificielle (IA). De nombreux secteurs
tels que la santé, la finance, l’énergie, l’éducation ou encore les transports ont été profondément
transformés par des outils intelligents capables d’analyser de grandes masses de données,
d’apprendre et de prédire avec une précision remarquable.
Le secteur agricole n’échappe pas à cette dynamique. Selon Russell et Norvig (2021), l’IA
désigne « la capacité d’une machine à reproduire certaines fonctions cognitives humaines telles
que l’apprentissage, la perception ou la prise de décision ». Dans le domaine agricole, pl usieurs
études (Kamilaris & Prenafeta-Boldú, 2018 ; Liakos et al., 2018) ont démontré l’efficacité des
approches d’apprentissage profond (deep learning) dans la prédiction des rendements, la gestion
des ressources et la détection des maladies. Ces approches favorisent une agriculture de
précision plus durable, en optimisant les intrants et en réduisant les impacts environnementaux
(Wolfert et al., 2017).
Ces avancées ont favorisé l’émergence de l’agriculture de précision, qui consiste à intervenir
au bon moment et au bon endroit afin d’améliorer l’efficacité et la durabilité des pratiques
agricoles (Gebbers & Adamchuk, 2010). Parmi les approches les plus prometteuses,
l’apprentissage profond se distingue par sa capacité à reconnaître des relations non l inéaires
complexes à partir de données volumineuses. Des modèles tels que les réseaux de neurones
récurrents (RNN) et leurs variantes Long Short-Term Memory (LSTM) ont démontré leur
efficacité dans l’analyse de séries temporelles agricoles, la prévision des rendements et la
détection de maladies (Kamilaris & Prenafeta-Boldú, 2018).
1
Au Bénin, pays à forte vocation agricole, les enjeux liés à la sécurité alimentaire, à la
dégradation des sols et aux changements climatiques demeurent préoccupants. Le sous-secteur
des céréales, qui joue un rôle central dans la sécurité alimentaire, reste exposé à de multiples
aléas : irrégularité des pluies, faible mécanisation, déforestation et disponibilité limitée de
données fiables pour la planification (Adégbidi et al., 2020 ; Baco & Houssou-Gandonou,
2018).
Les outils statistiques classiques de prévision, tels que les modèles ARIMA et SARIMA,
présentent des limites importantes. Leur nature linéaire ne permet pas de capturer la complexité
et la non-linéarité des phénomènes agricoles influencés simultanément par de nombreux
facteurs interdépendants (Box & Jenkins, 1976 ; Zhang, 2003). Cela réduit leur efficacité pour
anticiper les fluctuations de la production céréalière dans un contexte marqué par le changement
climatique.
L’importance stratégique des céréales au Bénin se traduit par leur poids dans la production
nationale. En 2023–2024, la production de maïs a atteint 2 059 254 tonnes, soit une hausse de
27,1 % par rapport à 2022, tandis que le riz et le couple mil-sorgho ont produit respectivement
492 626 et 733 309 tonnes (MAEP, 2024). Ces chiffres traduisent une forte dépendance du pays
à ces cultures, mais également des variations importantes d’une campagne à l’autre. Selon
Houssou et al. (2021), ces fluctuations fragilisent la sécurité alimentaire et appellent à une
meilleure capacité de prévision.
Dès lors, la question centrale de cette recherche est la suivante : dans quelle mesure les
techniques de l’apprentissage profond peuvent-elles contribuer à prédire l’évolution de la
production céréalière dans les communes du Borgou au Bénin ? Pour y répondre, nous
proposons de mettre en œuvre un modèle de réseaux de neurones récurrents de type LSTM.
Plus spécifiquement, il s’agira de :
2
Ainsi, nous formulons les hypothèses suivantes :
Enfin, ce mémoire est structuré en trois grandes parties complémentaires. La première partie
présente une revue critique de la littérature sur les modèles de l’intelligence artificielles tels que
le machine learning, le Deep Learning, l’Agriculture de Précision, l’analyse prédictive, les
modèles classiques de séries temporelles ainsi que la simulation de Monte Carlo et une synthèse
des articles abordant notre thème. La deuxième partie décrit le cadre méthodologique, incluant
le milieu d’étude, la source des données et les outils d’analyse utilisés, notamment R pour les
analyses descriptives et Python pour l’implémentation du modèle de réseaux de neurones. La
troisième partie expose et discute les résultats obtenus, avant de passer à la discussion.
3
CHAPITRE I : REVUE DE LITTERATURE
I. CADRE CONCEPTUEL ET DEFINITIONS
1. Intelligence artificielle
Notion apparue dès les années 1950, l’intelligence artificielle (IA) peut être définie comme
l’ensemble de techniques permettant à des machines d’accomplir des tâches et de résoudre des
problèmes normalement réservés aux humains et à certains animaux. Il s’agit donc de
techniques qui visent à reproduire, imiter ou simuler l’intelligence, ou en tout cas les capacités
que l’on peut associer à ce terme : capacité à percevoir son environnement, à interagir avec lui,
à communiquer au moyen d’un langage, à raisonner, à planifier des actions et à résoudre des
problèmes complexes (Russell & Norvig, 2021).
Selon John McCarthy (1956), l’un des pionniers du domaine, l’intelligence artificielle est « la
science et l’ingénierie de la fabrication de machines intelligentes ». Elle est considérée comme
un champ majeur de l’informatique qui cherche à développer des systèmes capables d’exécuter
des tâches nécessitant normalement l’intelligence humaine, telles que la reconnaissance visuelle,
la prise de décision, la traduction automatique ou encore l’apprentissage à partir de données
(Nilsson, 2010).
Au fil des décennies, l’IA a connu plusieurs évolutions majeures, passant de l’approche
symbolique à l’apprentissage automatique (machine learning) et à l’apprentissage profond
(deep learning), qui repose sur des réseaux de neurones artificiels capables d’extraire
automatiquement des représentations complexes à partir de grandes quantités de données
(LeCun, Bengio & Hinton, 2015).
4
machines d’apprendre à partir de données sans être explicitement programmées, et constitue le
fondement de la plupart des systèmes intelligents modernes (Goodfellow, Bengio & Courville,
2016).
Le Machine Learning (ML) est le socle de l’intelligence artificielle. Il repose sur le principe
selon lequel un système peut apprendre des relations ou des structures d’un ensemble de
données, afin de faire des prédictions ou prendre des décisions sur les nouvelles données
(Bishop,2006). Tout ce qui peut être stocké numériquement peut servir de données pour le
Machine Learning. Selon Alpaydin (2020), le ML s’appuie sur des algorithmes capables
d’extraire automatiquement des motifs à partir des données et d’ajuster leurs paramètres pour
minimiser les erreurs. Les principaux types d’apprentissage automatique sont :
• L’apprentissage supervisé, le plus courant, les données sont étiquetées afin d’indiquer
à la machine quelles patterns elle doit rechercher. Le système s’entraîne sur un ensemble
de données étiquetées, avec les informations qu’il est censé déterminer. Les données
peuvent même être déjà classifiées de la manière dont le système est supposé le faire.
Cette méthode nécessite moins de données d’entraînement que les autres, et facilite le
processus d’entraînement puisque les résultats du modèle peuvent être comparés avec
les données déjà étiquetées.
• L’apprentissage non supervisé, utilisé pour regrouper ou segmenter les données sans
étiquettes. La machine se contente d’explorer les données à la recherche d’éventuelles
patterns. Elle ingère de vastes quantités de données, et utilise des algorithmes pour en
extraire des caractéristiques pertinentes requises pour étiqueter, trier et classifier les
données en temps réel sans intervention humaine. Plutôt que d’automatiser les décisions
5
et les prédictions, cette approche permet d’identifier les patterns et les relations que les
humains risquent de ne pas identifier dans les données. Cette technique n’est pas très
populaire, car moins simple à appliquer. Elle est toutefois de plus en plus populaire dans
le domaine de la cybersécurité.
3. Deep Learning
6
sur la capacité des réseaux neuronaux profonds à « modéliser des relations complexes entre
variables », rendant possible la reconnaissance d’images, la traduction automatique ou encore
la prédiction de phénomènes non linéaires.
Enfin, Yoshua Bengio (2009) définit le Deep Learning comme « une méthode d’apprentissage
basée sur des réseaux de neurones composés de multiples couches, capables de transformer les
données brutes en représentations de plus en plus abstraites et utiles pour la prise de décision ».
Il met l’accent sur la profondeur du modèle, c’est-à-dire le grand nombre de couches cachées
qui permettent au réseau de capter la complexité des phénomènes réels.
Il est considéré comme une extension des réseaux de neurones artificiels classiques, dans
laquelle l’architecture du modèle comprend plusieurs couches cachées permettant d’apprendre
des représentations hiérarchiques des données. Selon Goodfellow, Bengio et Courville (2016),
le Deep Learning correspond à « l’apprentissage à l’aide de réseaux de neurones profonds,
c’est-à-dire des modèles comportant de nombreuses couches de traitement non linéaires ». De
même, LeCun, Bengio et Hinton (2015) soulignent que ces architectures profondes ont permis
des avancées majeures dans des domaines tels que la vision par ordinateur, la reconnaissance
vocale et le traitement automatique du langage.
Ainsi, les premiers réseaux de neurones ont donc été inventés en 1943 par deux
mathématiciens et neuroscientifiques du nom de Warren McCulloch et Walter Pitts. Dans leur
article scientifique intitulé : "A Logical Calculus of the ideas immanent in nervous activity", ils
expliquent comment ils ont pu programmer des neurones artificiels en s'inspirant du
fonctionnement des neurones biologiques.
D’abord en biologie, les neurones sont des cellules excitables connectées les unes aux aut res,
et ayant pour rôle de transmettre des informations dans notre système nerveux. Chaque neurone
est composé de plusieurs dendrites, d'un corps cellulaire, et d'un axone. Les dendrites sont en
quelque sorte les portes d'entrée d'un neurone. C’est au niveau de la synapse, que le neurone
reçoit des signaux lui provenant des neurones qui le précèdent. Ces signaux peuvent être de
type excitateur ou à l'inverse inhibiteur. Lorsque la somme de ces signaux dépasse un certain
seuil, le neurone s'active et produit alors un signal électrique. Ce signal circule le long de l'axone
en direction des terminaisons pour être envoyé à son tour vers d'autres neurones de notre
système nerveux ; ces neurones qui fonctionneront exactement de la même manière. Warren
McCulloch et Walter Pitts ont essayé de modéliser ce fonctionnement des neurones biologiques
7
en considérant qu'un neurone pouvait être représenté par une fonction de transfert, qui prend en
entrée des signaux X et qui retourne une sortie Y.
C’est ainsi que Warren McCulloch et Walter Pitts ont développé, en 1943, les premiers neurones
artificiels, appelés plus tard Threshold Logic Units (unités logiques à seuil). Ce modèle ne
traitait initialement que des entrées logiques binaires. Les deux chercheurs ont démontré qu’un
tel système pouvait reproduire des fonctions logiques élémentaires comme les portes AND et
OR, et qu’en connectant plusieurs neurones entre eux, à la manière du cerveau humain, il
devenait possible de résoudre des problèmes de logique booléenne complexes. Toutefois, ce
modèle présentait une limite majeure : il ne disposait d’aucun algorithme d’apprentissage, ce
qui empêchait le réseau d’ajuster ses poids de manière autonome.
Une quinzaine d’années plus tard, en 1957, Frank Rosenblatt, psychologue américain,
améliora le modèle de McCulloch et Pitts en proposant le premier algorithme d’apprentissage
de l’histoire du Deep Learning, donnant naissance au Perceptron simple. Comme le neurone
étudié précédemment, le Perceptron s’active lorsque la somme pondérée de ses entrées dépasse
un certain seuil, généralement zéro. Toutefois, Rosenblatt y ajouta un algorithme
d’apprentissage permettant d’ajuster les poids afin que le neurone produise les sorties désirées.
Pour développer cet algorithme, Rosenblatt s’inspira de la théorie de Donald Hebb, 1949.
Elle stipule que lorsque deux neurones biologiques sont excités simultanément, leurs
connexions synaptiques se renforcent. Transposé au Perceptron, cela signifie qu’un neurone
artificiel ajuste ses paramètres chaque fois qu’une entrée est activée en même temps que la
sortie de référence. La mise à jour des poids se fait selon la formule :
8
Où α est le pas d’apprentissage ; W les paramètres ; X l’entrée de neurones ; 𝑌𝑟𝑒𝑓 sortie de
référence et 𝑌𝑝𝑟𝑜𝑑𝑢𝑖𝑡 la sortie produite par le neurone. Si la sortie produite diffère de la sortie
attendue, les poids sont progressivement ajustés pour rapprocher la sortie du seuil d’activation.
Lorsque la sortie devient correcte, les poids cessent d’évoluer.
Dans les années 1980, une avancée majeure marque l’histoire des réseaux de neurones avec
les travaux de Geoffrey Hinton, David Rumelhart et Ronald Williams. Ces chercheurs ont
introduit le Perceptron Multicouches (MLP) et surtout l’algorithme de rétropropagation du
gradient, ouvrant ainsi la voie à l’apprentissage profond. Le Perceptron Multicouches a résolu
ce problème en introduisant plusieurs couches cachées composées de neurones dotés de
fonctions d’activation non linéaires (telles que la sigmoïde ou la tangente hyperbolique),
capables de modéliser des relations complexes entre les variables d’entrée et de sortie. Grâce à
la rétropropagation du gradient, les poids de toutes les couches du réseau peuvent être ajustés
de manière optimale, permettant ainsi un apprentissage plus efficace.
Cette innovation a posé les bases du Deep Learning moderne, en rendant possible
l’entraînement de réseaux de neurones capables de représenter des structures de données
beaucoup plus complexes. Dans les années 1990, de nouvelles variantes du perceptron
multicouches apparaissent. Yann LeCun crée les réseaux de neurones convolutifs (CNN),
capables de reconnaître des images.
Le Deep Learning n’a véritablement pris son essor qu’à partir de 2012 lors de la célèbre
compétition ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Une équipe de
chercheurs dirigée par Geoffrey Hinton présenta un modèle appelé AlexNet, un réseau de
neurones convolutif capable de reconnaitre et de classer automatiquement des images à grandes
échelles, en apprenant les caractéristiques visuelles pertinentes sans intervention humaine.
Exploitant la puissance des GPU (Graphics Processing Unit), ou processeur graphique, ce
modèle a permis de réduire le taux d’erreur de 25% en 2011 à 12% en 2012 lors de la
compétition.
9
Cette percée a démontré le potentiel immense des réseaux de neurones profonds et a ouvert la
voie à une nouvelle ère d’applications de l’intelligence artificielle, dans des domaines aussi
variés que la reconnaissance vocale, le traitement automatique du langage, la santé, et bien sûr,
la prédiction de données complexes.
Les réseaux de neurones convolutifs (CNN), à l’origine des avancées majeures depuis 2012,
sont conçus pour traiter des données structurées en grille, comme les images ou les signaux
(Goodfellow, Bengio & Courville, 2016). Inspirés du cortex visuel humain, ils apprennent
automatiquement des caractéristiques hiérarchiques, des motifs simples (bords, textures) aux
structures complexes (objets) (LeCun, Bengio & Hinton, 2015).
Un CNN est composé de couches de convolution, qui extraient les caractéristiques locales via
des filtres appliqués par convolution ; de couches de pooling, qui réduisent la taille des cartes
de caractéristiques tout en conservant l’information essentielle ; et de couches entièrement
connectées, qui agrègent les informations pour la prédiction finale (Yamashita et al., 2018).
L’entraînement se fait par rétropropagation et descente de gradient, ajustant les poids pour
minimiser l’erreur entre prédictions et valeurs réelles (Rumelhart, Hinton & Williams, 1986).
Hochreiter et Schmidhuber (1997) précisent que les RNN constituent une famille de
modèles capables de traiter des séquences de longueur variable tout en conservant l'information
sur les états antérieurs afin de prédire les futurs états. Leur travail a d’ailleurs conduit à la
création de l’architecture Long Short-Term Memory (LSTM), destinée à résoudre les problèmes
de disparition et d’explosion du gradient lors de l’apprentissage.
Le fonctionnement d’un RNN repose sur l’itération d’une cellule récurrente à travers la
séquence d’entrée. À chaque pas de temps, le réseau reçoit une entrée 𝑥𝑡 et l’état caché ℎ𝑡−1
provenant du pas précédent. La sortie ℎ𝑡 est calculée selon la formule :
Où 𝑊{𝑥ℎ} et 𝑊{ℎℎ} sont des matrices de poids, un vecteur de biais 𝑏ℎ et une fonction
d’activation 𝑓. Cette sortie peut ensuite être utilisée pour produire la sortie finale 𝑦𝑡 à l’aide
d’une couche de sortie, selon :
𝑦𝑡 = 𝑔(𝑊{ℎ𝑦}ℎ𝑡 + 𝑏𝑦 )
Les réseaux de neurones récurrents sont entraînés par rétropropagation à travers le temps
(Backpropagation Through Time, BPTT), qui étend la rétropropagation classique aux
séquences en accumulant les gradients sur tous les pas de temps. Cette architecture permet aux
RNN de capturer des dépendances à court terme dans les données séquentielles, mais ils
peuvent rencontrer des difficultés à mémoriser des informations sur de longues séquences en
raison du problème de gradient qui s’évanouit ou explose (Hochreiter & Schmidhuber, 1997).
11
récurrente permet au réseau de conserver un état mémoire des informations passées, ce qui leur
confère un avantage par rapport aux réseaux de neurones traditionnels pour les tâches où le
contexte historique est crucial.
Les réseaux antagonistes génératifs (GAN), introduits par Goodfellow et al. (2014),
combinent deux réseaux en compétition : le générateur, qui produit des données synthétiques,
et le discriminateur, qui distingue les données réelles de celles générées. Cette interaction
compétitive permet au générateur de créer progressivement des échantillons très réalistes, tandis
que le discriminateur améliore sa capacité de classification. Les GAN sont particulièrement
efficaces pour générer des images, du texte ou de l’audio, pour l’augmentation de jeux de
données et pour simuler des scénarios rares, le tout en apprentissage non supervisé.
12
(Figure 2.2). Les neurones possèdent un niveau d'activation qui leur est associé à chaque instant
et dont la force dépend de la quantité d'informations reçue de ses voisins. Si l'activation du
neurone i a tendance à accroître celle du neurone 𝑗 , alors la connexion 𝑊𝑦 , est dite excitatrice
avec un poids positif. Par contre, si l'activation de i tend à diminuer celle de j, la connexion est
dite inhibitrice avec un poids négatif (Bourret et al, 1991). Mais un neurone ne transmet pas
toujours l'information qu'il reçoit. En effet, le neurone n'est activé que si le potentiel d'act ivation
qu'il reçoit dépasse un certain seuil. Il transmet alors une réponse dont la valeur est celle de son
niveau d'activation. Lorsque le neurone n'est pas activé, il ne transmet aucune information à ses
voisins.
La somme pondérée des signaux reçus par un neurone est déterminée par la relation suivante
(Shearer et al., 1998) ;
𝑖 où 𝑜𝑝𝑗 est la somme pondérée des entrées du neurone 𝑗, 𝑊𝑗𝑖 est le poids de connexion
entre le neurone actuel j et le neurone précédent i, 𝑥𝑝𝑖 est la sortie des neurones 𝑖 connectés
au neurone 𝑗 pour le cas 𝑝 et 𝜃𝑗 est le biais dont la valeur d'entrée est une constante égale à
1.
Le résultat de l'équation est ensuite transformé par une fonction d'activation non linéaire pour
déterminer l'état d'activation 𝑎𝑝𝑗 du neurone 𝑗 qui sera transféré aux neurones 𝑘 de la
couche suivante. Toutes les fonctions continues et dérivables en tous points de l'espace peuvent
être utilisées comme fonctions d'activation (Paola et Schowengerdt, 1995).
13
Elles sont un élément central des réseaux de neurones, car elles introduisent de la non-
linéarité dans le modèle. Sans elles, un réseau de neurones, même profond, se réduirait à une
simple combinaison linéaire des entrées, limitant fortement sa capacité à modéliser des relations
complexes. Plusieurs fonctions sont couramment utilisées :
1
𝜎(𝑥 ) =
1 + 𝑒 −𝑥
➢ La fonction tanh : Très utilisée dans les réseaux récurrents (RNN, LSTM) pour centrer
les données autour de zéro.
𝑒 𝑥 − 𝑒 −𝑥
tanh(𝑥 ) =
𝑒 𝑥 + 𝑒 −𝑥
➢ La fonction ReLU (Rectified Linear Unit) : Très populaire dans les réseaux profonds,
notamment CNN et LSTM.
𝑥 𝑠𝑖 𝑥 > 0
𝐿𝑒𝑎𝑘𝑦 𝑅𝑒𝐿𝑈 = {
𝛼𝑥 𝑠𝑖𝑛𝑜𝑛
𝑒 𝑥𝑖
𝑆𝑜𝑓𝑡𝑚𝑎𝑠(𝑥𝑖 ) =
∑𝑖 𝑒 𝑥𝑖
14
innovation technologique, elle favorise une production plus efficace et responsable, renforçant
la qualité, la traçabilité et la durabilité des systèmes agricoles.
5. Analyse prédictive
L’analyse prédictive utilise les données historiques pour anticiper des événements ou
comportements futurs grâce à des modèles statistiques et d’apprentissage automatique. En
agriculture, elle permet de prévoir les rendements, détecter précocement les maladies ou
attaques parasitaires, optimiser l’usage des intrants et planifier les récoltes. Elle s’appuie sur
l’exploitation des tendances et des corrélations, notamment dans les séries temporelles, pour
soutenir la prise de décision et améliorer la gestion des systèmes agricoles. On distingue donc :
Les modèles autorégressifs (AR) supposent que la valeur future d’une série temporelle peut
être exprimée comme une combinaison linéaire de ses valeurs passées. Formellement, un
modèle AR(p) est défini comme :
Les modèles à moyenne mobile (MA) utilisent les erreurs passées pour modéliser la série
temporelle. Un modèle MA(q) s’exprime ainsi :
𝑋𝑡 = μ + ԑ𝑡 + θ1 ԑ𝑡−1 + ⋯ + θ𝑞 ԑ𝑡−𝑞
Pour les séries temporelles présentant des variations saisonnières régulières, les modèles
SARIMA (Seasonal ARIMA) intègrent des composantes saisonnières additionnelles. Ils sont
particulièrement adaptés aux données agricoles et météorologiques où les fluctuations
saisonnières sont importantes.
15
L’analyse prédictive constitue un levier majeur de la transformation numérique de l’agriculture,
en fournissant aux producteurs et décideurs des informations fiables et en temps réel pour
améliorer la prise de décision, la productivité et la durabilité des exploitations agricoles.
Toutefois, ces modèles classiques reposent sur des hypothèses strictes : linéarité, stationnarité
et distribution normale des erreurs. Ils peuvent avoir des performances limitées lorsque les
séries présentent des non-linéarités complexes ou des dépendances à long terme. Cela explique
l’émergence de modèles de machine learning et de deep learning (RNN, LSTM, GRU) pour la
prévision de séries temporelles plus complexes.
La méthode de Monte Carlo (MC) est une technique d’estimation numérique reposant sur
l’utilisation de nombres aléatoires pour résoudre des problèmes déterministes complexes. Elle
tire son origine des travaux de Stanislaw Ulam et John von Neumann dans les années 1940,
dans le cadre du projet Manhattan, avant d’être formalisée par Metropolis et Ulam (1949).
Depuis, cette approche est devenue un outil central en modélisation, finance, physique,
ingénierie et agriculture, notamment pour l’évaluation de l’incertitude, la prédiction de risques
ou l’optimisation de processus décisionnels (Fishman, 1996 ; Kroese et al., 2014).
Sur le plan théorique, la méthode de Monte Carlo repose sur l’estimation d’une espérance
mathématique ou d’une intégrale difficile à résoudre analytiquement. Si l’on cherche à estimer
une quantité de la forme :
𝑁
1
Î𝑁 = ∑ 𝑓(𝑥𝑖 )
𝑁
𝑖=1
D’après la loi des grands nombres, l’estimateur Î𝑁 converge vers la valeur réelle 𝐼 lorsque
1
𝑁 ⟶ ∞. L’erreur d’estimation diminue proportionnellement à , selon :
√𝑁
𝜎
𝐸𝑟𝑟𝑒𝑢𝑟 ≈
√𝑁
16
où 𝜎 est l’écart-type de 𝑓(𝑋). Cela illustre la stabilité statistique de la méthode et justifie
son utilisation pour obtenir des résultats robustes à partir de grands volumes de simulations.
La prévision des séries temporelles constitue un enjeu majeur dans de nombreux domaines,
notamment la météorologie, l’agriculture et l’économie. Les modèles traditionnels ARIMA
(Autoregressive Integrated Moving Average) restent populaires pour leur capacité à capturer les
tendances linéaires et la saisonnalité des données. Box et Jenkins (1970) ont établi les bases de
cette approche, largement utilisée pour la prédiction de la température et de la consommation
énergétique (Zhao & Magoules, 2012 ; Bianco et al., 2009 ; Maia et al., 2009), ainsi que pour
des applications économiques et agricoles. Toutefois, ARIMA présente certaines limites,
notamment dans la modélisation des dépendances non linéaires et des fluctuations rapides. À
ce propos, Aye et Karaman (2018) ainsi que Claveria & Torra (2014) ont montré que, bien que
les modèles ARIMA puissent gérer la saisonnalité, ils s’avèrent moins efficaces pour les
prévisions à long terme ou pour des séries présentant des variations complexes.
Dans ce contexte, les modèles basés sur l’apprentissage profond, en particulier les LSTM
(Hochreiter & Schmidhuber, 1997), ont émergé pour pallier ces limitations. Les LSTM sont
capables de modéliser des dépendances à long terme et des interactions complexes entre
différentes séquences temporelles. Plusieurs études ont démontré leur supériorité par rapport à
ARIMA pour la prédiction de la température, des conditions extrêmes et des indices
physiologiques des cultures, avec des erreurs de prédiction réduites et une précision nett ement
17
améliorée (Sagheer & Kotb, 2019 ; Sezer et al., 2022 ; Sajo et al., 2021). Plus récemment, Dhal
et al. (2024) ont appliqué des LSTM à entrées multiples et sorties multi-étapes pour prédire la
couverture végétale (CC) dans des champs de coton, obtenant des RMSE nettement inférieures
à celles des modèles ARIMA et des LSTM à entrer unique, notamment pour les stades précoces
de croissance. De même, Mahaluça et al. (2024) ont comparé ARIMA et LSTM pour la
production de maïs au Mozambique, sur des données allant de 1961 à 2022, et ont montré que
le LSTM capturait efficacement les variations complexes et non linéaires de la production, avec
un MAPE de 2,64 % contre 16,39 % pour ARIMA. Par ailleurs, Kasthuri & Selvakumar (2021)
et Taslim & Murwantara (2023) ont souligné que la performance relative des modèles dépend
fortement de la taille et de la qualité des données : les LSTM sont plus efficaces pour des petits
ensembles de données ou des séries comportant des valeurs manquantes, tandis qu’ARIMA
reste performant pour de grands ensembles réguliers. Enfin, des études comparatives sur les
séries économiques et financières (Siami-Namini et al., 2018) indiquent que les LSTM peuvent
réduire les taux d’erreur de 84 à 87 % par rapport à ARIMA, confirmant leur supériorité pour
les séries présentant des motifs non linéaires et des influences externes complexes. Ces travaux
mettent en évidence que le choix du modèle doit être guidé par la nature des données, la
complexité des séries et l’objectif de prévision, et que des approches combinées ou adaptatives,
utilisant ARIMA pour les tendances linéaires à long terme et LSTM pour les fluctuations
complexes, constituent une stratégie optimale.
D’autres études confirment cette tendance et renforcent la conclusion selon laquelle les
modèles basés sur les réseaux de neurones artificiels surpassent les approches traditionnelles
pour la prévision des prix et des rendements agricoles. Dans cette continuité, plusieurs
recherches récentes se sont intéressées à l’application concrète des méthodes d’apprentissage
automatique et profond, illustrant les avancées méthodologiques et les perspectives
prometteuses pour améliorer la précision des prévisions et soutenir la prise de décision dans le
secteur agricole.
Ainsi, Konnon et al. (2023) mettent en évidence que la volatilité des prix agricoles constitue un
défi majeur, notamment dans le contexte du changement climatique. Leur étude propose un
modèle de prévision du prix du maïs au Bénin, combinant données historiques et variables
climatiques (température, précipitations). Plusieurs méthodes d’apprentissage automatique ont
été comparées, incluant la régression linéaire, les arbres de décision, la forêt aléatoire, XGBoost
et les réseaux de neurones LSTM. Les résultats montrent que les LSTM intégrant les données
climatiques surpassent significativement les approches traditionnelles, avec une RMSE de
18
0,1749, une MAE de 0,1561 et une MAPE de 0,1055. Une application web associée permet en
outre de fournir des prévisions en temps réel et des visualisations interactives, contribuant à une
meilleure prise de décision, à la sécurité alimentaire et à la stabilité des marchés agricoles en
Afrique.
Par ailleurs, Md. Abu Jabed et Masrah Azrifah Azmi Murad (2024) proposent une revue
exhaustive portant sur la prédiction des rendements agricoles, mettant en avant l’efficacité de
l’intelligence artificielle, à travers l’apprentissage automatique (ML) et profond (DL). Leur
analyse de 115 articles montre que les facteurs climatiques et environnementaux, tels que
température, précipitations, type de sol, humidité et indices de végétation (NDVI, EVI, LAI,
NDWI), influencent fortement le rendement. Les méthodes ML les plus utilisées incluent
Random Forest (RF), SVM, ANN, XGBoost, Arbres de Décision et Régression Linéaire
Multiple, tandis que les techniques DL incluent CNN, LSTM et DNN. Les approches hybrides
combinant plusieurs algorithmes, telles que CNN-LSTM ou CNN-DNN, sont particulièrement
efficaces lorsqu’elles intègrent des données de télédétection, capturant à la fois les informations
spatiales et temporelles.
De même, Guissé Seck et al. (2024) illustrent l’efficacité des DNN optimisés par
algorithmes génétiques pour la prévision des rendements au Sénégal, atteignant un R² de 0,92
et utilisant des techniques d’IA explicable (XAI, LIME) pour identifier les caractéristiques
déterminantes, comme le type de culture, et classifier les cultures les plus adaptées aux
conditions pédoclimatiques locales. Enfin, Sun et al. (2019) proposent un modèle CNN-LSTM
combinant CNN et LSTM pour la prédiction du rendement du soja au niveau des comtés aux
États-Unis, démontrant des performances supérieures aux modèles CNN ou LSTM individuels
et offrant un potentiel pour d’autres cultures telles que le maïs, le blé ou les pommes de terre.
Toutes ces avancées méthodologiques et les résultats prometteurs obtenus, il est important
de souligner que ces études ne sont pas exemptes de limites, tant sur le plan conceptuel que
méthodologique, qui méritent d’être analysées de manière critique.
Comme le soulignent Tamayo-Vera et al. (2024) dans leur revue des techniques d’apprentissage
automatique appliquées aux études agro-climatiques, la plupart des recherches négligent
l’analyse de sensibilité et la validation sous scénarios climatiques, ce qui compromet la
généralisation des résultats. De même, Xu et al. (2025), dans une étude sur l’impact de la
variabilité climatique sur le rendement agricole en Jordanie, insistent sur la nécessité d’intégrer
des approches de sensibilité basées sur la variance pour mieux comprendre l’influence relative
de chaque variable d’entrée. Wimalasiri et al. (2023) montrent d’ailleurs, à travers leur analyse
agroclimatique du millet en Asie du Sud, que la simulation de scénarios de changement
climatique permet d’évaluer la résilience et la stabilité des rendements dans le temps.
L’absence de telles validations dynamiques dans la plupart des études limite donc la
capacité à généraliser les résultats et à garantir la robustesse des modèles face à des contextes
réels marqués par une forte incertitude. Pour y remédier, Sun et al. (2019) et Guissé Seck et al.
(2024) suggèrent que les futures recherches intègrent des analyses de sensibilité, des tests sous
différents scénarios climatiques, et des approches d’explicabilité de l’IA (XAI) afin d’assurer
la fiabilité, la transparence et la transférabilité des modèles prédictifs.
Ainsi, il apparaît nécessaire que les travaux futurs adoptent une démarche intégrée combinant
la modélisation prédictive, la simulation de scénarios et l’analyse de robustesse, notamment
dans des environnements agricoles soumis à de fortes fluctuations climatiques et économiques.
20
CHAPITRE II : CADRE MÉTHODOLOGIE
1. MILIEU D’ETUDE.
Situé au nord du Bénin, le département du Borgou couvre une superficie de 25 856 km², soit
environ 23 % du territoire national. Il dispose de 13 962 km² de terres cultivables, représentant
54 % de sa superficie totale, ce qui témoigne de son fort potentiel agricole. Administrativement,
le Borgou est subdivisé en huit communes : Kalalè, N’dali, Pèrèrè, Nikki, Sinendé, Bembèrèkè,
Parakou et Tchaourou, elles-mêmes réparties en 43 arrondissements et 310 villages et quartiers
de ville. Selon le Recensement Général de la Population et de l’Habitation (RGPH), le
département compte une population totale de 1 214 249 habitants, dont 803 926 appartiennent
à la population agricole, regroupant 83 275 ménages agricoles.
L’économie du Borgou repose largement sur l’agriculture, principal moyen de subsistance des
ménages. Environ 94,8 % des ménages agricoles s’activent dans le secteur végétal, traduisant
la prédominance de la production végétale dans le secteur rural (RGPH-4, 2013). Cette
dynamique se retrouve dans la mise en œuvre du Programme de Relance du Secteur Agricole
(PRSA), où les cultures céréalières représentent 53,1 % des productions prioritaires.
L’importance de l’agriculture dans le Borgou se manifeste également par le fait que 67,92 % de
la population totale dépend directement de cette activité pour ses moyens d’existence, ce qui
rend la performance agricole déterminante pour la sécurité alimentaire et le développement
économique local.
La présente étude porte sur la production céréalière dans les communes du Borgou entre 1995
et 2023, en se concentrant sur cinq cultures essentielles : le riz, le maïs, le sorgho, le mil et le
soja. Ces cultures ont été sélectionnées en raison de leur rôle stratégique, à la fois socio-
économique, en assurant les revenus d’une large part des ménages agricoles, et nutritionnel, en
contribuant de manière significative à la sécurité alimentaire des populations rurales et
urbaines).
21
Pour le traitement et l’analyse de ces données, nous avons utilisé deux environnements
logiciels complémentaires. Le logiciel R a été employé pour le prétraitement des données,
incluant le nettoyage des informations, la transformation des variables et le codage des variables
catégorielles. Parallèlement, Python a été utilisé pour la construction du modèle de réseau de
neurones LSTM, la réalisation de la simulation de type Monte Carlo, ainsi que pour la
visualisation et l’analyse statistique des résultats. Les principales bibliothèques Python
mobilisées comprennent pandas et numpy pour la manipulation et la gestion des données,
tensorflow/keras pour le développement du modèle LSTM, matplotlib et seaborn pour la
création des graphiques, ainsi que [Link] pour générer les distributions aléatoires utilisées
dans la simulation Monte Carlo.
Les valeurs aberrantes (ou outliers) sont des observations qui s'écartent significativement des
autres données, c’est-à-dire des valeurs extrêmes au-delà de l’intervalle interquartile (IQR)
susceptible de fausser les analyses. Dans le cas de nos données IQR est fixé à
Il est donc important de les identifier et de décider de la manière de les traiter. La méthode
courante prend en compte la visualisation graphique. Elle consiste à utiliser des diagrammes en
boîte (boxplots) ou des histogrammes pour visualiser la distribution des données et identifier
visuellement les valeurs aberrantes.
22
2.3. Homogénéisation
La variable « Cultures » de notre base de données est qualitative nominale, avec quatre
modalités distinctes : maïs, riz, sorgho et mil. Or, les modèles de Deep Learning ne peuvent
traiter que des variables numériques. Il est donc nécessaire de transformer cette variable
catégorielle en une représentation numérique appropriée. Nous avons recouru la méthode One-
Hot Encoding. Elle permet d’éviter l’introduction d’une hiérarchie artificielle entre les céréales,
contrairement à la codification simple qui pourrait être interprétée à tort par l’algorithme
comme une relation d’ordre. Ainsi, chaque céréale est représentée par un vecteur binaire de
dimension 5.
Les données collectées sur la production céréalière présentent des échelles très différentes. En
effet, les superficies cultivées sont exprimées en hectares, le rendement en kilogrammes par
hectare, et la production totale en kilogrammes. Si elles étaient utilisées directement dans les
modèles de prédiction, la variable « production » dominerait les calculs du fait de son ordre de
grandeur élevé par rapport aux autres. Pour corriger ce déséquilibre et permettre une
comparaison équitable entre les variables, une étape de normalisation est effectuée. Nous avons
donc a effectué une standardisation par Z-score. Cette transforme les données pour obtenir une
distribution centrée (moyenne nulle) et réduite (écart-type égal à 1), selon la formule :
𝒙−µ
𝑿=
𝝈
23
Cette transformation a permis de mettre toutes les variables sur la même échelle, de stabiliser
l’entraînement des modèles de prédiction et d’éviter qu’une variable à forte amplitude ne
domine artificiellement les calculs.
3.1. Analyse des tendances d’évolution et comparaison des performances entre les types
de céréales
L’analyse des tendances d’évolution et la comparaison des performances entre les types de
céréales reposent sur l’exploitation de séries chronologiques afin de comprendre la dynamique
spatio-temporelle de la production céréalière. Dans un premier temps, des statistiques
descriptives telles que la moyenne, la variance, l’écart-type, le minimum et le maximum sont
calculées par année, culture et commune, afin de caractériser les niveaux de production et leur
variabilité. Des outils graphiques, notamment des courbes d’évolution, des diagrammes en
barres, ont permis de visualiser les dynamiques, de comparer les productions entre cultures.
Parallèlement, un ajustement de régression linéaire a été appliqués pour dégager les tendances
de fond. Cette approche combinée a facilité non seulement l’identification et l’interprétation
des trajectoires générales de la production céréalière au fil du temps, mais également la
comparaison des performances entre les différents types de céréales en termes de superficie
cultivée, de rendement et de production totale.
Pour mieux comprendre les relations entre les variables quantitatives de la production
céréalière, une analyse de corrélation est réalisée. Elle permet de déterminer l’existence et
l’intensité des liens entre la superficie cultivée, le rendement et la production totale. L’objectif
est de vérifier si une augmentation de la superficie cultivée ou du rendement se traduit par une
variation proportionnelle de la production totale, et d’identifier quelles variables sont les plus
fortement associées. Les corrélations sont quantifiées à l’aide du coefficient de corrélation r de
Pearson lorsque les variables suivent une distribution normale, ou du coefficient ρ de Spearman
en cas de non-normalité. Cette étape nous a permis de comprendre la dynamique des données
et de préparer la modélisation.
La mise en œuvre du modèle de prédiction par réseau de neurones a été réalisée en langage
Python, à l’aide de bibliothèques spécialisées du Deep Learning.
24
La bibliothèque Keras a servi d’interface principale pour la conception et l’entraînement du
modèle, facilitant la définition des couches, des fonctions d’activation et des paramètres
d’optimisation. Elle repose sur TensorFlow, utilisé comme moteur de calcul pour gérer les
opérations matricielles, la rétropropagation du gradient et l’accélération de l’apprentissage via
les GPU.
Pour le traitement des données, pandas et numpy ont été mobilisés pour le nettoyage et la
transformation, tandis que scikit-learn a permis la normalisation, la division en jeux
d’entraînement, de validation et de test, ainsi que le calcul des métriques d’évaluation. Enfin,
matplotlib et seaborn ont servi à la visualisation des performances et à l’analyse graphique des
résultats.
Afin d’assurer une évaluation rigoureuse et objective des performances du modèle de Deep
Learning, l’ensemble des données est divisé en trois sous-échantillons distincts : jeu
d’entraînement, jeu de validation et jeu de test.
Il comprend environ 70 % des données, soit 672 observations. Ce sous-ensemble est utilisé pour
ajuster les paramètres internes du réseau LSTM, tels que les poids et les biais, afin que le modèle
apprenne les relations entre les variables explicatives et la variable cible.
Il représente environ 15 % des données, 128 observations. Ce jeu permet de suivre les
performances du modèle au cours de l’entraînement, d’ajuster les hyperparamètres et d’éviter
le surapprentissage.
Il correspond aux 15 %, 128 restants. Ces données ne sont utilisées qu’après l’entraînement
complet du modèle afin d’évaluer sa capacité de généralisation sur des périodes futures,
simulant la situation réelle de prévision.
25
3.3.2. Architecture du modèle LSTM
Dans le cadre de cette étude, chaque échantillon correspond à une fenêtre temporelle glissante
représentant l’évolution des variables explicatives sur une période donnée. Ainsi, la couche
d’entrée permet au réseau d’intégrer simultanément plusieurs informations : les tendances
temporelles issues des années précédentes, la variabilité interannuelle des facteurs de
production, et les différences entre cultures et communes. Elle joue donc un rôle essentiel dans
la transmission de la dynamique spatio-temporelle des données vers les couches cachées du
réseau, assurant ainsi une compréhension contextuelle des phénomènes agricoles avant le
processus d’apprentissage proprement dit.
- Deux couches cachées LSTM associé à des fonctions d’activation, des couches de
régularisation :
La couche de sortie du modèle a été configurée pour produire la valeur prédite de la variable «
Production », qui constitue la variable cible dans cette étude. Étant donné qu’il s’agit d’un
problème de régression, la couche de sortie ne comporte qu’un seul neurone, chargé de fournir
une valeur numérique continue correspondant à la production prédite pour une combinaison
donnée de variables explicatives. La fonction d’activation utilisée dans cette couche est la
fonction linéaire. Ce choix est justifié par le fait qu’une fonction linéaire permet de conserver
l’échelle réelle des valeurs de sortie.
Ainsi, le modèle peut prédire librement des valeurs de production, qu’elles soient faibles ou
élevées, en cohérence avec la nature quantitative et non bornée de cette variable.
26
3.4. Paramétrage du réseau de neurones LSTM
La couche d’entrée : constitue la première étape du réseau de neurones LSTM. Elle reçoit les
données séquentielles préparer préalablement.
Le modèle de prédiction repose sur une architecture à deux couches LSTM successives, conçue
pour capter la complexité temporelle des données agricoles.
La première couche, composée de 64 neurones, a pour rôle de détecter les relations dynamiques
entre la superficie cultivée, le rendement et la production. Elle identifie notamment les
tendances saisonnières et les effets retardés de la production, assurant une représentation fine
des variations temporelles.
La seconde couche, plus compacte avec 32 neurones, condense les informations extraites pour
générer une représentation plus stable et généralisable du comportement productif des cultures.
❖ Fonctions d’activation.
Deux types de fonctions d’activation ont été utilisés selon le rôle des couches :
Les deux couches cachées du réseau utilisent la fonction tanh, particulièrement adaptée aux
modèles récurrents tels que les LSTM. Elle transforme les valeurs d’entrée dans un intervalle
compris entre -1 et +1, ce qui permet de :
27
ᶿ Centrer les données autour de zéro pour un apprentissage plus stable ;
Le choix de cette fonction s’explique donc par sa capacité à maintenir la stabilité des gradients
et à améliorer la rétention d’information dans les séquences temporelles longues, ce qui est
crucial dans le cadre de la modélisation de la production agricole.
La couche de sortie du modèle adopte une fonction d’activation linéaire, car l’objectif est de
prédire une valeur continue (production céréalière en tonnes).
Cette fonction permet au modèle de produire directement une sortie proporti onnelle à la
combinaison pondérée des entrées, sans contrainte de borne. Ainsi, elle garantit une sortie
quantitative cohérente avec la nature du problème de régression.
L’association d’une activation tanh pour les couches internes et d’une activation linéaire pour
la sortie constitue une configuration standard dans les modèles LSTM de prévision de séries
temporelles. Elle offre un compromis optimal entre stabilité numérique, capacité de
généralisation et précision prédictive, tout en assurant une convergence rapide lors de
l’apprentissage.
Le réseau est entraîné via la descente de gradient stochastique (SGD), une méthode itérative
qui met à jour les poids du modèle en minimisant l’erreur de prédiction.
ᶿ Techniques de régularisation
Pour limiter le risque de surapprentissage, des couches de régularisation Dropout ainsi que des
pénalisations L1 et L2 ont été intégrées après chaque couche LSTM.
28
Le Dropout, introduit par Srivastava et al. (2014), consiste à désactiver aléatoirement 20 % des
neurones à chaque itération, favorisant ainsi la diversité de l’apprentissage et une meilleure
généralisation du modèle.
Les régularisations L1 (0.0001) et L2 (0.001) ajoutent des pénalités sur les poids du réseau : la
première encourage la parcimonie en annulant certains poids, tandis que la seconde limite leur
amplitude excessive pour stabiliser l’apprentissage.
Leur combinaison, appelée régularisation élastique (Elastic Net), assure un équilibre entre
simplicité du modèle et stabilité numérique.
ᶿ Fonction de coût :
Dans un réseau de neurones, la fonction de coût (ou fonction de perte) quantifie l’écart entre
les prédictions du modèle et les valeurs réelles observées. Pour la prédiction de la production,
la fonction choisie est l’erreur quadratique moyenne (MSE) :
𝒏
𝟏
𝑴𝑺𝑬 = ∑(𝒚𝒊 − 𝒚̂𝒊 )𝟐
𝒏
𝒊−𝟏
ᶿ Early Stopping :
Dans le cas de notre étude, un seul neurone suffit, puisque l’objectif est de générer une valeur
continue unique de la production en tonnes. La fonction d’activation de ce neurone est linéaire,
ce qui signifie que la sortie est directement égale à la combinaison linéaire des entrées pondérées
et du biais
RMSE (Root Mean Squared Error) pour mesurer l’erreur moyenne de prédiction ;
𝑛
(𝑦̂𝑖 − 𝑦𝑖 )2
𝑅𝑀𝑆𝐸 = √∑
𝑛
𝑖=1
Ces indicateurs ont permis de juger la qualité des prédictions et la robustesse du modèle sur la
série temporelle.
30
Afin d’évaluer l’adaptabilité du modèle prédictif face aux incertitudes des données
agricoles, une simulation de type Monte Carlo a été réalisée. Cette méthode consiste à
considérer la superficie cultivée et le rendement comme des variables aléatoires suivant une
distribution normale, reflétant leur variabilité naturelle.
De nombreux tirages aléatoires sont ensuite générés à partir de ces distributions et propagés
dans le modèle, permettant d’analyser la manière dont celui-ci réagit à des fluctuations
imprévisibles des données d’entrée.
Cette approche offre une vision plus réaliste du comportement du modèle dans différents
contextes possibles et permet de produire des prédictions assorties d’intervalles de confiance,
traduisant les incertitudes inhérentes aux systèmes de production agricole.
Pour évaluer l’adaptabilité du modèle face aux incertitudes inhérentes aux données
agricoles, 2 000 itérations ont été réalisées à partir de deux variables explicatives principales :
La superficie cultivée (en hectares) : elle est supposée suivre une distribution normale centrée
sur la moyenne observée dans l’échantillon réel. L’écart-type retenu traduit la dispersion
moyenne constatée entre les communes du département.
Le rendement (en tonnes par hectare) : il suit également une distribution normale, dont les
paramètres (moyenne et écart-type) sont issus des statistiques historiques des cultures
céréalières de la zone d’étude.
La production totale simulée pour chaque itération est ensuite calculée comme le produit de la
superficie et du rendement, permettant ainsi de générer une large gamme de situations possibles.
Les valeurs simulées de superficie et de rendement ont ensuite été injectées dans le modèle
LSTM préalablement entraîné sur les séries chronologiques réelles.
À chaque itération, une paire de valeurs aléatoires est tirée selon leurs distributions respectives
et combinée avec les autres variables explicatives nécessaires à la prédiction.
31
Cette intégration permet de produire, pour chaque scénario simulé, une valeur prédite de la
production céréalière.
L’objectif de cette étape est d’obtenir non pas une estimation unique de la production, mais une
distribution complète de prédictions possibles, reflétant la variabilité naturelle des conditions
agricoles.
Chaque couple de valeurs simulées est propagé à travers le réseau neuronal LSTM.
Le modèle, fondé sur l’apprentissage profond, tient compte des dépendances temporelles et
spatiales issues de l’entraînement, ainsi que du type de culture et de la commune considérée.
Cette approche par propagation répétée permet de quantifier l’incertitude associée aux
prévisions et d’évaluer la stabilité du modèle face aux perturbations possibles des variables
d’entrée.
Les résultats issus des simulations ont fait l’objet d’une analyse statistique approfondie
visant à évaluer la robustesse, la fiabilité et la sensibilité du modèle.
32
Ces analyses permettent de mieux comprendre la marge d’incertitude autour des estimations du
modèle et d’identifier les facteurs les plus influents sur la production.
ᶿ Des boxplots pour visualiser les valeurs extrêmes, les médianes et les zones de
concentration des prédictions ;
4. LIMITES DE LA RECHERCHE
33
des prix ou encore les politiques de subvention, n’ont pas pu être intégrées en raison de leur
indisponibilité ou de leur hétérogénéité selon les sources. Cette limitation réduit la capacité du
modèle à capturer l’ensemble des interactions complexes entre les déterminants climatiques,
économiques et techniques de la production agricole.
Une autre limite importante concerne la portée et la généralisation des résultats. Les prédictions
obtenues sont directement liées au contexte agroécologique, économique et institutionnel de la
zone d’étude. De ce fait, leur extrapolation à d’autres régions ou cultures doit être envisagée
34
avec prudence. Le modèle fournit essentiellement une estimation quantitative de la production,
mais n’explique pas en profondeur les mécanismes causaux reliant les différentes variables. En
d’autres termes, il s’agit d’un modèle prédictif plus que d’un modèle explicatif. Cette
caractéristique limite la compréhension fine des déterminants structurels de la production
agricole.
Enfin, ces différentes limites ouvrent des perspectives d’amélioration pour les travaux
futurs. L’intégration de variables agro-climatiques détaillées et de données socio-économiques
actualisées permettrait d’enrichir la base de données et d’améliorer la précision des prédictions.
De même, l’adoption d’architectures hybrides combinant LSTM, CNN ou modèles bayésiens
pourrait aider à mieux capter la variabilité spatio-temporelle des phénomènes agricoles.
L’utilisation d’approches d’apprentissage explicable pourrait également permettre d’identifier
les facteurs les plus déterminants dans la prédiction de la production. Enfin, l’élargissement de
la simulation Monte Carlo à des scénarios climatiques prospectifs offrirait une meilleure
évaluation de la résilience des systèmes agricoles face aux changements environnementaux et
aux chocs externes.
35
CHAPITRE III : RESULTATS ET DISCUSSION
L’étude des tendances d’évolution de la production céréalière repose sur l’analyse de séries
chronologiques. Dans un premier temps, l’analyse des statistiques descriptives a montré que la
moyenne des valeurs varie autour de zéro, avec une médiane légèrement négative de 0,167, ce
qui suggère que la majorité des observations se situent en dessous d’une référence ou d’une
valeur de base. La variance et l’écart-type sont globalement élevés (moyenne variance ≈ 0,979
et écart-type moyen ≈ 0,574), indiquant une forte dispersion des données entre les communes
et au fil des années. Les valeurs minimales atteignent environ -0,39 et les maximales dépassent
0,83, voire 9,77 pour certaines observations extrêmes, ce qui révèle la présence de fort es
fluctuations ponctuelles dans la production. Cette distribution suggère que certaines communes
ont des performances très supérieures à la moyenne tandis que d’autres restent largement en
déficit, mettant en évidence à la fois une hétérogénéité spatiale et temporelle importante dans
les données.
Ensuite, nous avons mobilisée des méthodes graphiques notamment la représentation des
séries annuelles sous forme de courbes d’évolution pour visualiser l’évolution de la production
totale ainsi que les dynamiques et les performances des cultures par communes, des diagrammes
en barres pour comparer les productions entre ces cultures.
Toutefois, avant de comparer les productions des différentes céréales, un test non
paramétrique de Kruskal–Wallis a donc été utilisé, confirmant des différences significatives
entre les productions (p < 2,2e-16). Les comparaisons post hoc révèlent que le maïs produit
significativement plus que le mil (p < 0,001), le riz (p < 0,001) et le sorgho (p < 0,001), tandis
que le mil et le riz ne diffèrent pas (p = 0,999). Le sorgho est légèrement supérieur au mil (p =
0,039) et montre une différence marginale avec le riz (p = 0,057). Ces résultats confirment la
36
prépondérance du maïs dans le système céréalier et l’importance des cultures secondai res pour
la sécurité alimentaire.
37
Le mil reste quant à lui stable et faiblement productif sur toute la période, indiquant une
stagnation probablement liée à sa rentabilité limitée. Le riz enregistre une amélioration
progressive, notamment depuis 2019, sous l’effet des initiatives publiques de promotion de la
riziculture et de l’introduction de variétés plus performantes. Le sorgho, enfin, présente une
forte volatilité, marquée par des alternances de hausses et de baisses attribuables aux aléas
climatiques et aux variations de superficies cultivées.
38
Figure 7: Production moyenne par type de céréale
L’analyse des graphiques individuels par commune révèle une forte hétérogénéité spatiale
et temporelle de la production céréalière dans le département du Borgou. Le maïs demeure la
culture dominante dans toutes les communes, tandis que le mil, le riz et le sorgho restent
largement marginaux, avec des niveaux de production souvent proches de zéro ou négatifs.
À Bembèrèkè, la production de maïs reste faible (moins de 0,5 tonne) jusqu’en 2012, avant de
croître rapidement pour atteindre un plateau autour de 1,3 tonne entre 2016 et 2021, culminant
à plus de 1,5 tonne en 2023. Les autres cultures y demeurent marginales, confirmant le rôle
moteur du maïs dans la croissance agricole locale.
À Nikki, la production de maïs présente une forte volatilité, culminant à environ 1,75 tonne
en 2010, suivie d’une baisse puis d’un redressement vers 0,9 tonne en 2023. Le sorgho y atteint
un pic ponctuel à 0,3 tonne en 2007, tandis que le mil et le riz restent négligeables. Cette
commune illustre une croissance du maïs plus instable que celle observée à Bembèrèkè.
À Kalalé, la progression du maïs se fait par paliers : environ 0,75 tonne en 2005, suivie
d’une baisse, puis d’une reprise atteignant 1,25 tonne en 2023. Le mil et le sorgho ont joué un
rôle secondaire entre 2002 et 2010, avant de devenir marginaux, tandis que le riz reste quasi
inexistant.
Parakou se distingue par des niveaux de production très faibles. Le maïs y enregistre un pic
bref à 0,5 tonne en 2005, mais la production moyenne reste négative (entre -0,1 et -0,2 tonne)
39
après 2006. Le mil, le riz et le sorgho demeurent quasi nuls, faisant de Parakou l’une des
communes les moins productives du Borgou.
À Pèrèrè, la production de maïs demeure quasi nulle jusqu’en 2014, avant d’augmenter
progressivement pour se stabiliser entre 0,6 et 0,8 tonne, avec un pic de 0,8 tonne en 2023. Les
autres cultures y restent marginales.
Enfin, à Sinendé, le maïs affiche une forte variabilité : une première phase de croissance
jusqu’en 2013 (pic à 1,25 tonne), suivie d’une baisse, puis d’une remontée jusqu’à 1,3 tonne en
2023. Les productions de sorgho, mil et riz y demeurent faibles et irrégulières.
Globalement, ces résultats soulignent une hégémonie nette du maïs, accompagné d’une
forte disparité spatiale des performances agricoles. Les communes comme Bembèrèkè, Kalalé
et Sinendé apparaissent comme des pôles de production majeurs, tandis que Parakou et
Tchaourou accusent un retard notable. Cette hétérogénéité met en évidence la nécessité
d’intégrer à la fois les dimensions temporelles et spatiales dans les analyses de production
céréalière afin de mieux comprendre les dynamiques agricoles du Borgou entre 1995 et 2023.
40
Figure 8: Evolution de la production par commune
Enfin, afin de dégager les tendances de fond, un ajustement de régression linéaire est
appliqué aux séries. Le modèle de régression multiple, intégrant la superficie cultivée et le
rendement comme variables explicatives de la production, montre que la superficie est le facteur
dominant, avec un coefficient fortement positif et hautement significatif (0,987, p < 2e-16),
indiquant qu’une augmentation d’un hectare se traduit presque directement par une
augmentation proportionnelle de la production. Le rendement contribue également
positivement et significativement (0,048, p < 2e-16), mais son effet reste secondaire par rapport
à la superficie. Le modèle explique près de 97 % de la variance de la production (R² = 0,97), ce
qui souligne la capacité prédictive exceptionnelle des variables superficielles et de rendement
combiné, tandis que l’écart-type résiduel très faible (0,176) indique une bonne précision des
prédictions.
Cette section présente le processus de mise en œuvre du modèle LSTM utilisé pour la
prédiction de la production céréalière. Elle décrit la constitution des jeux de données, les
paramètres d’apprentissage, ainsi que les indicateurs de performance retenus pour évaluer la
précision et la robustesse du modèle.
42
L’ensemble des données utilisées pour l’expérimentation a été réparti en trois sous -
ensembles : un jeu d’entraînement composé de 672 observations, un jeu de vali dation
comprenant 128 observations, et un jeu de test de taille équivalente, soit 128 observations. Cette
répartition équilibrée a permis de garantir à la fois un apprentissage robuste du modèle et une
évaluation fiable de sa capacité de généralisation.
Sur le jeu de validation, le modèle affiche à la dernière époque avant arrêt anticipé une valeur
de perte de 0,027 et une MAE de 0,0673, confirmant ainsi sa capacité à généraliser correctement
sur des données qu’il n’a jamais vues pendant l’entraînement.
Enfin, l’évaluation sur le jeu de test met en évidence une erreur quadratique moyenne
(MSE) de 0,020 et une erreur absolue moyenne (MAE) de 0,046. Ces faibles valeurs démontrent
la précision élevée du modèle, avec un écart moyen d’environ 4,6 % entre les valeurs prédites
et les valeurs observées.
Dans l’ensemble, ces résultats montrent que le modèle LSTM mis en place parvient à
capturer efficacement les dépendances temporelles caractéristiques de la série étudiée et à
fournir des prédictions fiables et stables. Il maintient un bon équilibre entre apprentissage et
généralisation, confirmant la pertinence des choix méthodologiques et la robustesse de
l’approche adoptée. Ces résultats nous permettent de de confirmer partiellement notre deuxième
43
hypothèse selon laquelle le modèle LSTM est capable de capturer la complexité et la non-
linéarité des séries temporelles de production céréalière
Sur le plan quantitatif, les métriques globales de performance confirment ces observations. La
valeur du Mean Squared Error (MSE) enregistrée sur l’ensemble de test est de 0,027, traduisant
une erreur quadratique moyenne faible et donc une précision globale satisfaisante. De même,
le Mean Absolute Error (MAE) atteint 0,045, ce qui correspond à un écart absolu moyen
d’environ 4,5 % entre les valeurs observées et celles prédites. Ces résultats témoignent de la
capacité du modèle à produire des estimations précises, proches des valeurs réelles, tout en
limitant les écarts extrêmes.
Dans l’ensemble, les résultats obtenus démontrent que le modèle LSTM a su capturer
efficacement la dynamique temporelle et la structure des données de production étudiées. Il
44
fournit des prédictions stables, cohérentes et précises, confirmant ainsi la pertinence du choix
méthodologique et la robustesse du processus de modélisation adopté.
Le graphique illustre la série des productions prévues par le modèle pour l’ensemble des
observations. L’axe des ordonnées représente les valeurs de production prédites, comprises
approximativement entre -0,5 et 1,2, tandis que l’axe des abscisses correspond à l’index des
observations, allant de 0 à environ 130.
L’analyse montre une alternance marquée entre périodes de faible production et périodes de
production élevée. Les prédictions indiquent que la production reste sur de longues séquences
à un niveau bas et relativement stable, oscillant principalement entre -0,2 et -0,4. Ces périodes
de faible rendement constituent la majorité des observations et traduisent des phases de sous -
performance. La régularité de ces creux montre que le modèle anticipe ces conditions avec une
grande confiance.
La structure générale des prédictions met en évidence une forte saisonnalité. La transition entre
creux et pics se fait rapidement, souvent en l’espace de 1 à 3 observations, traduisant une grande
volatilité et une sensibilité immédiate aux facteurs influençant la production, tels que les
conditions climatiques ou la disponibilité des intrants.
45
Figure 10: Évolution des valeurs prédites
D’un point de vue statistique, la moyenne des erreurs est très proche de zéro, et la variance
modérée confirme l’absence de biais systématique significatif. Ce comportement valide
l’utilisation d’indicateurs tels que la RMSE et le R² pour évaluer la performance globale.
En somme, la distribution des erreurs révèle un modèle fiable et bien ajusté, produisant des
estimations précises avec une marge d’erreur réduite. Le léger biais positif observé pourrait être
atténué par un ajustement fin des paramètres ou l’intégration de variables explicatives
supplémentaires.
46
Figure 11: Distribution des erreurs
Globalement, le comportement des deux séries est cohérent : les trajectoires sont presque
parallèles, ce qui traduit une excellente capacité du modèle à capturer les tendances générales
et les fluctuations saisonnières. L’absence de décalage visible entre les courbes démontre que
les prédictions sont bien synchronisées avec les valeurs réelles, attestant d’une bonne stabilité
et réactivité du modèle face aux changements temporels.
On note néanmoins une légère sous-estimation des pics de production, notamment durant
certaines périodes de forte productivité. Cette différence s’explique probablement par une
régularisation trop forte ou une faible représentation des valeurs extrêmes dans l’ensemble
d’entraînement. Malgré cela, la structure générale des variations est bien conservée, et les écarts
entre valeurs réelles et prédites restent faibles et ponctuels.
47
moyenne (RMSE) faible. Ces indicateurs confirment la fiabilité du modèle, sa bonne capacité
de généralisation et sa précision dans les prévisions.
D’un point de vue agronomique, cette concordance souligne la pertinence des variables
explicatives mobilisées qui permettent de bien représenter les facteurs déterminants de la
production céréalière.
48
extrêmes (inférieures à -0,25), le modèle surestime légèrement les faibles productions. Ce
comportement traduit une régularisation prudente, qui minimise le risque d’erreurs extrêmes et
favorise la stabilité des prévisions.
La dispersion des points confirme que le modèle est particulièrement précis pour les valeurs
fréquentes, comprises entre -0,50 et 0,75, où les prédictions sont très proches de la ligne idéale.
Les erreurs sont plus visibles pour les observations extrêmes, mais leur impact reste limité grâce
à la faible valeur de RMSE. Cette caractéristique montre que le modèle anticipe correctement
la majorité des situations de production faible et moyenne tout en modérant légèrement les
valeurs extrêmes.
49
Les résultats confirment notre hypothèse qui stipule que le modèle LSTM capture efficacement
la complexité et la non-linéarité des séries temporelles de production céréalière, permettant des
prédictions fiables et précises des production futurs.
Cette section expose la démarche de simulation de type Monte Carlo utilisée pour évaluer
l’adaptabilité du modèle face aux incertitudes. Elle présente le principe de la simulation, la
modélisation des variables aléatoires (superficie et rendement), ainsi que la procédure
d’échantillonnage adoptée pour estimer la stabilité et l’incertitude des prédictions de
production.
Les données simulées sur la superficie cultivée montrent que l’ensemble des 2000 observations
varie entre environ 3,5 et 16,3 hectares, avec une moyenne très proche de 10 hectares. La
médiane, à 10 hectares, est quasiment égale à la moyenne, ce qui suggère une distribution
relativement symétrique sans forte asymétrie. L’écart-type de 1,97 hectares indique une
dispersion modérée autour de la moyenne, et les quartiles (25 % à 8,66 ha et 75 % à 11,31 ha)
montrent que la majorité des parcelles se situent dans une fourchette étroite autour de la valeur
centrale. Cela suggère une certaine homogénéité dans la taille des parcelles cultivées.
Concernant le rendement par hectare, les valeurs simulées vont de 0,87 à 2,11 t/ha, avec une
moyenne de 1,50 t/ha et une médiane très proche, à 1,50 t/ha. L’écart-type relativement faible
(0,20 t/ha) indique une variabilité modérée du rendement entre parcelles. Les quartiles (1,37 et
1,63 t/ha) confirment que la plupart des rendements se concentrent autour de 1,5 t/ha, suggérant
que, dans ce scénario simulé, les conditions de production sont assez stables et peu sensibles
aux variations extrêmes.
50
Globalement, ces statistiques confirment la logique des données simulées : la superficie et le
rendement sont modérément dispersés et symétriques, tandis que la production, en tant que
combinaison des deux, a une variance amplifiée et présente des valeurs extrêmes plus marquées.
Cette structure est cohérente avec un modèle agricole réaliste où la taille des parcelles et
l’efficacité de la culture influencent conjointement la production totale.
En ce qui concerne la production totale, la distribution reste unimodale et symétrique, mais avec
une dispersion plus importante. Le pic se situe autour de 15 à 20 tonnes, et les valeurs s’étendent
de 5 à 25 tonnes, avec quelques observations allant jusqu’à 30 tonnes. Cette plus grande
variabilité s’explique par le fait que la production est le produit de la superficie et du rendement.
Les combinaisons de grandes superficies avec des rendements élevés génèrent des valeurs
51
extrêmes, tandis que des petites parcelles ou des rendements faibles produisent les extrêmes
inférieurs. La moyenne de la production correspond logiquement au produit des moyennes de
la superficie et du rendement, confirmant la cohérence des données.
Figure 14: Histogrammes avec des courbes de densité superposées des distributions des
variables simulées
Le graphique présente une matrice de corrélation entre trois variables agricoles : superficie des
parcelles, rendement par hectare et production totale. Les coefficients vont de 1 (corrélation
parfaite) à -0,2 (faible corrélation négative).
La corrélation superficie-rendement est très faible (-0,053), indiquant que la taille des parcelles
n’influence pas le rendement par hectare. La corrélation superficie-production est forte (0,83),
montrant que les parcelles plus grandes produisent davantage. La corrélation rendement-
production est modérée (0,51), reflétant l’impact du rendement sur la production totale.
Le graphique illustre la distribution des valeurs de production prédites par le modèle de réseau
de neurones Dense, exprimées en tonnes. Il s’agit d’un histogramme avec une courbe de densité
lissée, donnant une approximation visuelle de la loi sous-jacente des prédictions. Le contexte
est agricole, en lien avec les données simulées ou observées précédemment, notamment les
variables superficie et rendement utilisées comme entrées du modèle.
La distribution est unimodale et symétrique, avec une forme en cloche caractéristique des lois
normales. Le pic se situe autour de 15 à 20 tonnes, et la majorité des valeurs prédictives se
concentre entre 10 et 25 tonnes. Les extrêmes sont rares, les prédictions inférieures à 5 tonnes
ou supérieures à 25 tonnes apparaissent très peu, ce qui traduit des queues courtes et une faible
asymétrie. Cette forme indique que le modèle génère des prédictions stables et centrées,
cohérentes avec les tendances observées dans les données réelles.
La moyenne des valeurs prédites semble se situer autour de 16 à 17 tonnes, et la médiane est
proche de la moyenne, confirmant la symétrie. L’écart-type est modéré, reflétant la variabilité
naturelle des productions agricoles simulées. Le modèle réussit donc à reproduire à la fois la
centralité et la dispersion des données observées, sans introduire de biais systématique de sous-
estimation ou de surestimation.
53
calculées précédemment (RMSE faible et R² proche de 1) et confirme la bonne capacité du
modèle à généraliser sur des données nouvelles ou simulées.
Enfin, dans un contexte pratique, cette distribution prédit réaliste permet d’utiliser le modèle
pour des simulations ou des prévisions agricoles fiables. Elle offre une estimation des risques
liés à la production, comme les probabilités de récoltes faibles ou élevées, et constitue un outil
utile pour la planification et l’optimisation des exploitations. Il reste toutefois à noter que les
outliers éventuels pourraient être légèrement atténués par le modèle, ce qui reflète une
régularisation implicite et une prudence dans l’interprétation des extrêmes.
Le graphique ci-dessous illustre la distribution des erreurs de prédiction d’un modèle de réseau
de neurones Dense, calculées comme la différence entre la production prédite et la production
réelle, exprimée en tonnes. Il s’agit vraisemblablement d’une évaluation des performances du
modèle sur un ensemble de test ou de validation dans un contexte agricole, où les prédicti ons
dépendent de variables comme la superficie et le rendement. L’histogramme est accompagné
d’une courbe de densité lissée, suggérant une approximation normale des résidus.
54
Cette concentration autour de zéro montre que le modèle ne présente pas de biais systématique
: il ne sous-estime ni ne surestime la production. La forme de cloche étroite reflète une grande
fiabilité, avec des erreurs majoritairement très faibles. La normalité apparente des résidus est
un bon signe pour la validité statistique du modèle, car elle indique que les erreurs sont
aléatoires et non structurées, sans patterns résiduels ou hétéroscédasticité manifeste. Cela est
cohérent avec les métriques de performance précédemment calculées, comme une MAE
minimale d’environ 0,15 t.
Comparée aux distributions de production réelle ou prédite, cette distribution d’erreurs est
beaucoup plus concentrée. Elle confirme que les prédictions reproduisent fidèlement la réalité,
avec des écarts minimes. Dans un contexte agricole, des erreurs aussi faibles sont significatives
pour la planification et la prise de décision.
Le modèle appliqué aux données simulées montre une performance très satisfaisante avec un
RMSE de 0,300 et un R² de 0,993. Ces valeurs indiquent que le modèle prédit la production
avec un très haut niveau de précision : la racine de l’erreur quadratique moyenne (RMSE) de
0,3 tonnes suggère que l’écart moyen entre les valeurs prédites et observées est faible, tandis
que le coefficient de détermination R² proche de 1 montre que le modèle explique plus de 99 %
de la variance totale de la production. En d’autres termes, les prédictions suivent de très près la
réalité, confirmant la capacité du modèle à capturer les relations entre la superficie, le
rendement et la production.
De plus, les statistiques descriptives des erreurs apportent un éclairage complémentaire sur la
distribution des écarts entre prédictions et valeurs réelles. La moyenne des erreurs est très
55
proche de zéro (≈ 0,056), ce qui indique l’absence de biais systématique : le modèle ne tend ni
à surévaluer ni à sous-estimer la production de manière générale. La médiane (≈ 0,043) étant
également proche de zéro confirme cette symétrie des erreurs. La distribution des résidus
semble concentrée autour de zéro, avec un écart-type d’environ 0,295 tonnes, ce qui reflète une
dispersion modérée et une précision globale élevée.
L’analyse des quartiles montre que 50 % des erreurs se situent entre -0,057 et 0,178 tonnes, ce
qui signifie que la majorité des prédictions sont extrêmement proches des valeurs observées.
Les valeurs minimales et maximales des erreurs, respectivement -2,40 et 2,09 tonnes,
correspondent à des écarts plus importants, probablement liés à quelques observations
atypiques ou à des cas extrêmes dans les données simulées. Ces outliers n’affectent toutefois
pas significativement la performance globale, comme le confirme le R² élevé.
Globalement, cette évaluation indique que le modèle reproduit fidèlement la production simulée
à partir des variables d’entrée. La faible moyenne et l’écart-type limité des erreurs suggèrent
que les prédictions sont fiables et qu’il est possible de les utiliser pour des analyses ultérieures,
telles que des prévisions agricoles ou des simulations de rendement. Les rares écarts importants
pourraient être examinés plus en détail pour comprendre s’ils résultent de valeurs aberrantes ou
de situations particulières, mais ils n’entravent pas l’efficacité générale du modèle. Ce qui
confirmer notre hypothèse qui stipule que l’intégration d’une simulation de Monte Carlo permet
de générer des scénarios plausibles pour la production future et de tester la robustesse du modèle
prédictif face aux incertitudes.
II. DISCUSSION
Les résultats de cette étude offrent un éclairage pertinent sur la dynamique de la production
céréalière au Bénin ainsi que sur la performance des modèles de prévision basés sur les réseaux
de neurones, notamment le LSTM et le Dense. Les analyses menées révèlent des tendances
spatio-temporelles marquées, des disparités entre cultures et communes, ainsi qu’une forte
domination du maïs dans le système céréalier national.
56
productivité agricole au Bénin est fortement influencée par les contextes territoriaux et les
conditions agroécologiques locales.
L’analyse descriptive des données a mis en évidence une dispersion importante, avec un écart -
type élevé et une variance marquée, signe d’une forte hétérogénéité entre communes et sur la
période étudiée. La présence de valeurs extrêmes dans des communes telles que Bembèrèkè,
Kalalé et Sinendé reflète des conditions agroécologiques favorables ou une intensification
efficace des pratiques agricoles, contrairement à Parakou et Tchaourou où la production
demeure relativement faible. Ces observations confirment les résultats d’Agossou et al. (2021)
et soulignent l’importance des infrastructures agricoles, de l’accès aux intrants et du soutien
technique pour expliquer les différences locales de performance.
La série temporelle 1995–2023 révèle trois phases distinctes : une faible performance initiale
(1995–2003), une période instable (2004–2014) et une croissance soutenue à partir de 2015,
portée principalement par le maïs. Cette fluctuation traduit une dynamique agricole marquée
par des phases d’instabilité, mais débouchant sur une amélioration de la production totale à long
terme. Les résultats indiquent que cette croissance repose surtout sur l’extension des superficies
cultivées, le coefficient de corrélation entre superficie et production étant très élevé (r = 0,98),
alors que le rendement reste faiblement corrélé (ρ = 0,24). Cette dynamique extensive rejoint
les conclusions de la Banque mondiale (2022), qui note que la croissance agricole en Afrique
subsaharienne dépend majoritairement de l’augmentation des superficies plutôt que de
l’intensification technologique. Cette trajectoire, bien que favorable à court terme, pose des
questions sur la durabilité environnementale et la sécurité alimentaire, en particulier dans un
contexte de pression foncière croissante.
57
Les contrastes entre communes confirment l’influence déterminante de la disponibilité en
terres, de la qualité des sols et de l’accès aux infrastructures rurales. Bembèrèkè, Sinendé et
Kalalé présentent des productions en forte progression, tandis que Parakou et Tchaourou restent
en retrait, en partie à cause de l’urbanisation et de la concurrence avec les activités non
agricoles. Ces observations mettent en évidence la nécessité d’une planification territoriale
différenciée et d’un renforcement ciblé des investissements agricoles, comme suggéré par Sanni
et al. (2020) et Agossou et al. (2021).
L’expérimentation des modèles LSTM montre une très bonne performance. Le LSTM présente
un coefficient de détermination R² de 0,97 et un écart moyen entre valeurs prédites et observées
de 4,6 %, tandis que le modèle Dense atteint un R² de 0,993, confirmant sa capacité à reproduire
fidèlement la relation entre superficie et rendement. Ces résultats corroborent les travaux de
Zhang et al. (2021) et Mogaka et al. (2023) sur l’efficacité des réseaux neuronaux pour les séries
temporelles agricoles, tout en soulignant leur sensibilité aux valeurs extrêmes et à la
représentativité des données d’entraînement. Les faibles erreurs (RMSE ≈ 0,3 pour Dense) et
l’absence de biais systématique renforcent la robustesse de ces approches pour la prévision de
la production agricole.
Cependant, une légère tendance à sous-estimer les pics de production a été observée,
probablement en raison de la rareté des valeurs extrêmes dans l’échantillon. Cela indique que,
malgré leur efficacité, les modèles basés sur LSTM nécessitent une diversification des données
historiques et l’intégration de variables climatiques et socio-économiques pour améliorer les
prédictions futures.
58
CONCLUSION ET PERSPECTIVES
L’étude menée sur l’évolution de la production céréalière au Bénin, couvrant la période 1995–
2023, a permis de mettre en évidence les dynamiques temporelles et spatiales des principales
cultures vivrières, notamment le maïs, le riz, le mil et le sorgho. L’approche méthodologique
adoptée, combinant analyses statistiques, tests non paramétriques, régressions multiples,
simulation Monte Carlo et modélisation par réseaux de neurones LSTM, a offert une
compréhension approfondie des déterminants de la production ainsi que de la fiabilité des
prévisions.
Les résultats révèlent que la croissance de la production repose principalement sur l’expans ion
des superficies cultivées, le rendement ayant un effet modéré. Cette tendance extensive est
confirmée par la forte corrélation entre superficie et production et par les coefficients de
régression élevés obtenus. Le maïs se distingue comme la culture dominante, avec une
progression significative de sa production, tandis que le riz, le mil et le sorgho restent
relativement stagnants. Ces observations reflètent les choix agroécologiques, la disponibilité
des intrants et les politiques publiques qui privilégient historiquement le maïs.
59
l’importance d’intégrer des données diversifiées et représentatives pour améliorer la précision
des prévisions futures.
En définitive, cette étude met en lumière que la croissance de la production céréalière au Bénin
repose principalement sur l’extension des superficies cultivées, avec un rôle central du maïs, et
que les modèles prédictifs développés se sont révélés performants et fiables. Toutefois, assurer
une production durable et résiliente nécessitera l’intégration de variables explicatives
supplémentaires, le développement de pratiques culturales intensives et durables, et l’adoption
de stratégies adaptées aux disparités spatiales et climatiques identifiées. Ces perspectives
fournissent un cadre solide pour orienter les politiques agricoles et soutenir la sécurité
alimentaire dans la région.
60
REFERENCES BIBLIOGRAPHIQUES
1. Adegoke, O., Musa, I., & Adeyemi, T. (2021). Application of deep learning in agricultural
forecasting: Evidence from maize production in Nigeria. African Journal of Data Science,
2(1), 15–28.
2. Bhatt, C., Patel, H., Talsania, H., Patel, D., Vaghela, R., Pandya, S., ... & Modh, A. (2021).
CNN variants for computer vision : History, architecture, application, challenges and
future scope. Electronics, 10(20), 2470. [Link]
3. Bertsimas, D., & Kallus, N. (2020). From predictive to prescriptive analytics.
Management Science, 66(3), 1025–1044.
4. Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
5. Bouvrie, J. (2006). Notes on convolutional neural networks. MIT Center for Biological
and Computational Learning.
6. Bousquet, N., Adon, R., Kaid Gherbi, A., Arthur, F., Nègre, A., Baquiast, G., Simoulin, A.,
Hochard, G., & Talaouit-Mockli, F. (2020). Deep learning : des usages contrastés.
Statistique et Société, 8(3), 55–71.
7. Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis:
Forecasting and control (5th ed.). Wiley.
8. Carpenter, G. A., & Grossberg, S. (1987). A massively parallel architecture for a self-
organizing neural pattern recognition machine. Computer Vision, Graphics, and Image
Processing, 37(1), 54–115.
9. FAO. (2022). Agricultural data systems and predictive analytics for sustainable
development. Food and Agriculture Organization of the United Nations, Rome.
10. Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, 35(2), 137–144.
11. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
12. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S.,
Courville, A., & Bengio, Y. (2014). Generative adversarial nets. Advances in Neural
Information Processing Systems, 27, 2672–2680.
13. Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai, B., ... & Chen, T. (2018). Recent
advances in convolutional neural networks. Pattern Recognition, 77, 354–377.
14. Guissé Seck, M., et al. (2024). Deep neural networks optimized with genetic algorithms
for crop yield forecasting in Senegal. Computers and Electronics in Agriculture, 224,
109693.
61
15. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation,
9(8), 1735–1780. [Link]
16. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective
computational abilities. Proceedings of the National Academy of Sciences, 79(8), 2554–
2558.
17. Huang, W., Chen, Z., & Wu, J. (2023). Data normalization techniques for deep neural
networks. Applied Intelligence, 53, 2132–2145.
18. Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and practice (2nd
ed.). OTexts.
19. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical
learning : With applications in R. Springer.
20. Kamilaris, A., & Prenafeta-Boldú, F. X. (2018). Deep learning in agriculture : A survey.
Computers and Electronics in Agriculture, 147, 70–90.
21. Kohonen, T. (1982). Self-organized formation of topologically correct feature maps.
Biological Cybernetics, 43(1), 59–69.
22. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep
convolutional neural networks. Advances in Neural Information Processing Systems, 25,
1097–1105.
23. Kumar, R., Singh, A., & Sharma, P. (2020). Forecasting agricultural production using
LSTM networks : A case study on rice yield prediction in India. Journal of Applied Data
Science, 4(2), 45–56.
24. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.
25. Lipton, Z. C. (2015). A critical review of recurrent neural networks for sequence learning.
arXiv preprint arXiv:1506.00019.
26. Makridakis, S., Wheelwright, S. C., & Hyndman, R. J. (1998). Forecasting: Methods and
applications (3rd ed.). Wiley.
27. McCarthy, J. (1956). Proposal for the Dartmouth Summer Research Project on Artificial
Intelligence. Dartmouth College.
28. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. The Bulletin of Mathematical Biophysics, 5(4), 115–133.
62
29. Mienye, I. D., Swart, T. G., & Obaido, G. (2024). Recurrent neural networks : A
comprehensive review of architectures, variants, and applications. Information, 15(9),
517. [Link]
30. Musa, I., Bello, A., & Aliyu, M. (2023). Hybrid deep learning models for agricultural yield
prediction under climate variability. Environmental Modelling & Software, 163, 105602.
31. Nielsen, M. A. (2015). Neural networks and deep learning. Determination Press.
32. Nilsson, N. J. (2010). The quest for artificial intelligence : A history of ideas and
achievements. Cambridge University Press.
33. Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised representation learning with
deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434.
34. Rawat, W., & Wang, Z. (2017). Deep convolutional neural networks for image
classification : A comprehensive review. Neural Computation, 29(9), 2352–2449.
35. Rosenblatt, F. (1958). The perceptron : A probabilistic model for information storage and
organization in the brain. Psychological Review, 65(6), 386–408.
[Link]
36. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning represe ntations by
back-propagating errors. Nature, 323(6088), 533–536. [Link]
37. Russell, S., & Norvig, P. (2021). Artificial intelligence : A modern approach (4th ed.).
Pearson.
38. Schmidhuber, J. (2015). Deep learning in neural networks : An overview. Neural
Networks, 61, 85–117. [Link]
39. Shmueli, G., Bruce, P. C., Gedeck, P., & Patel, N. R. (2020). Data mining for business
analytics: Concepts, techniques, and applications in R (3rd ed.). Wiley.
40. Stepanov, A., Yakovlev, A., & Kolyubin, S. (2023). Preprocessing techniques in
convolutional neural networks : A review. Pattern Recognition Letters, 172, 112–124.
41. Sun, J., et al. (2019). County-level soybean yield prediction using deep learning and
remotely sensed data. Remote Sensing of Environment, 221, 173–185.
42. Tamayo-Vera, C., et al. (2024). A review of machine learning techniques in agroclimatic
studies. Agriculture, 14(3), 481.
43. Uddin, M. N., Hassan, M. M., Almogren, A., & Fortino, G. (2021). Dimensionality
reduction and feature selection for deep learning : A survey. IEEE Access, 9, 101086–
101105.
63
44. imalasiri, D., et al. (2023). Agro-climatic sensitivity analysis for sustainable crop
diversification : The case of Proso millet. Environmental Research, 229, 116061.
45. Xu, Q., et al. (2025). Variance-based sensitivity analysis of climate variability impact on
crop yield using machine learning : A case study in Jordan. Agricultural Systems, 215,
103724.
46. Yamashita, R., Nishio, M., Do, R. K. G., & Togashi, K. (2018). Convolutional neural
networks : An overview and application in radiology. Insights into Imaging, 9(4), 611–
629. [Link]
47. Zhang, J., Wang, X., & Li, H. (2024). Progress in research on deep learning-based crop
yield prediction. Agronomy, 14(10), 2264. [Link]
64