Predictive model in dairy sector

 

Abstract

Les acteurs du domaine agricole sont continuellement contraints de prendre des décisions économiques visant à faire prospérer leur activité.  En effet, la capacité d’un animal d’élevage à générer un profit est un critère essentiel pour l’éleveur. Ce dernier doit continuellement évaluer la capacité de sa bête à produire une certaine quantité de matière première dont le coup de vente doit excéder les dépenses engendrées pour maintenir l’animal prospère et en bonne santé.

Ici nous présenterons une approche basée sur un modèle statistique ayant pour but d’assister les fermiers dans leurs décisions d’investissements concernant leurs vaches laitières. En effet certains modèles ont été mis au point dans le but d’estimer la profitabilité d’un animal en prenant en compte un certain nombre de facteurs de risques. Maxime Radmacher est un ingénieur de recherche en bioinformatiques de l’UQAM, ses travaux portent sur l’utilisation de réseaux de neurones récurrents ainsi que des modélisations non linéaires pour prédire la rentabilité de production laitière d’un animal donné.

 

Introduction

Un unique animal tel qu’une vache laitière peut être à l’origine de nombreux investissements pour un agriculteur. Le coût de l’insémination et les tests de grossesse s’ajoutent ainsi à l’entretien de l’animal tel que les soins qui sont réalisés, l’alimentation de l’animal, et plus généralement sa valeur monétaire globale (salaires des employés, coût de stockage dans les locaux, etc.). Néanmoins il est difficile pour l’éleveur d'estimer à l’avance si le bénéfice généré par la revente du lait de la vache viendra surpasser les dépenses engendrées pour aboutir à cette production de lait. Il faut ainsi prendre en compte qu’une vache laitière ayant atteint sa maturité sexuelle passera la majeure partie de sa vie à être inséminée artificiellement de façon successive pour la placer dans des dispositions ou cette dernière produit du lait. La gestation s’étalant sur 9 mois il est donc important pour l’éleveur de ne pas procéder à l’insémination d’une vache puis à son entretien si ce n’est pas pour que cette dernière soit en mesure de rendre une bonne production laitière. Les approches algorithmiques d’apprentissage machine peuvent ainsi répondre efficacement au besoin de génération de modèles pouvant assister les professionnels dans des décisions relatives à leurs investissements. Maxime Radmacher a ainsi généré un modèle prenant en compte de nombreuses variables génomiques, phénomiques et environnementales afin de créer un algorithme robuste et facile d’utilisation pour les éleveurs de vaches laitières.

 

Méthode

 

  1. Découverte des données

Quelle que soit l’application envisagée, la première étape consiste nécessairement à explorer les données fournies pour la réalisation du modèle. L’informaticien ou analyste se fait ainsi confier une quantité importante de ces données qui peuvent être présentées sous divers formats.

 

  1. Comprendre la problématique

La première phase du travail est une des plus importantes, elle consiste à comprendre la problématique et la formuler correctement. C’est généralement lors de cette phase que l’expert en charge de l’analyse pourra se rendre sur le terrain et échanger avec les professionnels à l’origine des données générées. L’expert pourra ainsi à la fois pleinement assimiler son sujet mais également éliminer certains biais potentiels à travers des observations ou des échanges. Comme Maxime l’a fait remarquer, cette étape d’appréhension de l’environnement d’étude est également cruciale dans le sens où elle permet de construire la dimension éthique du sujet. Nous discuterons en conclusion de ces dernières. Dresser correctement la problématique est crucial. En effet une problématique mal comprise ou maladroitement formulée peut conduire à des biais importants lors de l’investigation. Il est important d’être conscient des dangers qui se posent lorsque l’on traite le sujet en commençant par poser la problématique puisque celle-ci délimite le cadre dans lequel s'inscrit l’étude et ainsi les limites du sujet.

 

Pour Maxime la problématique consiste à savoir s’il est économiquement intéressant pour l’éleveur que de réinséminer sa vache après une première lactation. Cette problématique se pose ainsi après chaque cycle de récupération du lait de l’animal, ces cycles sont présentés sur la figure suivante.

Figure 1 : Cycle de vie des vaches laitières, la première insémination a lieu après 24 mois, les suivantes sont éventuellement réalisées en fonction de la décision de l’éleveur. Schéma tiré de la présentation de Maxime.

Une image contenant texte

Description générée automatiquement

  1. Concevoir l’approche

Une fois les limites du sujet et la problématique dressées, il convient de planifier la façon dont l’étude sera réalisée. On dresse ainsi un workflow des différentes étapes de la réalisation du projet. On y retrouve ainsi les différentes étapes de traitement des données ainsi que des analyses qui seront réalisées sur ces dernières. Bien entendu le but ici est de réaliser un modèle qui soit à la fois fidèle, robuste et répondant à la demande des professionnels démarchant l’étude. On se doit ainsi de trouver une méthode qui réalisera la meilleure approximation possible avec le minimum de complexité.

 

Dans le cas du modèle développé par Maxime, il a été décidé une fenêtre temporelle de la vie de l’animal pour mettre au point le modèle. Cette période s’étend de la naissance jusqu’à 5 ans, en sachant que la moyenne de première lactation est de 24 mois après la naissance de l’animal, moment où elle obtient son premier enfant. Par la suite, si elle a lieu, l’insémination sera mise en place tous les 12 à 15 mois, avec une période de gestation de 9 mois. Tout au long de leur vie des tests sont ainsi réalisés sur la vache, en moyenne une vingtaine seront réalisés lors de la vie de l’animal. Ces données sont computées par le modèle afin d’évaluer le futur profit en cas de seconde lactation ou si au contraire il sera nécessaire de revendre ou abattre l’animal. Le modèle choisi est un modèle dit de “forecasting” appelé seq2seq modeling, il est réalisé à partir d’un réseau de neurones récurrents (RNN) avec une dynamique de machine learning. Cet algorithme en particulier est dit avec LSTM, pour “long short-term memory”, ce qui signifie que par opposition aux RNN unidirectionnels (feedforward neural networks), le réseau possède des connexions de rétroaction. Comme présenté sur la figure 2, les informations sortantes permettent de nourrir le réseau et ainsi de l’enrichir, l’algorithme s’implémente en “apprenant”.

 

  1. Extraction et sélection des données

Il faudra alors dans un premier temps sélectionner les paramètres les plus perspicaces pour la réalisation du modèle. Pour le cas du modèle de Maxime on peut noter certaines variables de haute importance telles que des paramètres Zone de Texte: Figure 2 : représentation schématique d'un RNN de type LSTM, on y constate des connexions de rétroaction.environnementaux : température ou date, des paramètres propres aux différents managements de la vache : fréquence de traite, durée de traite, nombre de lactation, nombre de jours de lactation, des paramètres de production : lait, protéines, graisse, lactose, ainsi que la valeur du lait, et enfin des paramètres concernant l’état de santé de l’animal sur la base de différents marqueurs : compte de cellules somatiques ou concentration d’urée dans le lait. Ce dernier paramètre reflète un potentiel excès d’ammonium car un excès de ce dernier est converti en urée. Cet excès reflète un problème d’absorption du nitrate à partir de l’ammonium (NH₄⁺) au niveau du rumen de l’animal, et ainsi un déséquilibre des protéines nutritionnelles de l’animal. Une fois les critères sélectionnés il convient d’extraire les données judicieusement afin que leur organisation soit propice à l’exploitation en découlant. Ces dernières peuvent ainsi être réparties en une ou plusieurs matrices.

 

  1. Pré-processing des données

Les matrices vont être soumises à une réorganisation afin que ces dernières puissent être lues dans l'interface de codage, en l'occurrence sur Python. Par la suite il convient de réaliser les premiers tests statistiques. En effet il est important de prendre en considération le fait que les jeux de données fournis contiennent généralement de nombreuses valeurs aberrantes. Ces valeurs sont ainsi celles qui contrastent grandement avec les valeurs “normalement” mesurées. S’ajoute à cela des données que l’on doit écarter de l’analyse comme ici le fait que les vaches n’ayant pas produits de lait présentent une production de 0 litre et non une production “inexistante”, on se retrouve donc avec un impact important sur la moyenne et la médiane alors que l’on souhaite uniquement à s’intéresser aux animaux suffisamment matures pour produire du lait (figure 3).

Une image contenant capture d’écran

Description générée automatiquement

Figure 3 : distribution des données de Maxime. On note que la médiane est déplacée vers la gauche car les vaches laitières n'ayant pas produit de lait présentent une valeur de 0, ces valeurs doivent être enlevées.

On constate un décalage important de la moyenne alors que les vaches ne produisant pas encore de lait ne devraient pas impacter la distribution des vaches productrices de lait.

Ces procédés statistiques sont très conventionnels et consistent ainsi à écarter le plus possible les données qui tendent à fausser les informations utilisées par le modèle. La deuxième étape consiste à rogner les bornes extrêmes, ce seuil n’est pas conventionnel, il dépend du choix de l’analyste et constitue généralement un quantile de 0,5 à 2% de la distribution.

 

La dernière étape de pré-processing consiste à combler les trous dans les données, en effet il est quasi-impossible d’obtenir un jeu de données ne contenant aucune valeur manquante ou série de valeurs manquantes. Il convient ainsi de trouver une méthode adaptée permettant un “padding”, c’est à dire un remplissage des données manquantes. Ce dernier peut être réalisé de plusieurs façons telles que par une interpolation linéaire, de moyenne, de valeur (en choisissant une valeur, généralement négative, pour ces données manquantes) ou encore une interpolation composite qui permet de remplir les données manquantes à l’aide de plusieurs paramètres. Cette fonction du package panda permet d’utiliser un combiné de plusieurs techniques d’interpolation comme par exemple de fixer un seuil d’interpolation linéaire en dessous duquel le gap sera rempli par une valeur négative.

 

  1. Diviser les données et évaluer le modèle
  1. Isolat du t-test

Une fois les données prêtes à être utilisées il convient d’isoler une certaine proportion du jeu de données dans le but de venir tester la fiabilité du modèle une fois ce dernier entraîné et ainsi opérationnel. Il n’existe ainsi pas de proportion conventionnelle, cette fraction de données que l’on se réserve dépend du choix de l’analyste, en revanche il est courant de sélectionner 30% des dernières valeurs. Ces données sont mises de côté.

 

  1. Entrainement du modèle

Le reste des données, hors t-test, sont utilisées pour procéder à la phase d'entraînement du modèle. Pour cette étape il convient d’utiliser une bibliothèque d’apprentissage machine du type de réseau choisi, en l'occurrence de réseau de neurones. Maxime a ainsi choisi de travail à partir de la bibliothèque en open access créé par Google appelée Keras (Chollet F., 2015).

 

L'entraînement se fait en deux étapes de passage forward puis backward. On génère dans un premier temps des données de sortie (output) à partir des données d’entrée (passage vers l’avant), puis le modèle fait passer les données de sortie dans le sens inverse dans le but d’essayer de retomber sur les données des couches alternatives (hidden layers), ce phénomène s’appelle la backpropagation. De cette manière le modèle est capable d’ajuster le poids de chaque connexion afin de s’affiner.

Figure 4 : Schéma représentatif de l’entrainement en deux étapes d’un modèle de type réseau de neurones.

 

Il est possible de faire un test de validation croisée lorsque celui-ci est en cours d'entraînement, la méthode est décrite dans la suite de ce rapport. Le but est ainsi de confirmer que l’on obtient les mêmes types résultats et que l'entraînement du modèle est ainsi efficace.

 

Il est important de veiller aux capacités du modèle, en effet un modèle avec trop peu ne pourra pas apprendre correctement tandis qu’un modèle avec trop de capacité pourra au contraire subir un phénomène de surajustement (ou surapprentissage) ce qui aboutira à une mauvaise analyse de données futures. On aura ainsi un surajustement si la tendance de la perte de validation se montre supérieure à la tendance de la perte d'entraînement, en effet on cherche au contraire un équilibre entre ces deux tendances.

Figure 5 : Schéma représentatif d’un surajsutement lors de la phase d’entrainement du modèle.

  1. Évaluation et test du modèle

La dernière étape consiste à évaluer le modèle en analysant la distribution des donnés de sortie de l’algorithme, il est important de ne retrouver qu’une seule population qui atteste de la fiabilité du modèle généré. Afin de le confirmer il faut tester le modèle avec les données du t-test mises de côté au préalable.

 

Application à partir d’un nouveau jeu de données

Suite à cette analyse du travail de Maxime basé l’utilisation de modèles de séries temporelles (Time-series forecasting) pour prédire la production laitière, nous avons cherché à explorer la possibilité d’appliquer sa stratégie de recherche à une autre thématique. Nous nous sommes ainsi intéressés à la prédiction des rendements agricoles à travers la gestion d’un parasite en particulier : Phytophtora infestans, un mildiou de la pomme de terre. L’objectif est ainsi d’analyser un autre jeu de données d’en tirer un principe, des caractéristiques, des champs d’applications et ainsi de clarifier chaque étape de la stratégie utilisée par Maxime.

1.    Découverte des données

 

Figure 6 : En haut : culture de pomme de terre, en bas : lésion sur la surface foliaire d’un pied de pomme de terre infection de Phytophtora infestans

Le jeu de donnés à notre disposition vient d’une étude portant sur l'évaluation de la résistance au mildiou en 2015. 919 échantillons qui viennent de 307 lignées de pomme de terre ont ainsi été cultivées (10 plantes pour chaque échantillon) dans des zones de haute altitude (2670m) de la province du Yunnan, en Chine. Selon des symptômes caractéristiques connus et documentés, les chercheurs ont déterminé manuellement la zone des lésions en pourcentage de la surface foliaire totale. La première détermination a eu lieu à la cinquante-troisième journée après l’émergence de semis. À compter de cet instant, le pourcentage de lésion a été déterminé 8 fois de suite à une fréquence d’une fois par semaine. Aucun produit phytosanitaire n’a été utilisé sur ces cultures. Les données de rendement sont déterminées à la fin de la culture. Il est important de noter que dû à une non-divulgation de la part de l’institut en charge de l’étude, les informations de rendement pour seuls 529 échantillons des 919 nous ont été communiqués (nombre de tubercules et poids de ces derniers). En revanche les données concernant les lésions dues au parasite sont divulguées pour les 919 échantillons. Le choix de ces 529 échantillons n’a aucun lien avec les résultats et nous avons ainsi admis que cela ne causait pas de biais. En somme, les variables de haute importance sont : le pourcentage de lésion pendant la période de reproduction (déterminations à 8 instants t pour 919 échantillons), le nombre de tubercules par plante (529 échantillons) et le poids du tubercule par plante (529 échantillons).

2.    Comprendre la problématique

En tant que la quatrième culture la plus produite dans le monde, la production et les maladies de la pomme de terre sont toujours les sujets préoccupants. Parmi les maladies de la pomme de terre, le mildiou (Phytophtora infestans) est dommageable, particulièrement en Chine, le pathogène est également connu pour avoir été à l’origine de certaines grandes famines européennes du milieu du 19ème siècle comme en Irlande ou en Ecosse (Ristaino, J. et al., 2001). Le mildiou est provoqué par Phytophtora infestans qui sont des mycètes à la classe des oomycètes (Fry, W., 2008). Les symptômes d’une infection par ce mildiou présentent l’apparition de feuilles brunes nécrosées et un épiderme de tubercules avec des taches brunes. À un stade d’infection avancé, une pourriture importante sera peut conduire à une destruction totale de la tubercule (Verscheure, 2017). Compte tenu de ces symptômes précédents ce stade de destruction plus ou moins important, il pourrait être intéressant de mettre au point une méthode pouvant prédire les rendements finaux de la culture en déduisant la gravité de la maladie aux stades moyen et tardifs de l’infection. Il serait possible de mettre au point cet algorithme de prédiction par le biais d’un modèle de séries temporelles. En théorie un modèle efficace permettrait une gestion plus précise de ces cultures infectées qui pourrait restreindre l’utilisation abusive de produits phytosanitaires.

3.    Concevoir l’approche

Comme décrits par Maxime, les modèles autorégressifs à moyenne mobile intégrée (Autoregressive integrated moving average, ARIMA) et de réseaux de neurones récurrents (Recurrent Neural Network,RNN) sont les deux principaux dans les modèles de séries temporelles. La première problématique est donc de savoir si ces deux modèles peuvent répondre à notre mission consistant à réaliser un outil de prédiction de la résistance de cultures de pommes de terre face à Phytophtora infestans. Nous voulons également pouvoir être en mesure de déduire le rendement par la performance dès la 4ème semaine de culture après apparition des semis.

ARIMA appartient aux modèles de séries statistiques univariées. Il est utilisé pour prédire les valeurs futures sur la base des valeurs observées au préalable. Il analyse les données de séries chronologiques pour en extraire des statistiques significatives. Bien que cela soit conforme à nos objectifs d’analyse, ce modèle ne peut pas être appliqué à nos données car les données de l’ARIMA doivent être stationnaires, ce qui n’est pas notre cas ici. En effet une série de données est dite stationnaire quand sa moyenne et variance sont constantes dans le temps (Sato, R. C., 2013). Ce n’est pas notre cas ici comme on constate une augmentation des critères sélectionnés pour l’étude (pourcentage de lésion). En outre, il faut que la matrice de covariance et variance ne dépende pas du temps. Nos données n’étant pas stationnaires il existe certes des algorithmes spéciaux qui peuvent transformer des données plusieurs fois pour arriver à cette forme, mais qui induiraient ici un biais et des complications trop importantes.  L’ARIMA n’est donc pas un bon choix pour nos données.

Figure 7 : Représentation de la non-constance de la variante du pourcentage d'infection des plants de pomme de terre. On constate en effet une évolution non linéaire qui illustre l'impossibilité d'utiliser le modèle ARIMA.

Sur la figure ci-dessus on constate en effet que la variante de pourcentage d’infection n’est pas constante et ainsi non adaptée à une analyse avec ARIMA.

D’autre part, RNN appartient aux modèles de réseau de neurones. En comparaison de l’ARIMA, la stationnarité n'est pas une exigence. Il est formé par des couches de nombreuses transformations non linéaires. En comparaison des autres types de réseau de neurones, par exemple Feed-Forward Network, RNN est capable de mémoriser l’output passé. C’est la raison pour laquelle le modèle RNN est fréquemment utilisé sur l’analyse de séries temporelles. Néanmoins il est important de noter que le modèle admet également des limites comme une “explosion de gradient”. Ceci peut avoir lieu pendant l'entraînement du modèle et consiste en une accumulation de gradients d'erreur qui peuvent entraîner de grandes mises à jour dans le poids des connexions du modèle de réseau neuronal. C’est donc le phénomène de back propagation qui est ici à l’origine de la limite principale de ce modèle. Pour résoudre ce problème, LSTM (long short-term memory) est utilisé par Maxime dans ses recherches.

LSTM est un type particulier de RNN. Il est capable d'apprendre des dépendances à long terme. Par conséquent, LSTM peut décider dans quelle mesure le passé doit se souvenir, combien cette unité devrait ajouter à l'état actuel et quelle partie de l'état actuel doit arriver en output. Compte tenu de la petite quantité de nos données, et pour résoudre le problème du gradient disparaissant (vanishing gradient : poids des connexions diminuant de façon trop importante, ce phénomène est également dû à la backpropagation), LSTM peut être un modèle candidat. Toutefois, il est important de faire un diagnostic de modèle pour assurer que l'hypothèse est satisfaisante. En revanche pour utiliser le modèle LSTM pour notre cas pratique, il faut utiliser un package permettant de respecter un ordre chronologique dans nos données.


 

4.    Extraction et sélection des données

Selon le but d’analyse, certains paramètres non directement liés à la maladie ne sont pas inclus dans l'analyse. Par exemple, couleur de tige, couleur de feuille, couleur de fleur, forme de tubercule, couleur d’épiderme, condition des bourgeons, etc. In fine, nos variables de haute importance sont : <1> pourcentage de lésion pendant la période de reproduction pour étudier le développement du pathogène (détermination à 8 instants t hebdomadaires à compter de l’émergence des semis pour les 919 échantillons). <2> nombre de tubercules par plante (529 échantillons). <3> poids du tubercule par plante (529 échantillons). Ceci dans le but d’étudier l’impact de la maladie sur le rendement.

 

5.    Pré-processing des données

Dans notre cas, les mesures manquantes sont dues au mélange de semence ou à l’émergence irrégulière d’une infection par le parasite oomycète. Bien que certains algorithmes puissent automatiquement déduire les valeurs manquantes nous avons décidé de supprimer les valeurs manquantes.

La normalisation est également une étape importante dans la procédure de pré-processing, nous avons besoin que tous les attributs numériques de notre ensemble de données soient compris entre 0 et 1 (ou entre -1 et 1). La normalisation Min-Max qui est utilisée dans la recherche de Maxime est une transformation linéaire. La normalisation Min-Max transforme la valeur originale (A) en une nouvelle valeur A’ en prenant en compte les valeurs maximales et minimales de cet attribut :

Dans notre cas, il est difficile de connaître exactement les valeurs maximales et minimales. Afin d’éviter la possibilité d’avoir des valeurs en dehors de l’intervalle souhaité, le Z-score est une méthode efficace pour normalisation. Au lieu de se référer aux valeurs maximales et minimales, le Z-score va permettre de centrer les données sur la moyenne. De cette manière les données auront un écart type de 1. Par ailleurs, il est important de noter que le Z-score suppose que les données sont normalement distribuées. Ainsi avant d’utiliser cette méthode il est important de vérifier que les données sont normalement distribuées, ceci peut être simplement réalisé à l’aide d’un test de normalisation. Dans le cas contraire des techniques de normalisation non linéaires peuvent être envisagées. On aura ainsi le softmax, le sigmoid etc.

 

 

6.    Diviser les données et évaluer le modèle

Au lieu de diviser les données de manière à obtenir un set d'entraînement du modèle, un set de validation croisée et un set test comme décrit dans les méthodes, Maxime applique la méthode validation croisée de k-fold pour remplacer le set de données de validation croisée. Cette validation croisée par k-fold est une stratégie permettant de valider certains paramètres du modèle, particulièrement quand la quantité de données est limitée. Ce test semble ainsi être une meilleure option pour notre cas.

 

Les étapes de k-fold cross-validation sont :

<1> Diviser les données disponibles en set d'entraînement et set de test.

<2> Diviser le set d'entraînement en k-folds

<3> Basé sur différentes combinaisons de k-folds, le set d'entraînement est divisé en de nouveaux sets d'entraînement et de test.

Par exemple, si K=4 :

 

K=4

test

Training data

Test data

 

1

Fold 2, Fold 3, Fold4

Fold 1

2

Fold 1, Fold 3, Fold4

Fold 2

3

Fold 1, Fold 2, Fold4

Fold 3

4

Fold 1, Fold 2, Fold3

Fold 4

 

<4> Selon le résultat des validation (tests), sélectionner le meilleur modèle (ou paramètre)

 

 

Par manque de place, l’analyse à partir de notre jeu de données sera présentée lors de la présentation finale, elle est réalisée en codage python à partir du package PANDA.

 


 

Discussion

Selon Maxime, l’organisation des données et leur classification, c’est à dire poser la problématique et choisir l’approche, constituent 90% du temps accordé par le data scientist à son analyse. Effectivement nous pouvons noter que les choix d’importance capitale résident avant tout dans l’organisation des données dont le choix des variables et dans un second temps dans le choix des méthodes de pré-processing et d’apprentissage machine choisies. De ce fait il est important de justifier ces choix.

 

Concernant l’analyse sur notre jeu de données plusieurs points sont à mettre en avant :

<1> Même si les but de recherche sont similaires, il est possible de ne pas pouvoir utiliser la même stratégie d’analyse. Il faut ainsi analyser les caractères de données. L’ARIMA et la normalisation Min-Max ne sont pas pertinents dans notre cas.

<2> Il est nécessaire de faire un diagnostic du modèle pour s’assurer que l'hypothèse est satisfaisante. La validation croisée avec k-fold est une stratégie efficace pour un jeu de données limité.

<3> Pour bien étudier le développement de ce mildiou et l’impact de la maladie sur le rendement, les données dans notre cas présentent de nombreuses limitations. Premièrement, il serait possible d’utiliser une caméra d'imagerie hyperspectrale afin d’augmenter la précision des données. Deuxièmement, une série importante d’attributs associés à cette infection n'ont pas été déterminés tels que les paramètres climatiques, la densité de plantation, l'humidité du sol, etc. Ces derniers pourraient en théorie être ajoutés à l'étude afin d'accroître considérablement la fiabilité du modèle ainsi que sa robustesse. Pour finir, les données seraient nettement plus exploitables si elles contenaient des critères sur plusieurs années et ainsi dans différents contextes environnementaux.

 

Par opposition, le jeu de Maxime est d’excellente qualité. On peut ainsi noter un panel bien plus important de variables disponibles dans un premier temps. De plus on peut mettre en avant une extrême régularité dans le traitement des animaux, qui a été confirmé par les observations de Maxime sur le terrain, et qui assure un jeu de données homogènes. Les animaux subissent ainsi exactement les mêmes traitements et la même alimentation, ce qui n’est pas nécessairement le cas pour d’autres jeux de données, mais donne ici de la crédibilité au modèle de Maxime.

 

Conclusion/ouverture

Les modèles statistiques basés sur une approche d’apprentissage machine peuvent se montrer extrêmement utile afin de réaliser la prédiction de tendances. Ceci peut être mis en application pour de nombreux problèmes.

Un point crucial soulevé par Maxime est la dimension éthique d’une approche informatique de ce type. En effet il y a une responsabilité scientifique de l’expert à l’origine du modèle. Ce dernier doit rester réaliste dans sa complexité d’utilisation : il faut prendre en compte qui va l’utiliser, comment, les paramètres requis pour le faire fonctionner, et surtout la stabilité de l’environnement pour lequel il va être utilisé, en effet la robustesse du modèle dépend aussi grandement de sa pérennité. De plus, et c’est le cas pour tout type de problématique scientifique, il est crucial de prendre en compte les inégalités sociales d’un tel questionnement scientifique. En effet on peut se demander si le modèle généré va pouvoir profiter les populations qui en auraient le plus besoin. Ont-elles les infrastructures ou les terminaux suffisants pour faire runner ce type d’algorithme ? Est-il au contraire trop compliqué en termes de puissance de calcul nécessaire ? Il est également important de prendre en considération le contexte international actuel dans lequel va s’inscrire l’application aidée par ce modèle, on parle ici du changement climatique. Le modèle va t’il s’inscrire dans une démarche raisonnée et écologique de nourrir la planète tout en préservant nos écosystèmes ou au contraire dans le sens d’une surconsommation massive allant à l’encontre de la biodiversité.

 

Bibliographie

Chollet, F. (2015). keras. GitHub. https://github.com/fchollet/keras.

Fry, W. (2008). Phytophthora infestans: the plant (and R gene) destroyer. Molecular plant pathology, 9(3), 385-402.

Ristaino, J. B., Groves, C. T., & Parra, G. R. (2001). PCR amplification of the Irish potato famine pathogen from historic specimens. Nature, 411(6838), 695-697.

Sato, R. C. (2013). Disease management with ARIMA model in time series. Einstein (Sao Paulo), 11(1), 128-131.

Verscheure, R. (2017). Influence de l'utilisation de méthodes alternatives aux pesticides pour lutter contre les ravageurs de la pomme de terre dans la province du Shandong (Chine).