Type de document : article scientifique publié dans Frontiers in Veterinary Science
Auteurs : Franziska Hakansson, Dan Børge Jensen
Résumé en français (traduction) : Surveillance et détection automatiques du comportement de morsure de la queue dans des groupes de porcs à l’aide de méthodes d’apprentissage profond basées sur la vidéo
La surveillance automatisée des porcs pour détecter rapidement les changements de comportement et l’apparition de la morsure de la queue pourrait permettre aux éleveurs de prendre des mesures de gestion immédiates et de réduire ainsi les problèmes de santé et de bien-être à la ferme. Notre objectif était de développer des méthodes basées sur la visualisation par ordinateur pour détecter les morsures de la queue chez les porcs en utilisant un réseau de neurones convolutif (RNC) pour extraire les informations spatiales, combiné à des réseaux secondaires prenant en compte les informations temporelles. Deux réseaux secondaires ont été utilisés, à savoir un réseau à mémoire à long terme (RMLT) appliqué à des séquences de caractéristiques d’images (RNC-RMLT) et un RNC appliqué à des représentations d’images de séquences (RNC-RNC). Pour atteindre notre objectif, notre étude visait à répondre aux questions suivantes : (a) Ces méthodes permettent-elles de détecter les morsures de la queue à partir d’enregistrements vidéo d’enclos entiers ? (b) Peut-on utiliser les analyses en composantes principales (ACP) pour réduire la dimensionnalité du vecteur de caractéristiques et n’utiliser que les composantes principales (CP) pertinentes ? (c) Est-il possible d’augmenter les performances en optimisant le seuil de séparation des classes des probabilités prédites du résultat ? (d) Quelle est la performance des méthodes les unes par rapport aux autres ? L’étude a utilisé des enregistrements vidéo d’une heure de 10 enclos avec des porcs avant sevrage, contenant un total de 208 événements de morsure de queue de différentes longueurs. Le VGG-16 pré-entraîné a été utilisé pour extraire les caractéristiques spatiales des données, qui ont ensuite été prétraitées et divisées en ensembles de test et de formation avant d’être introduites dans le RMLT/RNC Les performances des méthodes concernant le prétraitement des données et la construction du modèle ont été systématiquement comparées en utilisant la validation croisée. Les modèles finaux ont été exécutés avec des paramètres optimaux et évalués sur un ensemble de tests indépendants. Les méthodes proposées ont détecté les morsures de queue avec une précision moyenne majeure (PMM) de 71,3 et 64,7 % pour le réseau RNC-RMLT et le réseau RNC-RNC, respectivement. L’application de l’ACP et l’utilisation d’un nombre limité de CP ont considérablement augmenté les performances des deux méthodes, tandis que l’optimisation du seuil de séparation des classes a entraîné une augmentation constante mais non significative des performances. Les deux méthodes permettent de détecter les morsures de queue à partir de données vidéo, mais le réseau RNC-RMLT s’est avéré supérieur en termes de généralisation lorsqu’il a été évalué sur de nouvelles données, c’est-à-dire des données non utilisées pour l’entraînement des modèles, par rapport à la méthode RNC-RNC.
Résumé en anglais (original) : Automated monitoring of pigs for timely detection of changes in behavior and the onset of tail biting might enable farmers to take immediate management actions, and thus decrease health and welfare issues on-farm. Our goal was to develop computer vision-based methods to detect tail biting in pigs using a convolutional neural network (CNN) to extract spatial information, combined with secondary networks accounting for temporal information. Two secondary frameworks were utilized, being a long short-term memory (LSTM) network applied to sequences of image features (CNN-LSTM), and a CNN applied to image representations of sequences (CNN-CNN). To achieve our goal, this study aimed to answer the following questions: (a) Can the methods detect tail biting from video recordings of entire pens? (b) Can we utilize principal component analyses (PCA) to reduce the dimensionality of the feature vector and only use relevant principal components (PC)? (c) Is there potential to increase performance in optimizing the threshold for class separation of the predicted probabilities of the outcome? (d) What is the performance of the methods with respect to each other? The study utilized one-hour video recordings of 10 pens with pigs prior to weaning, containing a total of 208 tail-biting events of varying lengths. The pre-trained VGG-16 was used to extract spatial features from the data, which were subsequently pre-processed and divided into train/test sets before input to the LSTM/CNN. The performance of the methods regarding data pre-processing and model building was systematically compared using cross-validation. Final models were run with optimal settings and evaluated on an independent test-set. The proposed methods detected tail biting with a major-mean accuracy (MMA) of 71.3 and 64.7% for the CNN-LSTM and the CNN-CNN network, respectively. Applying PCA and using a limited number of PCs significantly increased the performance of both methods, while optimizing the threshold for class separation did result in a consistent but not significant increase of the performance. Both methods can detect tail biting from video data, but the CNN-LSTM was superior in generalizing when evaluated on new data, i.e., data not used for training the models, compared to the CNN-CNN method.