Type de document : article scientifique publié dans Computers and Electronics in Agriculture
Auteurs : Yue Gao, Kai Yan, Baisheng Dai, Hongmin Sun, Yanling Yin, Runze Liu, Weizheng Shen
Résumé en français (traduction) : Reconnaissance du comportement agressif de porcs élevés en groupe sur la base d’un modèle hybride CNN-GRU avec mécanisme d’attention spatio-temporel
Le comportement agressif de porcs élevés en groupe affecte gravement l’économie de l’exploitation et le bien-être des animaux. La reconnaissance automatique et précise du comportement agressif de porcs élevés en groupe est donc importante pour la gestion de la production agricole. Cette étude propose un modèle hybride qui combine un réseau neuronal convolutionnel (CNN) et une unité récurrente intégrée (GRU) pour différencier les comportements agressifs et les autres comportements à partir de vidéos de surveillance. Le réseau CNN a servi d’extracteur de caractéristiques spatiales pour apprendre les représentations d’apparence du comportement dans chaque image individuelle, tandis que le réseau GRU a servi d’extracteur de caractéristiques temporelles pour apprendre les représentations en mouvement du comportement dans un épisode de comportement. Plus important encore, pour se concentrer sur les caractéristiques de perception dans le domaine spatial et le domaine temporel du comportement, un mécanisme d’attention spatio-temporel spécifique a été conçu et intégré dans le modèle hybride CNN-GRU pour améliorer l’effet de la reconnaissance des comportements agressifs. Pour évaluer le modèle proposé, un ensemble de données vidéo de comportement comprenant 5530 épisodes de comportements de 10 porcelets a été utilisé. La précision du modèle hybride proposé sur l’ensemble de tests était de 94,8 %. Les résultats ont montré que le modèle hybride proposé et intégré à l’attention spatio-temporelle était plus performant que le modèle avec une attention spatiale ou temporelle indépendante ou que le modèle sans mécanisme d’attention, et qu’il atteignait une performance supérieure à celle des approches de pointe en matière de reconnaissance de comportements agressifs. Nous avons partagé notre ensemble de données vidéo sur le comportement à l’adresse https://github.com/IPCLab-NEAU/Aggressive-Behavior-Recognition pour la communauté de recherche sur l’élevage de précision.
Résumé en anglais (original) : Aggressive behavior of group-housed pigs seriously affects farm economy and animal welfare. Automatic and accurate recognition of aggressive behavior of group-housed pigs is thus important for farm production management. This study proposes a hybrid model that combines convolutional neural network (CNN) and gated recurrent unit (GRU) to differentiate aggressive and other behaviors from surveillance videos. The CNN network served as a spatial feature extractor to learn appearance representations of behavior in each individual frame, while the GRU network served as a temporal feature extractor to learn motion representations of behavior in a behavior episode. More importantly, to focus on the saliency features in both the spatial domain and the temporal domain of behavior, a specific spatio-temporal attention mechanism was designed and integrated in the CNN-GRU hybrid model to improve the effect of aggressive behavior recognition. To evaluate the proposed model, a behavior video dataset consisting of 5530 behavior episodes about 10 piglets. The accuracy of the proposed hybrid model conducted on the test set were 94.8 %. The results showed that the proposed hybrid model integrated with spatio-temporal attention performed better than the model with an independent spatial or temporal attention and the model without attention mechanism, and achieved a competitive performance of aggressive behavior recognition over the state-of-the-art approaches. We shared our behavior video dataset at https://github.com/IPCLab-NEAU/Aggressive-Behavior-Recognition for precision livestock farming research community.