CNR BEA | Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification

Type de document : article scientifique déposé dans arXiv

Auteurs : Artem Abzaliev, Humberto Pérez Espinosa, Rada Mihalcea

Résumé en français (traduction) : Vers le décodage des aboiements de chiens : Exploiter le traitement de la parole humaine pour une classification automatisée des aboiements
Tout comme les humains, les animaux font un usage intensif de formes de communication verbales et non verbales, y compris une large gamme de signaux audio. Dans cet article, nous nous intéressons aux vocalisations des chiens et explorons l’utilisation de modèles de représentation de la parole auto-supervisés et pré-entraînés sur la parole humaine pour traiter les tâches de classification des aboiements de chiens qui trouvent des parallèles dans les tâches centrées sur l’homme dans la reconnaissance de la parole. Nous nous intéressons plus particulièrement à quatre tâches : la reconnaissance des chiens, l’identification des races, la classification des sexes et la mise en contexte. Nous montrons que l’utilisation de représentations d’intégration de la parole permet d’améliorer de manière significative la classification par rapport à des lignes de base plus simples. En outre, nous constatons que les modèles pré-entraînés sur l’acoustique de la parole humaine peuvent fournir des performances supplémentaires dans plusieurs tâches.

Résumé en anglais (original) : Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the use of self-supervised speech representation models pre-trained on human speech to address dog bark classification tasks that find parallels in human-centered tasks in speech recognition. We specifically address four tasks: dog recognition, breed identification, gender classification, and context grounding. We show that using speech embedding representations significantly improves over simpler classification baselines. Further, we also find that models pre-trained on large human speech acoustics can provide additional performance boosts on several tasks.

Pré-publication ayant donné lieu à un article dans ELBRLO.PL le 07/06/2024