Trouvons le Maillon le Plus Faible des Détecteurs de Personnes

Original article: https://faculty.cc.gatech.edu/~parikh/person_detection.html

Devi Parikh et Larry Zitnick

Résumé 

La détection de personnes reste un problème populaire et difficile en vision par ordinateur. Dans cet article, nous analysons des modèles basé sur les pièces

pour la détection de personne afin de déterminer quels composants de leur pipeline pourraient bénéficier le plus d’une amélioration. Nous accomplissons cette tâche en étudiant de nombreux détecteurs formés à partir de combinaisons de composants effectuées par des sujets humains et des machines. Le modèle basé sur les pièces que nous étudions peut être divisé en quatre composantes: détection des caractéristiques, détection des parties, notation spatiale des parties et raisonnement contextuel incluant une suppression non maximale. Nos expériences concluent que la détection de parties est le maillon le plus faible des ensembles de données de détection de personnes. La suppression et le contexte non maximaux peuvent également améliorer considérablement les performances. Cependant, l’utilisation de modèles spatiaux humains ou de machines n’affecte pas de façon significative ou constante la précision de détection.

Motivation 

La détection de personnes est un problème important, mais ouvert et difficile en vision par ordinateur. Récemment, les détecteurs de personnes ont fait des progrès significatifs en utilisant des modèles basés sur les pièces. Les chercheurs ont exploré diverses représentations de caractéristiques d’images, différents modèles d’apparence pour les parties, une modélisation spatiale sophistiquée des configurations d’objets, ainsi que des modèles expressifs de suppression non maximale et de contexte. Chacune de ces approches propose un ensemble complexe de composants interdépendants pour fournir les résultats finaux de la détection. Si la complexité supplémentaire des approches a permis d’améliorer les performances, il est difficile de comprendre le rôle de chaque composant dans la précision finale de la détection.

Proposition

Nous proposons une analyse approfondie des modèles basés sur les pièces afin de comprendre quels composants du pipeline pourraient bénéficier le plus d’une amélioration. Nous accomplissons cette tâche en utilisant des sujets humains pour effectuer les composants individuels précédemment effectués par l’algorithme de la machine. Par exemple, au lieu d’utiliser un classificateur automatique tel qu’un SVM latent formé sur des descripteurs HoG pour détecter des parties d’objet, nous utilisons des sujets humains pour déterminer si un petit patch d’image contient une tête, un pied, un torse, etc. On trouvera ci-après des illustrations des différentes tâches effectuées par des sujets humains :

Expériences et Résultats

Nous évaluons la précision de détection de différents détecteurs (voir ci-dessous) composés de diverses combinaisons de composants réalisées par des sujets humains ou des implémentations de machines.

Les comparaisons entre divers sous-ensembles de ces détecteurs nous permettent de distinguer l’influence de chacun des composants du pipeline de détection de personnes à base de parties. Nous vous encourageons à consulter les comparaisons détaillées dans l’article, mais vous trouverez ci-dessous un résumé des résultats obtenus sur les ensembles de données PASCAL 2007 et INRIA. Nous constatons que la détection des parties est le maillon le plus faible de la détection de personnes basée sur les pièces. La suppression non maximale influence également les performances de manière non triviale. Cependant, l’utilisation de modèles spatiaux humains ou de machines n’affecte pas significativement la précision de détection.

Base de Données De Pièces

Parmi les grandes quantités de données humaines que nous avons recueillies dans le cadre de nos expériences, nous croyons que les éléments suivants pourraient intéresser la communauté.

Nous avons demandé à des sujets humains de classer de patches d’images qui se chevauchent dans l’une des huit catégories : tête, torse, bras, main, jambe, pied, autre-partie-de-personne, pas-une-personne. Les patchs ont été extraits de 50 images INRIA et 100 images PASCAL (2007), et ont été affichés de manière isolée et aléatoire afin que les sujets ne disposent d’aucune information contextuelle sur l’image. Nous avons extrait les patchs de la version originale haute résolution ainsi que d’une version basse résolution des images. Avant d’extraire les patchs, les images haute et basse résolution ont été transformées en l’une des représentations suivantes: couleur (régulière), niveaux de gris et gradient normalisé. Cela a donné un total de 45 316 x 6 = 271 896 patchs. 10 sujets humains ont classé chaque patch dans l’une des 8 catégories sur Amazon Mechanical Turk. 

Un instantané des données peut être vu ci-dessous, qui montre des exemples de patchs classés par la plupart des sujets comme tête, torse, jambe et aucun.

De même, nous avons demandé à 10 sujets humains de classer des sous-fenêtres d’images se chevauchant (total de 6 218 x 6 = 37 308 fenêtres) comme contenant une personne ou non (similaire à la détection de la “racine”). Comme pour les parties, les sous-fenêtres ont été extraites à partir d’images couleur haute et basse résolution, en niveaux de gris et en dégradés normalisés.

Nous fournissons ces données de classification des parties (patch) et de racine (fenêtre) en tant qu’ensemble de données de patch d’article.

** Télécharger ** Ensemble de données de correctifs partiels [89,3 Mo]

Visualizations

Un sous-ensemble de nos études humaines nécessitait que des sujets humains détectent des personnes à l’aide d’un ensemble précalculé de pièces. Les pièces peuvent être détectées par d’autres humains ou par une machine. Afin de s’assurer qu’aucune information préalable autre que les pièces détectées n’est utilisée par des sujets humains, nous avons créé des visualisations qui affichent les détections de pièces, mais aucune autre information dans l’image. Un exemple de visualisation peut être vu ci-dessous.

** Parcourir ** Les visualisations de certaines images utilisant les pièces détectées par l’homme et la machine peuvent être visualisées ici : INRIA_50 PASCAL2007_100. Les six premières colonnes montrent les parties détectées par l’homme (sur des images haute résolution régulières, en niveaux de gris, à gradient normalisé), et la dernière colonne montre les parties détectées par la machine sur des images haute résolution utilisant les détecteurs de Felzenszwalb et al. 2010. Pour les parties détectées par l’homme, les couleurs correspondent aux différentes pièces d’une personne (rouge : tête, vert : torse, bleu : bras, jaune : main, magenta : jambe, cyan : pieds, blanc : racine (personne), noir : aucune). Chaque patch est affiché avec une couleur correspondant à la catégorie qui a reçu le plus de votes parmi les 10 sujets.  L’intensité de la couleur correspond au nombre de sujets qui ont choisi la classe. Pour les pièces détectées par machine, les six couleurs sont arbitrairement attribuées à six pièces, et l’intensité de la couleur correspond au score de la détection de pièce.

Publication

D. Parikh et C. L. Zitnick

“Trouvons le Maillon le Plus Faible des Détecteurs de Personnes”

Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 2011

[affiche] [diapositives]

Soutien

Ce matériel est basé sur des travaux soutenus en partie par la National Science Foundation, Grant No. 1115719. Les opinions, résultats, conclusions ou recommandations exprimés dans ce document sont ceux de l’auteur ou des auteurs et ne reflètent pas nécessairement les vues de la National Science Foundation.