Título: Fusión temprana de descriptores extraídos de mapas de prominencia multi-nivel para clasificar imágenes
Autor: Fidalgo, E.; Alegre, E.; Fernández-Robles, L.; González-Castro, V.
Resumen: [EN] In this paper, we propose a method that improves the classification of images. Considering saliency maps as if they were topographic maps and filtering the characteristics of the image’s background, the Bag of VisualWords (BoVW) coding is improved. First, we evaluated six known algorithms to generate saliency maps and we selected GBVS and SIM because they are the ones that retain most of the information of the object. Next, we eliminated the extracted SIFT descriptors belonging to the background by filtering features based on binary images obtained at various levels of the selected saliency maps. We filtered the descriptors by obtaining layers at various levels of the saliency maps, and we evaluated the early fusion of the SIFT descriptors contained in these layers into five dierent datasets. The results obtained indicate that the proposed method always improves the reference method when combining the first two layers of GBVS or SIM and the dataset contains images with a single object.[ES] En este artículo proponemos un método que permite mejorar la clasificación de imágenes en conjuntos de datos en los que la imagen contiene un único objeto. Para ello, consideramos los mapas de prominencia como si se trataran de mapas topográficos y filtramos las características del fondo de la imagen mejorando de esta forma la codificación que realiza sobre la imagen completa un modelo clásico basado en Bag of Visual Words (BoVW). En primer lugar, evaluamos seis conocidos algoritmos para la generación de mapas de prominencia y seleccionamos los métodos de GBVS y SIM al determinar que son los que retienen la mayor parte de la información del objeto. Utilizando la información de dichos mapas de prominencia eliminamos los descriptores SIFT extraídos de forma densa pertenecientes al fondo mediante el filtrado de características en base a imágenes binarias obtenidas a diversos niveles del mapa de prominencia. Realizamos el filtrado de descriptores obteniendo capas a diversos niveles del mapa de prominencia, y evaluamos la fusión temprana de los descriptores SIFT contenidos en dichas capas en cinco conjuntos de datos diferentes. Los resultados obtenidos en nuestra experimentación indican que el método propuesto mejora siempre al método de referencia cuando se combinan las dos primeras capas de GBVS o de SIM y el dataset contiene imágenes con un único objeto.