Tecnologías Emergentes

Google acelera la técnica del reconocimiento visual de objetos en ordenadores

El nuevo método puede reconocer 100.000 objetos en 20 segundos 

Y. Aparicio | Martes 02 de septiembre de 2014

Google Research ha dado detalles sobre una nueva técnica de visión automatizada que podría avanzar el reconocimiento visual de los ordenadores e incluso de los dispositivos móviles. La compañía afirma que su avance es capaz de reconocer 100.000 objetos diferentes en una foto en menos de 30 segundos. 



Google está empleando DNN (red neuronal profunda) para aprender a reconocer las características más importantes de un video. Este es el sistema que la compañía empleará para la visión por computadoras. Las mejoras alcanzadas se encuentran en técnicas tradicionales de procesamiento digital de imágenes, aplicando filtros de convolución para encontrar los objetos importantes. De este modo los valores de los píxeles se agrupan en una matriz. Así, según lo que deseemos que encuentre el filtro, se realizarán unas operaciones u otras.

El problema de los filtros de convolución es que requieren al menos un objeto reconocible a priori. Como el tiempo para aplicar estos filtros puede ser muy costoso en términos de procesamiento, este método se empleara solo para un pequeño número de categorías de objetos.

Por ello el método más apropiado es el locality sensitive hashing, gracias al cual en lugar de aplicar una matriz, los pixeles pasan por la tabla de hash y se comparan con una escala de resultados. Emplean un sistema de ranking que indica cuál es el filtro para la mejor evaluación del objeto a percibir. Esto da mejores resultados ya que se emplea convolución ordinal en lugar de lineal. Con ello la aceleración lograda es 20.000 veces mayor que con las técnicas tradicionales.

Esta técnica se probó con detectores de 100.000 objetos empleando 1 millón de filtros con un escalamiento de múltiple resolución. La imagen analizada tardó menos de 20 segundos en una máquina con 20GB de RAM, un resultado asombroso teniendo en cuenta que un ser humano reconoce, en promedio, 10.000 objetos categorizados.

Gracias a estos avances puede que el reconocimiento visual de objetos esté pronto en nuestros ordenadores.