Video Analitico

Departamento de Ciencias de la Computación
Universidad de Mayyland, College Park, MD 20742
neeti@cs.umd.edu

 

Resumen
Las recientes investigaciones en visión por computadora se han enfocado mayormente en la construcción de sistemas para la observación de seres humanos, el entendimiento de su apariencia, de sus movimientos y también de sus actividades. Para ello se proveyeron interfases avanzadas de interacción con humanos y se crearon modelos de personas altamente realistas, con una gran serie de propósitos. Para su correcto funcionamiento, estos sistemas requieren de una serie de métodos de detección de personas provenientes de una imagen de entrada o bien de un video. En este informe, se discutirán las técnicas más representativas para la detección de personas mediante la utilización de entradas visuales. Las mismas han sido clasificadas en función de la necesidad de pre-procesamiento (substracción del fondo de la imagen o detección directa), las cualidades utilizadas para detectar apariencias humanas (figuras y formas, colores, movimientos), el uso de modelos humanos explícitos, técnicas de aprendizaje, …


1. Introducción

El entendimiento de la actividad humana a través del video es una de las partes sobre las investigaciones en visión por computadora que mas importancia ha ganado en los últimos años. El entendimiento de la actividad humana tiene aplicaciones en una alta gama de campos, entre ellos, el de mayor importancia es el de la vigilancia. Otras aplicaciones incluyen la animación de personajes para juegos y películas, avatares para tele conferencias, interfases de usuario inteligente avanzadas, análisis biomecánico de acciones para deportes y medicina, etc. Antes de poder entender completamente la complejidad de las actividades del cuerpo humano, se necesitan métodos automáticos que nos permitan encontrar personas en una imagen o video. Un vez detectadas y dependiendo de la aplicación, el sistema puede continuar procesando la información para obtener todos los detalles sobre el entendimiento de la actividad humana. Para este informe se ha seleccionado un conjunto representativo de métodos de detección de seres humanos en cuerpo completo (full-body human detection), a partir de la amplia gama literaria existente sobre este tópico. Además, se incluye una reseña y clasificación de varios métodos. El informe no tiene la intención de ser exhaustivo y tampoco se involucra con dominios especializados (como lo son la detección de rostros, gestos o caracterización de la actividad humana) cada uno de los cuales cuenta con una gran cantidad informes.


2. Reseñas de clasificación

Nuestro problema es detectar personas en un video o imagen determinados. La literatura más relevante puede dividirse en las distintas técnicas existentes: las que requieren de substracción del fondo de la imagen o segmentación y las que detectan seres humanos directamente desde la entrada (input) sin necesidad de pre-procesamientos.

Las técnicas de substracción del entorno usualmente detectan el objeto en primer plano desde el video y luego lo clasifican en distintas categorías (humano, animal vehículo, etc.) basándose en la forma, color y movimiento entre otras cualidades. A continuación se describirán y clasificarán una serie de técnicas que permiten llevar a cabo la detección humana, una vez substraído el entorno. (Vea Tabla 1).

 

Informe

Substracción de la imagen de fondo

Informe Substracción de la imagen de fondo Características humanas
Wren et al. (1997) Color/Imagen Ref. Color, contorno
Beleznai et al. (2004) Color/Imagen Ref. Modelo de región
Haga et al. (2004) Color/Imagen Ref. F1-F2-F3
Eng et al. (2004) Color/Imagen Ref. Color
Elzein et al. (2003) Movimiento/Diferenciación del cuadro Wavelets
Toth and Aach (2003) Movimiento/Diferenciación del cuadro Figura de Fourier
Lee et al. (2004) Movimiento/Diferenciación del cuadro Forma
Zhou and Hoang (2005) Movimiento/Diferenciación del cuadro Forma
Yoon and Kim (2004) Movimiento + Color Valor Geométrico del Pixel
Xu and Fujimura (2003) Profundidad Movimiento
Li et al. (2004) Profundidad Forma
Han and Bhanu (2003) Infrarrojo IR + Color
Jiang et al. (2004) Infrarrojo IR + Color

Tabla 1. Métodos que utilizan substracción de la imagen de fondo


Las técnicas directas operan sobre las cualidades extraídas de parches (patches) de las imágenes o videos y las clasifican como humanas o no-humanas. Pueden también clasificarse a partir de las mismas cualidades utilizadas para identificar una entrada dada como humano o no. Estas características incluyen Forma (identificando contornos y otros factores descriptivos), Color (detección del color de piel), Movimiento y todas sus combinaciones. En la Tabla 2 se puede ver una lista de las técnicas seleccionadas.

 

3. Técnicas que utilizan substracción del fondo de la imagen

3.1 Wren et al. (1997)

Este informe describe el sistema de detección y seguimiento de humanos en tiempo real Pfinder. El modelo de entorno utiliza una distribución guassiana en el espacio YUV por cada píxel y a su vez es actualizado de manera continua. El individuo se modela mediante la utilización de blobs (Binary Large Objects) múltiples con componentes espaciales y de color, junto con la distribución gaussiana correspondiente. Debido a los cambios dinámicos que sufre, los parámetros espaciales del blob se estiman constantemente utilizando un filtro Kalman. Luego, para cada píxel de la imagen, el método evalúa la semejanza para hacerlo parte del blob o bien del entorno. A continuación, cada píxel es asignado al blob o al entorno en el sentido “Máximo A Posteriori” (Maximum A Posteriori), seguido de operaciones morfológicas simples. Una vez finalizado este paso los modelos estadísticos para la textura y entorno del blob son actualizados. Los modelos de personas blob se inicializan a partir de un paso de detección de contorno el cual intenta localizar la cabeza, manos y pies del individuo. Los blobs de cara y manos se inicializan con los previos de color de piel. Este sistema esta dirigido básicamente a las detección de una persona sola, y asume una serie de supuestos de dominio especifico. Fue testeado en un importante número de escenarios HCI y funciona en tiempo real.


3.2 Beleznai et al. (2004)

Este informe trata sobre las marcadas diferencias existentes entre un cuadro de entrada, una imagen de referencia como una distribución de probabilidad multi-modal y el hecho de que las detecciones de modo sean llevadas a cabo utilizando computación “mean-shift”. Esta ultima funciona de un modo rápido mediante el uso imágenes integrales o tablas de áreas totales, los cuales le brindan al método una performance en tiempo real y un manejo independiente del tamaño de la ventana utilizada. El procedimiento de detección de modo es capaz de localizar humanos aislados, pero para lograr la separación parcial de un individuo o grupo de personas, requiere de la utilización de un proceso de validación basado en un modelo (model-based validation process). El modelo humano es muy simple y consiste de tres regiones rectangulares. Para cada grupo de humanos, se identifica una configuración de semejanza máxima.


3.3 Haga et al. (2004)

En este informe, un objeto en movimiento se clasifica como humano basándose en: la unicidad espacial del movimiento de la imagen (llamado criterio F1 por los autores), la unicidad temporal del movimiento humano (F2) y la continuidad temporal del movimiento (F3). En primer lugar, el objeto en movimiento es detectado a través de la substracción del fondo de la imagen y luego se evalúan las F1, F2 y F3. La unicidad espacial del movimiento de la imagen es una medida de la uniformidad del movimiento local con respecto a una región. La unicidad temporal se define correspondientemente en la dirección del tiempo. Un clasificador lineal separa la información humana de la no-humana en los espacios F1, F2 y F3 y luego la utiliza para clasificar la nueva información de entrada.


3.4 Eng et al. (2004)

Este informe plantea la combinación de los métodos basados en la substracción del fondo de la imagen y los que incorporan un modelo de figura humana como solución a los problemas que la detección de una persona parcialmente oculta, como así también de grupos numerosos de personas. En primer lugar, se construye un modelo de la imagen de fondo ( background model) asumiendo que cada región tiene una distribución de probabilidad gaussiana multivariable sobre los colores. Los modelos de la imagen de fondo se construyen de un modo simple utilizando un conjunto de cuadros de fondo, el cual a su vez es separado en bloques utilizando un algoritmo k-means. Los píxeles de la nueva imagen de entrada se comparan con este modelo de la imagen de fondo para luego clasificarlos como imagen de primer plano (foreground) o de fondo (background). Las partes faltantes del primer plano se adicionan utilizando la detección de la cabeza y cuerpo mediante los colores (color-based head and body detection). Luego, se aplica una formulación bayesiana basándose en un modelo simple del cuerpo y la cabeza como si fueran dos elipses. A su vez todas las partes de la cabeza y cuerpo son determinadas a través del método MAP. Los experimentos presentados tratan solamente con un dominio especifico incluyendo la vigilancia de una piscina.


3.5 Elzein et al. (2003)

El método descripto en este informe detecta en primer lugar objetos en movimiento computando el fluido óptico solamente en las regiones seleccionadas por diferenciación de cuadros. La velocidad del flujo óptico se utiliza luego para computar un tiempo de colisión con respecto a un punto de referencia fijado en la imagen. Esto se hace ya que la meta es detectar regiones que potencialmente podrán colisionar con el vehículo en el cual la cámara esta montada, el cual es tomado como el punto de referencia. Los píxeles con tiempo de colisión bajo, son seleccionados mediante la utilización de umbrales, y las operaciones morfológicas se utilizan para construir grupos o blobs de píxeles conectados. A los blobs resultantes se les da la forma de regiones rectangulares las cuales se utilizan luego para procesamientos adicionales. Para determinar si una de las regiones rectangulares seleccionadas es una persona, el autor incluye un clasificador que utiliza cualidades basadas en “wavelets” y un esquema de concordancia en plantilla (template matching squeme). Utilizando una base de datos de imágenes de peatones, se construyen las plantillas, las cuales consisten básicamente en una tabla normalizada de coeficientes “wavelets”. La plantilla final esta formada por un vector de cualidad dimensional 49, el cual se compara con una cualidad similar construida para cada rectángulo de entrada. Si el número de coeficientes es mucho mayor que un umbral, el rectángulo se clasifica como un peatón. Claramente, como los rectángulos de entrada pueden ser de tamaños diferentes, la concordancia se lleva a cabo en diversas escalas. El método propuesto no posee una performance en tiempo real.


3.6 Toth and Aach (2003)

El método presentado en este informe realiza en primer lugar una substracción de la imagen de fondo por iluminación invariable a través de la diferenciación de cuadros, agregado de la sumatoria de diferencias absolutas basada en ventanas (window based sum of absolut differences, SAD) y un umbral adaptable. Los autores utilizan un campo al azar Gibbs-Markov para crear umbrales de variación espacial los cuales derivan en figuras suaves de primer plano. Los blobs de primer plano son identificados utilizando componentes conectados y se aplica una transformación de Fourier para el entorno fronterizo. Mediante la retención de los diez primeros componentes de Fourier, se obtiene un descriptor de figuras de Fourier compacto. La clasificación de los blobs en humano, vehículo o revoltijo (clutter) se lleva a cabo utilizando una red neural del tipo “tour layer feedforward”, que contiene descriptores de Fourier como entradas y las clases como salidas. La red es configurada utilizando 400 ejemplos de seres humanos y 400 de vehículos. La implementación usa el OpenCV para alcanzar una performance cercana al tiempo real.


3.7 Lee et al. (2004)

En este informe se utiliza una aproximación basada en la forma para la clasificación de objetos, utilizando la substracción siguiente del fondo de la imagen basado la diferenciación de cuadros. La meta es detectar a las personas para lograr un rápido asesoramiento ante posibles amenazas. El intruso es clasificado como un ser humano, animal o vehículo basándose en la forma de su contorno. El sistema clasifica el contorno de los objetos en diferentes categorías utilizando el siguiente procedimiento. Los puntos de datos en el contorno son reducidos a través de una técnica evolutiva de curvas, la cual utiliza una medida de relevancia para remover los vértices del contorno. Con este método, el contorno es reducido hasta 60 puntos de datos los cuales se aproximan básicamente a un polígono, expresado como “ángulo de curva” (bend angle) vs. “longitud normalizada”. La similitud entre los contornos se reduce utilizando la norma L2. Para esto, se desarrolló un nuevo algoritmo de rápida concordancia, el cual puede ser utilizado para clasificar al objeto como humano, animal o vehículo.

 

3.8 Zhou and Hoang (2005)

Este informe presenta un método para detectar y seguir un cuerpo humano en un video. En primer lugar, se lleva a cabo la substracción del fondo de la imagen para detectar el objeto de primer plano (foreground object), la cual involucra una diferenciación temporal de los cuadros consecutivos. Una vez finalizado este paso se lleva a cabo la clasificación del objeto, basándose en dos aproximaciones: la primera es una aproximación “codebook”, y la segunda involucra el seguimiento del objeto. Si el objeto puede ser seguido satisfactoriamente, entonces es considerado como un humano. Para la primer aproximación se normaliza el tamaño del blob de primer plano a 20×20 y luego se crea el vector de características de la figura del objeto de primer plano. Para crear el vector de figura del objeto, se generan una imagen de mascara (mask image) y el contorno de un cuerpo humano. La distancia existente entre el contorno de un cuerpo humano y la parte izquierda de la caja de contorno es utilizado como un vector de características. Este último, es comparado con los vectores de características de las imágenes de personas disponibles en el codebook. Se encuentra entonces la mínima de todas las distorsiones para todos los vectores de características en el codebook y en el caso que sea menor a un umbral, entonces se clasifica al objeto como humano. El seguimiento está basado en la utilización de histogramas de colores, el movimiento y el tamaño del blob de primer plano. Las falsas alarmas debidas a movimientos oscilatorios estáticos son también detectadas y removidas. De esta manera todos los objetos que presentan ese movimiento (árboles, arbustos, etc.) no son tomados en cuenta. Otras cualidades de la técnica incluyen la eliminación de las sombras.

 

3.9 Yoon and Kim (2004)

En este informe se propone una aproximación compuesta para la detección de seres humanos. La misma utiliza el color de piel y los movimientos para encontrar en primer lugar los objetos de primer plano que serán candidatos a ser objetivos. Luego se utiliza una técnica mas sofisticada para clasificar los objetos. Una vez que las regiones del candidato a objeto fueron detectadas, se normaliza su tamaño, basándose tanto en la distancia existente entre un punto y el centro de gravedad en dirección vertical como así también en la posición final x-y en la dirección horizontal. El informe solo considera la parte superior del cuerpo para llevar a cabo la detección. La misma consiste en las ropas que poseen diferentes texturas y colores. Al no poder utilizarse solamente una aproximación basada en el color para una clasificación posterior, se utiliza una estructura a nivel de píxel. La imagen con tamaño normalizado se divide en subpartes no coincidentes (non overlapping subparts) y se calcula la distancia Mahalanobis entre los bloques, de manera similar al Utsumi y Tetsutani (2002). Luego, desde los mapas de imágenes de distancia, se lleva a cabo el PCA para reducir el dimensionamiento y se utiliza un clasificador tipo SVM para diferenciar entre humanos y no-humanos. A pesar de ser mencionados, no se da detalle alguno sobre estos pasos.

 

3.10 Xu and Fujimura (2003)

Los autores presentan en este informe un método de detección de peatones que parece tener un buen funcionamiento en ambientes interiores. Mediante la utilización de un nuevo dispositivo sensible, se provee al usuario simultáneamente con información profunda (depth information) junto a información de la imagen (image information). De la imagen de profundidad se selecciona la parte de la misma que se encuentra ente los valores especificados de profundidad (Dmin y Dmax). A continuación, se lleva a cabo el procesamiento de la imagen, el cual elimina las imágenes de fondo tales como las paredes. Esto se logra basándose en el hecho de que estos objetos de fondo son extensas áreas sin textura en la imagen y las mismas están presentes parcialmente en el área seleccionada entre el Dmin y el Dmax. Un algoritmo de “separación y emergencia” (split and merge) se utiliza luego para llevar a cabo la segmentación mediante cortes de profundidad. Los mismos separan las capas de profundidad para luego hacer emerger las regiones basándose en la continuidad de la profundidad. A través de este paso, los objetos (incluyendo las personas y otros de primer plano) son detectados. Para clasificarlos, se los encierra en una elipse, lo cual permite eliminar lo objetos no humanos y a su vez detectar el torso de las personas, eliminando los brazo, etc. La elipse es comprimida tantas veces como sea posible hasta que se adapte completamente a la silueta. Para diferenciar entre personas y otros objetos como carros, se utiliza un método heurístico basado en el movimiento. En caso de tratarse de una persona, la parte superior de la elipse se va moviendo lentamente con pequeñas fluctuaciones, hecho que no sucede con objetos no humanos.


3.11 Li et al. (2004)

Los autores describen el proceso de “filtrado de escala adaptable orientado al objeto” (OOSAF) utilizado para encontrar objetos de interés, y lo aplican tanto al problema de detección de seres humanos cercanos a una cámara como así también a la detección de un conjunto determinado de personas entre una multitud. El método OOSAF utiliza un mapa de disparidad obtenido en la configuración de una cámara estéreo, para estimar la escala en la que la filtración será llevada a cabo. Para detectar personas cercanas a la cámara, se utiliza un histograma de disparidad a modo de entrada para que el OOSAF seleccione la escala. Este proceso es seguido de una filtración, la cual aísla los blobs. Las cajas de contorno se posicionan alrededor de los blobs para luego aplicar una plantilla deformable estándar con la finalidad de reducir los blobs. El método se aplica de manera similar para detectar cabezas en un escenario poblado.

 

3.12 Han and Bhanu (2003)

En este informe, los autores proponen el uso de cámaras infrarrojas (IR) junto con cámaras estandar para detectar seres humanos. Las cámaras deben montarse cerca una de la otra a modo de poder observar la misma escena desde un punto de vista similar. Actualmente, la detección no es únicamente de seres humanos, pero se detectará cualquier objeto en movimiento que posea firma térmica. En primer lugar, se lleva a cabo la extracción de la imagen de fondo independientemente, tanto en la cámara color como en la IR a través de una distribución de probabilidad gaussiana con el fin de modelar cada píxel de la imagen de fondo. El contorno detectado en las dos cámaras es registrado utilizando un algoritmo genético jerárquico para luego unir las dos siluetas y formar la forma estimativa final.

 

3.13 Jiang et al. (2004)

Este informe se basa en la fusión de imágenes infrarrojas (IR) con las imágenes de una cámara regular. Los seres humanos se ven de un modo muy característico en las imágenes IR debido a la temperatura de su piel, pero las mismas poseen la mayoría de las veces un contraste muy bajo. Para obtener mejores resultados en la detección, esas imágenes pueden fusionarse con las de una cámara estándar. El método propuesto computa en primer lugar las notabilidades (saliencies) de píxel de las dos imágenes (IR y visible) en múltiples escalas y la fusión se lleva a cabo según la notabilidad relatvia en las dos imágenes (conocido como diferencia perceptible de contraste).

 

4. Detección directa

 4.1 Cutler and Davis (2000)

Las técnicas mencionadas en este informe se basan en la detección de movimientos periódicos y se puede utilizar para detectar patrones periódicos de movimientos periódicos, como el hecho de caminar. En primer lugar, se estabiliza el video de una cámara móvil y luego se lleva a cabo la diferenciación de cuadros y umbralización a modo de detectar la regiones de movimiento independientemente. Las operaciones morfológicas se utilizan luego para obtener un conjunto de objetos rastreados. Cada objeto segmentado es alineado a lo largo del eje de tiempo (para remover la traslación) y su tamaño se mantiene constante con el tiempo. La matriz temporal de auto similitud del objeto es computada utilizando medidas de similitud, como la correlación,  la cual es periódica para movimientos periódicos. Luego se aplica el análisis de la frecuencia del tiempo basado en una transformación de corto-plazo de Fourier (STFT) y se utiliza la auto correlación para la detección robusta de periodos y su análisis.  Para clasificar a las personas, animales y vehículos, se utiliza un método de entramado. Los experimentos demuestran que esta técnica puede distinguir el movimiento de una persona del de un perro. El sistema no solo es capaz de detectar movimientos humanos periódicos, sino que también tiene conocimiento del periodo más conveniente para extraer la mayor cantidad de información sobre el modo de andar (por ejemplo, la longitud de los pasos). La performance del sistema es en tiempo real.

 

4.2 Utsumi and Tetsutani (2002)

Este método utiliza el hecho de que las posiciones relativas (distancias geométricas) de distintas partes del cuerpo, son comunes a todos los humanos, a pesar de que los valores de píxel pueden variar debido a la vestimenta o la iluminación. La técnica utiliza una estructura conocida como mapa de distancia, el cual se construye tomando la imagen de una persona y dividiéndola en MxN bloques. Se computa una matriz de distancia de tamaño MN x MN, en la cual cada elemento expresa la distancia entre la distribución de los colores, presentada en un par de bloques. Luego, utilizando dichos mapas de distancia para una gran base de datos de imágenes de seres humanos y no humanos, se construye un modelo estadístico para los mapas de distancia de cada tipo, el cual consiste en una matriz de covarianza y promedio para cada bloque. Las dos distribuciones se comparan utilizando la distancia Mahalanobis y resultaron ser muy similares, excepto por algunos elementos. Los mismos especifican un matriz de proyección de datos que conforma el modelo utilizado para el reconocimiento. Dada una nueva entrada de imagen, se comparan los parches de la imagen en diferentes ubicaciones y las escalas con el modelo. Además se utiliza un umbral para clasificar un parche como humano o no humano.

 

4.3 Gavrila and Giebel (2002)

Este informe se concentra en la difícil tarea de controlar una cámara móvil, montada en un vehículo. La plantilla de concordancia basada en la forma se lleva a cabo utilizando el método Chamfer de distancia. Un árbol jerárquico de plantillas se construye a partir de un grupo de las mismas, lo que da lugar a una compatibilidad mas eficiente. Esta jerarquía se construye automáticamente utilizando agrupaciones particionales, y cada agrupación es representada por un prototipo. A la vez que se lleva a cabo la comparación, se da comienzo al proceso desde la raíz y avanza a través de las ramas para encontrar la mejor plantilla de compatibilidad basándose en la distancia Chamfer. Si la distancia es mayor que un umbral predeterminado para un nodo dado, la búsqueda no se propaga a los nodos más pequeños. De este modo, la comparación es más eficiente. Los autores también incluyen un segundo estado de verificación basado en una arquitectura neural de red la cual opera en parches rectangulares detectados por el nivel previo de plantillas de compatibilidad. El método también incluye un rastreador basado en filtros Kalman con la finalidad de tomar ventaja de la información temporal y de esta manera completar las detecciones faltantes. El informe reporta los resultados en un extenso banco de pruebas.

 

4.4 Viola et al. (2003)

 Este informe se basa en la detección directa de seres humanos desde imágenes estáticas como así también en videos, utilizando un clasificador ajustado a la figura humana y las características del movimiento. El grupo de datos de prueba consiste en imágenes y videos de ejemplo, tanto de humanos como de no humanos. El informe se restringe a los peatones. El detector estático utiliza imágenes como entradas y extrae de un modo muy eficiente características rectangulares simples, utilizando imágenes integrales. Se crea una cascada de clasificadores para lograr una detección superior y un menor numero de fallas. Cada nivel del clasificador posee la capacidad de decidir si el nivel anterior es verdadero o falso, utilizando el Adaboost para seleccionar los clasificadores débiles (representados por las características rectangulares simples mencionadas anteriormente). El detector dinámico esta configurado de un modo similar, utilizando una combinación de características rectangulares tanto estáticas como así también de movimiento. Ambos detectores son rápidos y aportan buenos resultados en la detección, organizados en una amplia base de datos de peatones.

 

4.5 Sidenbladh (2004)

 Este informe se enfoca en los patrones de movimiento de seres humanos para la detección robusta ya que los mismos son relativamente independientes en apariencia y factores ambientales. Los autores también observan que es muy difícil para una persona camuflar el movimiento pero no tanto como cambiar de apariencia. La técnica se basa en la recolección de ejemplos del movimiento de seres humanos y no humanos como así también de la computación del flujo óptico. Una maquina de vectores de apoyo (Support Vector Machine) con una función kernel de base radial (RBF) es configurado con los patrones de flujo óptico para crear de este modo un clasificador humano. El clasificador resultante puede aplicarse a una nueva entrada de video en múltiples posiciones y escalas, seguido de una selección de las detecciones. El método no es recomendable para detectar personas parcialmente ocultas.

 

4.6 Dalal and Triggs (2005)

 La característica más importante de este método es que utiliza un histograma de gradientes como espacio característico para construir un clasificador. Utiliza el hecho de que la figura de un objeto puede ser representada correctamente por una distribución de gradientes de intensidad locales o de direcciones del margen. (edge directions). Esto se logra dividiendo la imagen en pequeñas partes espaciales (células) y encontrando los histogramas de orientaciones de borde a lo largo de todos los píxeles de la célula. Las entradas del histograma combinado forman la representación característica luego de la normalización del contraste local en bloques descriptores coincidentes. Los autores experimentan con distintas resoluciones y esquemas de normalización de orientación para obtener la máxima performance. Para la clasificación, se crea una base de datos con ejemplos de humanos y no humanos y se configura un clasificador lineal utilizando el SVM en las características del gradiente de histograma para las dos clases. Este clasificador puede utilizarse en una nueva imagen de entrada en distintas escalas para detectar personas.

 

5. Resumen

 Hemos discutido diferentes métodos desarrollados recientemente en todo lo respectivo a la detección de seres humanos por video. Los hemos organizado según las técnicas que utilizan la substracción de la imagen de fondo y aquellas que operan directamente sobre la entrada. En la primer categoría, hemos ordenado las técnicas según el tipo de substracción del fondo y el modelo utilizados para representar a un ser humano. En la segunda categoría, se las ha dividido en aquellas que se basan en el modelo humano y las que se basan en modelo de clasificación.

Parece haber una tendencia creciente en la literatura moderna hacia la utilización de métodos robustos que operan directamente en la imagen en lugar de aquellos que requieren de la substracción de la imagen de fondo como primer paso.