Internacional. El uso de IA en videovigilancia suele acompañarse del término “Machine Learning” o “Deep Learning”, diferenciarlos puede resultar complejo, pues ambos describen métodos de programación en los que un sistema aprende a partir de un conjunto de datos.
El texto “Entender la IA en el video vigilancia. Aplicar la inteligencia humana a los programas informáticos” escrito por Brian Carle, director de alianzas estratégicas de Salient Systems, aborda justamente la diferencia entre ambos conceptos, teniendo en cuenta su aplicación para la analítica de video.
En el documento se expone que, en el caso del Machine Learning los atributos de los datos que busca un sistema suelen estar preestablecidos, o corregidos, por programadores humanos. Por ejemplo, el sistema puede ser programado para delinear un objeto que es más alto que ancho, con extremidades que se mueven de manera específica, entre otras características, y etiquetar este objeto como "persona".

Ahora bien, en ese sentido en el Machine Learning puede pasar que los programadores pueden no reconocer los criterios más relevantes. Entonces, retomando el ejemplo, si se utiliza el algoritmo descrito para identificar a una persona, es posible que una persona sentada e inmóvil no provoque una detección precisa.
En cambio, con el Deep Learning (que se considera superior), los algoritmos de análisis de vídeo se alimentan de un amplio conjunto de datos que representan un objeto. Esta alimentación se conoce comúnmente como entrenamiento, el cual consiste en un tiempo que se dedica a que el algoritmo se entrene para reconocer un tipo de objeto.
Volviendo al ejemplo, en este caso el sistema recibe miles de imágenes de personas de diferentes géneros, estilos de ropa, orígenes étnicos y posiciones físicas de imágenes tomadas en diferentes ángulos, entre otras variedades de características.

De esta forma el algoritmo podrá determinar qué atributos son similares y cuáles no. En ese sentido el Deep Learning, también conocido como aprendizaje profundo establece cómo ponderar la relevancia de las características, de cierta forma posee un criterio de selección formado gracias a ese amplio y profundo conocimiento.
Entonces, como expone el texto de Salient Systems, luego de analizar miles de imágenes, el algoritmo puede calcular dónde se ubica la nariz en una foto de cara, más allá solamente de una ubicación promedio, si no como un conjunto también relación con los demás elementos, como ojos y boca. “De hecho, el algoritmo puede haber identificado muchas otras características de esta tipología en las que las personas no pensaríamos”.
En ese orden de ideas podemos concluir que para la analítica de video, especialmente para la videovigilancia, el Deep Learning es la mejor alternativa, pues los desarrolladores del software se encargan entrenan el sistema antes de que lo utilice un consumidor.
Proceso de entrenamiento del Deep Learning
Este es un proceso que requiere una gran cantidad de potencia de cálculo, mucho más de lo que se necesita para detectar y clasificar objetos. Los registros deben ser cuantiosos y entre más variados mejor. El resultado es un archivo complejo al que el sistema hace referencia para determinar si un objeto detectado coincide con la clasificación.
Finalmente, el texto asegura que: “Dado que el proceso de aprendizaje profundo utiliza la máquina para determinar las características de los objetos, se ha dado lugar a análisis que pueden proporcionar una clasificación mucho más granular. Por ejemplo, los enfoques más antiguos pueden ser detectar una persona, pero los análisis basados en Deep Learning pueden detectar si la persona es un hombre mujer o niño”.
En conclusión, esta tecnología permite detectar con mayor precisión las características asociadas a un individuo, así como el tipo vehículo o la información en la placa, aunque varíe el tipo de letra.

