¿Qué es la detección de anomalías?


La detección de anomalías y de outliers locales es un campo fascinante y cada vez más vital en la ciencia de datos y el aprendizaje automático. En su esencia, implica identificar patrones en los datos que se desvían de la norma: esos eventos raros o ejemplos de observaciones que destacan como inusuales.

En un mundo desbordante de datos basados en y recolectados de sensores locales, transacciones y comportamientos de usuarios, detectar estas anomalías y puntos atípicos puede significar la diferencia entre prevenir un ciberataque, detectar fraudes a tiempo o incluso salvar vidas en el monitoreo de la salud, y ese es el objetivo de la detección de anomalías.

illus-solutions-government

Este artículo ofrece una mirada en profundidad a los modelos de detección de anomalías basados en conjuntos, explicando qué son, cuándo y por qué se utilizan. Cubre definiciones clave, métodos para identificar outliers, aplicaciones prácticas, desafíos comunes y cómo empresas como OVHcloud están utilizando la detección de anomalías. Ya seas un entusiasta de los datos, un líder empresarial o simplemente tengas curiosidad sobre cómo un modelo y la tecnología mantienen nuestras vidas digitales seguras todo el tiempo, entender la detección de anomalías y outliers abre una ventana a los sistemas inteligentes que están dando forma a nuestro futuro.

A medida que navegamos a través de vastos conjuntos de datos locales con detección de anomalías o outliers en industrias que van desde las finanzas hasta los negocios de fabricación, la detección de anomalías actúa como un guardián silencioso. No solo señala problemas; descubre insights ocultos que pueden impulsar la innovación. Imagina un sistema que detecta automáticamente un defecto de fabricación antes de que detenga la producción o identifica un tráfico de red inusual que señala una posible brecha al detectar un evento atípico. Estas capacidades métricas no están establecidas como ciencia ficción; son realidades cotidianas impulsadas por algoritmos sofisticados y un poder computacional creciente. En las secciones siguientes, desglosaremos la detección de anomalías paso a paso, construyendo una imagen completa de esta tecnología esencial.

Definición de Detección de Anomalías

La detección de anomalías, a menudo referida como detección de outliers en un rango, es el proceso de identificar puntos de datos, eventos u observaciones atípicas que se desvían significativamente - un outlier - de la mayoría de los datos. Estas desviaciones, o anomalías, pueden indicar incidentes críticos como errores, fraudes o descubrimientos novedosos.

En términos estadísticos, una anomalía o outlier local es algo que cae fuera de la distribución esperada de un conjunto de datos. Por ejemplo, en un conjunto de lecturas de temperatura de una máquina, la mayoría de los valores pueden agruparse alrededor de 50°C, pero un repentino aumento a 100°C sería señalado como un ejemplo anómalo y sería un claro outlier.

Para formalizar este ejemplo métrico, las anomalías pueden categorizarse en tres modelos principales de ejemplo: anomalías puntuales, anomalías de series contextuales y anomalías colectivas. Las anomalías puntuales son instancias únicas que difieren del resto, como una transacción de tarjeta de crédito local fraudulenta en medio de compras normales. Las anomalías contextuales dependen del contexto; por ejemplo, una lectura de serie de temperatura alta puede ser normal en un rango de estacionalidad de verano pero anómala en un uso de estacionalidad de invierno. Las anomalías colectivas involucran un grupo de puntos de datos que juntos se desvían de la norma, como una serie de paquetes de red que, al ser vistos colectivamente, sugieren un alto puntaje de ataque distribuido de denegación de servicio.

Un concepto establecido

El concepto no es nuevo; se remonta a los primeros métodos de series estadísticas establecidos en el siglo XIX, pero ha explotado en relevancia con la llegada de los grandes datos y la IA. Hoy en día, la detección de anomalías o valores atípicos es integral en las tuberías de aprendizaje automático, donde los modelos de ejemplo aprenden de datos históricos para predecir cómo se ve lo "normal" y alertar sobre cualquier cosa que no encaje. Este aprendizaje puede ser supervisado, donde utilizamos un modelo de datos con valores etiquetados para entrenar el modelo sobre anomalías conocidas, o no supervisado, donde el entrenamiento del sistema identifica valores atípicos sin ejemplos previos. Los enfoques semi-supervisados combinan los dos, utilizando datos normales para construir un modelo y luego detectar desviaciones.

Entender la métrica y la definición también requiere comprender las métricas clave de series. La precisión y el recall son cruciales: la precisión mide cuántas anomalías señaladas son realmente anómalas, mientras que un modelo de recall indica cuántas anomalías reales (valores atípicos) fueron capturadas. El F1-score equilibra estos, proporcionando una única medida de la efectividad del uso. En la práctica, definir lo "normal" es subjetivo y específico del dominio; lo que es anómalo en un contexto puede ser rutinario en otro. Esta subjetividad subraya la importancia de seguir la experiencia del dominio en el establecimiento de umbrales e interpretación de resultados.

Además, un modelo de entrenamiento de detección de anomalías no se trata solo de señalar valores atípicos; se trata de seguir y entender por qué ocurren. El análisis de causa raíz a menudo sigue la detección una y otra vez, ayudando a las organizaciones no solo a reaccionar, sino también a prevenir problemas futuros. En esencia, la detección de anomalías transforma datos en bruto en inteligencia procesable, cerrando la brecha entre la recolección de datos y la toma de decisiones.

Técnicas y Algoritmos para la Detección de Anomalías

Profundizar en las técnicas y algoritmos para la detección de anomalías y valores atípicos revela un rico conjunto extraído de estadísticas, aprendizaje automático e incluso aprendizaje profundo. Estos métodos métricos varían en complejidad de detección de anomalías, desde enfoques estadísticos simples hasta el uso de redes neuronales avanzadas, cada uno adecuado para diferentes tipos de datos y escenarios.

  • Estadísticas estándar: Comenzando con métodos de series estadísticas locales y un modelo, una de las técnicas de modelo fundamentales es el Z-score, que mide y utiliza cuántas desviaciones estándar un punto de datos está de la media. Si el Z-score de un punto excede un umbral, digamos 3, se considera anómalo. Este valor funciona bien para datos univariantes con una distribución normal, pero falla con distribuciones sesgadas o multimodales. Otra joya estadística es la prueba de Grubbs, que detecta valores atípicos en un conjunto de datos univariantes asumiendo normalidad y eliminando iterativamente los valores más extremos.
     
  • Machine learning Pasando al aprendizaje automático para la detección de anomalías, los bosques de aislamiento destacan por su eficiencia. Este método de conjunto aísla anomalías al particionar aleatoriamente los datos; las anomalías requieren menos particiones para aislarse, lo que las hace detectables rápidamente. Es particularmente útil cada vez para datos de alta dimensión y se adapta bien a grandes conjuntos de datos. De manera similar, las máquinas de soporte vectorial de una clase (SVM) aprenden un límite alrededor de los puntos de series de datos normales, clasificando cualquier cosa fuera de este como anómala. Esto es ideal para escenarios con abundantes datos normales pero pocas anomalías.
     
  • Herramientas de agrupamiento: Los enfoques basados en agrupamiento, como DBSCAN (Agrupamiento Espacial Basado en Densidad de Aplicaciones con Ruido), agrupan puntos de datos de modelo similares y etiquetan los aislados como valores atípicos. El agrupamiento K-means también se puede adaptar midiendo distancias a los centroides de los grupos; los puntos lejanos de cualquier centroide son potenciales anomalías de uso. Estos métodos sobresalen en entornos no supervisados donde no hay datos etiquetados disponibles.
     
  • Deep learning En el ámbito del modelo de aprendizaje profundo, los autoencoders son potentes para la detección de anomalías a través de una serie métrica. Estas redes neuronales comprimen datos en una representación de menor dimensión y luego la reconstruyen cada vez; altos errores de reconstrucción indican anomalías. Los autoencoders variacionales utilizan un giro probabilístico, modelado de datos distribuciones de manera más robusta. Para datos de series temporales, las redes neuronales recurrentes (RNN) como LSTMs (Memoria a Largo Plazo) capturan dependencias temporales, prediciendo valores futuros y señalando grandes errores de predicción como anomalías.

Las técnicas de detección de anomalías híbridas combinan las fortalezas de los modelos de entrenamiento, como el uso de métodos estadísticos para el filtrado inicial y el aprendizaje automático para el refinamiento. Los métodos de conjunto, como combinar múltiples detectores, mejoran la robustez al votar sobre las anomalías. La ingeniería de características también juega un papel crucial: transformar datos en bruto en características significativas puede aumentar significativamente la precisión de la detección.

Al elegir y entrenar un algoritmo, considera factores de entrenamiento de puntuación como el volumen de datos, la dimensionalidad y la necesidad de procesamiento en tiempo real para tu algoritmo. Para datos en streaming, los algoritmos en línea que actualizan modelos de manera incremental son preferibles como elección de algoritmo. La evaluación de un algoritmo a menudo implica curvas ROC, trazando tasas de verdaderos positivos frente a tasas de falsos positivos para evaluar el rendimiento a través de los umbrales del algoritmo.

Los avances en algoritmos y modelos de IA explicables están haciendo que estas técnicas sean más transparentes cada vez, ayudando a los usuarios a entender por qué un punto fue marcado por un modelo. A medida que los datos se vuelven más complejos, las técnicas evolucionan, incorporando métodos de detección de anomalías basados en gráficos para datos en red o aprendizaje federado para la detección que preserva la privacidad.

Aplicaciones de la Detección de Anomalías en la Vida Real

La detección de anomalías no se limita a la teoría cada vez; está entrelazada en el tejido de la vida moderna, impulsando aplicaciones en diversos sectores. En finanzas, es una defensa de primera línea contra el fraude. Los bancos lo utilizan para la formación y detección de anomalías en transacciones en tiempo real; una compra en un país extranjero poco después de una en casa podría activar una alerta, previniendo accesos no autorizados. Las compañías de tarjetas de crédito emplean modelos de aprendizaje automático para analizar patrones de gasto como parte de su algoritmo, marcando desviaciones que podrían indicar tarjetas robadas.

  • Sector de la salud En el cuidado de la salud, una serie de puntuaciones de detección de anomalías salva vidas al identificar latidos irregulares en datos de ECG o patrones inusuales en los signos vitales de los pacientes. Dispositivos portátiles como rastreadores de fitness lo utilizan para detectar caídas o niveles de actividad anormales, alertando a los cuidadores. Durante pandemias, ayuda a rastrear brotes de enfermedades al detectar picos en informes de síntomas o admisiones hospitalarias.
     
  • Sector industrial La fabricación se beneficia a través de elecciones de algoritmos y modelos de mantenimiento predictivo. Los sensores en las máquinas detectan anomalías en la vibración, temperatura o sonido, prediciendo fallos antes de que ocurran. Esto minimiza el tiempo de inactividad y reduce costos; piensa en una aerolínea usándolo para monitorear motores de jets, asegurando vuelos seguros.
     
  • Seguridad: La ciberseguridad depende en gran medida de las elecciones de modelos de detección de anomalías para identificar amenazas como parte de un algoritmo fiable. Los sistemas de detección de intrusiones analizan el tráfico de la red en busca de patrones inusuales, como la exfiltración repentina de datos o intentos de inicio de sesión anormales. Distingue entre anomalías benignas, como un usuario trabajando tarde, y maliciosas, como un hacker sondeando vulnerabilidades.
     
  • Comercio En el comercio electrónico, un modelo de detección de anomalías mejora la experiencia del usuario cada vez al detectar reseñas falsas o comportamientos de compra inusuales que podrían indicar bots. Los sistemas de recomendación lo utilizan para filtrar el ruido, mejorando la personalización. El monitoreo ambiental emplea la detección de anomalías para detectar picos de contaminación o precursores de actividad sísmica, ayudando en la respuesta a desastres.
     
  • Transporte Los sectores de transporte utilizan la puntuación de probabilidad de valores atípicos para la gestión del tráfico, identificando accidentes o congestión a través de datos de sensores. Los vehículos autónomos dependen de ello para detectar obstáculos o comportamientos erráticos de los conductores. En las redes eléctricas, supervisa fallos o ineficiencias, asegurando un suministro de energía estable.
     
  • Redes sociales: Las plataformas de redes sociales aplican la detección de anomalías para combatir la desinformación y el spam, señalando cuentas con aumentos repentinos de seguidores o patrones de publicación atípicos. En la agricultura, las imágenes de drones analizan la salud de los cultivos, detectando anomalías como brotes de enfermedades temprano.

Estas aplicaciones destacan la versatilidad de la detección de anomalías, convirtiendo crisis potenciales en eventos manejables y descubriendo oportunidades para la optimización.

Desafíos en la Detección de Anomalías

A pesar de su potencia, la detección de anomalías enfrenta varios desafíos que pueden complicar la implementación y la efectividad de la puntuación. Un gran obstáculo es la falta de datos etiquetados. Las anomalías son raras por naturaleza, lo que dificulta el entrenamiento de modelos supervisados. Los métodos no supervisados ayudan, pero corren el riesgo de falsos positivos altos, señalando variaciones normales como anomalías.

El desequilibrio de datos agrava esto: los datos normales superan con creces a las anomalías, sesgando el entrenamiento de IA. Técnicas como el sobremuestreo de anomalías o el submuestreo de normales intentan equilibrar esto, pero pueden introducir sesgos.

Los datos de alta dimensión plantean otro desafío para un algoritmo, conocido como la maldición de la dimensionalidad de características. A medida que aumentan las características, las distancias se vuelven menos significativas, haciendo que los valores atípicos sean más difíciles de detectar. Los métodos de reducción de dimensionalidad como PCA (Análisis de Componentes Principales) mitigan esto, pero pueden perder información importante de las características. Otras preocupaciones incluyen:

  • El cambio de concepto es un problema sigiloso: lo que constituye "normal" puede cambiar el entrenamiento con el tiempo debido a comportamientos o entornos en evolución. Los modelos deben adaptarse, quizás a través del aprendizaje en línea y aprendizaje por refuerzo, para evitar volverse obsoletos.
     
  • Los falsos positivos y negativos son problemas persistentes. Demasiadas falsas alarmas conducen a la fatiga de alertas, donde los usuarios ignoran las advertencias, mientras que las omisiones pueden tener graves consecuencias. Ajustar los umbrales requiere una calibración cuidadosa, a menudo involucrando a expertos en el dominio.
     
  • La interpretabilidad es crucial pero desafiante como métrica. Los modelos de caja negra como las redes neuronales profundas detectan anomalías de manera efectiva pero luchan por explicar por qué la métrica dice lo que dice, lo que obstaculiza la confianza y el cumplimiento normativo. Las técnicas de IA explicable, como los valores SHAP, están surgiendo para abordar esto.
     
  • La escalabilidad para grandes datos y aplicaciones en tiempo real exige algoritmos de características eficientes que procesen flujos sin retrasos. Las preocupaciones de privacidad surgen al tratar con datos sensibles, lo que requiere enfoques de privacidad federada o diferencial.
     
  • El ruido en los datos puede enmascarar verdaderas anomalías o crear falsas, requiriendo un preprocesamiento robusto. Los datos multimodales, que combinan texto, imágenes y números, añaden complejidad, necesitando modelos integrados.

Finalmente, evaluar el rendimiento es complicado sin una verdad de base. Métricas como las curvas de precisión-recall ayudan, pero la validación en el mundo real a menudo depende de la revisión de expertos.

Superar estos desafíos de puntuación de características requiere esfuerzos interdisciplinarios en modelos, combinando avances en IA con conocimiento práctico del dominio.

OVHcloud y Detección de Anomalías

OVHcloud integra la formación en detección de anomalías en nuestros servicios para mejorar la seguridad, el rendimiento y la fiabilidad. Conocido por nuestra infraestructura escalable y compromiso con la soberanía de datos, OVHcloud utiliza la formación y la detección de anomalías para monitorear vastas redes y detectar amenazas proactivamente.

Las ofertas de IA y aprendizaje automático de OVHcloud, incluyendo nuestras instancias de Nube Pública, apoyan las cargas de trabajo de detección de anomalías.

Nuestro énfasis en soluciones de nube sostenibles y soberanas, incluyendo para inferencia de IA, nos posiciona como una opción para empresas que necesitan detección de anomalías confiable para identificar problemas sin comprometer la privacidad. Los servicios centrales que vale la pena considerar incluyen:

Public Cloud Icon

Servicios de Cloud Analytics

Desbloquea el poder de tus datos con los Servicios de Análisis en la Nube de OVHcloud. Nuestra completa suite de herramientas te permite recopilar, procesar, almacenar y visualizar tus datos de manera eficiente. Diseñado para una integración y escalabilidad sin problemas, Cloud Analytics te ayuda a transformar datos en bruto en información procesable, impulsando decisiones más inteligentes para tu negocio.

Hosted Private cloud Icon

AI Training

Acelera tus proyectos de inteligencia artificial con la Formación de IA de OVHcloud. Nuestra infraestructura robusta y escalable proporciona la potencia computacional que necesitas para entrenar tus modelos de aprendizaje automático de manera rápida y efectiva. Con un enfoque en el rendimiento y la flexibilidad, la Formación de IA admite una amplia gama de marcos y herramientas de IA, ayudándote a dar vida a tus soluciones innovadoras de IA más rápidamente.

Bare MetaL Icon

Data Platform

Construye una base sólida para tus iniciativas basadas en datos con la Plataforma de Datos de OVHcloud. Esta plataforma unificada y segura ofrece un ecosistema completo para gestionar el ciclo de vida de tus datos, desde la ingesta y el almacenamiento hasta el procesamiento y el análisis. Con un enfoque en la apertura y la reversibilidad, nuestra Plataforma de Datos asegura que mantengas el control total sobre tus datos mientras aprovechas el poder de un entorno en la nube altamente disponible y escalable.