¿Qué es AIOps? Una guía para principiantes
Comprender AIOps para la observabilidad
La inteligencia artificial para operaciones de TI (o AIOps para abreviar) sigue siendo un tema candente entre los desarrolladores, los SRE y los profesionales de DevOps. El caso de AIOps es especialmente crucial dada la naturaleza expansiva de los esfuerzos de observabilidad de hoy en día en entornos híbridos y de múltiple cloud. Al igual que con la mayoría de las plataformas de observabilidad, todo comienza con sus datos de telemetría: métricas, logs, rastreos y eventos.
Una vez que los equipos de operaciones de TI recopilan y comienzan a analizar esos datos, el beneficio de AIOps se vuelve rápidamente claro. AIOps tiene como objetivo identificar de manera precisa y proactiva las áreas que necesitan atención y ayudar a los equipos de TI a resolver problemas más rápido. Como seres humanos, no podemos seguir analizando petabytes de datos de observabilidad sin procesar. Agregar AIOps ofrece una capa de inteligencia a través de analíticas y automatización para ayudar a reducir los gastos generales de un equipo. ¡Profundicemos para responder preguntas comunes sobre este tema crítico!
¿Qué es AIOps y cómo puede ayudarme?
En pocas palabras, AIOps es la capacidad de los sistemas de software para facilitar y ayudar a las operaciones de TI mediante el uso de IA/ML y tecnologías analíticas relacionadas. Las capacidades de AIOps se pueden aplicar a la ingesta y el procesamiento de diversos datos operativos, incluidos datos de logs, rastreos, métricas y mucho más.
Las definiciones y explicaciones de Gartner™, Forrester™ y otros buscan aclarar el a menudo turbio y confuso mundo de AIOps. AIOps puede ayudar a reducir significativamente el tiempo y el esfuerzo para detectar, comprender, investigar, determinar la causa principal y solucionar problemas e incidentes con mayor rapidez. Ahorrar tiempo durante la resolución de problemas puede, a su vez, ayudar al personal de TI a centrar más su energía en tareas y proyectos de mayor valor.
¿Por qué necesitas AIOps como parte de tu estrategia de observabilidad?
Desde iniciativas de transformación digital hasta migración al cloud y despliegues de aplicaciones distribuidas, híbridas o nativas del cloud, la dinámica del mercado está cambiando drásticamente el panorama de las operaciones de TI.
Los cambios en el panorama tienen las siguientes tres características:
- Volumen de datos: el volumen de datos para la observabilidad continúa aumentando de forma exponencial.
- Complejidad: las aplicaciones, las cargas de trabajo y los despliegues siguen siendo más complejos, efímeros y distribuidos.
- Ritmo de cambio: la velocidad a la que se producen los cambios (aplicación e infraestructura) es más rápida que nunca.
Estos no son mutuamente excluyentes. En cierto modo, todo lo contrario. Por ejemplo, las altas tasas de cambio y los despliegues complejos que utilizan el escalado automático significan un volumen de datos aún mayor. Esta creciente complejidad significa que los humanos dependerán cada vez más de los sistemas y la automatización para mantenerse al día con los cambios. Y AIOps juega un papel clave para responder a estos desafíos.
Aprovechar IA/ML para resumir y acumular datos, y clasificar de forma inteligente los datos para el almacenamiento puede ayudar a aliviar algunos de los desafíos de volumen. Las representaciones visuales claras del entorno de una aplicación, a través de la infraestructura y los mapas de dependencia del servicio, por ejemplo, y la navegación contextual ayudan a alinear los esfuerzos de resolución de problemas con la forma en que los usuarios piensan naturalmente sobre su despliegue. Además, la aparición automática de problemas y los análisis de causa principal abordarán algunos de los otros desafíos de complejidad.
Los productos de Observability deberán realizar un seguimiento de todos los cambios de aplicaciones e infraestructura y correlacionar esos cambios con el comportamiento del sistema y la experiencia del usuario, ya que el cambio suele ser la causa principal del comportamiento anómalo agudo. Un ejemplo típico es una actualización o un parche para una característica nueva con consecuencias no deseadas. Habilitar esas correlaciones ayuda a los equipos a ser más ágiles y hábiles para mantenerse al día con esos cambios frecuentes que ayudan a mantener el rendimiento del servicio.
Por lo tanto, AIOps juega un papel clave y, cuando se despliega y usa correctamente, puede ayudar a superar estos desafíos de manera efectiva, liberando a los equipos de operaciones para que se concentren en un trabajo más importante.
¿Qué casos de uso de observabilidad tienen mejor soporte de AIOps?
Varios flujos de trabajo y casos de uso de observabilidad ya están muy bien atendidos con la aplicación de técnicas y tecnologías AIOps, por ejemplo:
- La degradación del servicio, como variaciones repentinas o inesperadas en la latencia, se puede detectar mediante la detección de anomalías.
- Grandes volúmenes de datos, como mensajes de log no estructurados o semiestructurados, se pueden clasificar, categorizar y resumir automáticamente para ayudar a facilitar el consumo y el análisis.
- Múltiples síntomas, eventos y problemas se pueden correlacionar para ayudar a reducir el "ruido" de alerta y reducir el tiempo para determinar la causa principal.
- La puntuación de estado automática basada en la evaluación del impacto, el alcance de las anomalías y otras medidas ayudan a identificar primero los problemas más críticos, lo que reduce aún más el ruido.
En las relaciones "si este es el síntoma, entonces esta es la causa principal probable" mejor entendidas y comprobadas, AIOps puede ayudar a buscar, detectar y clasificar automáticamente esos síntomas y sacar a la luz las posibles causas principales. AIOps también puede habilitar acciones de remediación para solucionar problemas triviales o de rutina. En un blog futuro, profundizaremos en los casos de uso claves y cómo puedes identificar escenarios para aplicar AIOps en tus operaciones diarias.
¿Cómo impulsa AIOps el valor empresarial de una organización?
Al igual que con muchas iniciativas en TI y desarrollo de software, AIOps beneficia a una organización y un equipo de múltiples maneras. Si bien AIOps puede reducir significativamente el trabajo mundano y repetitivo requerido por las operaciones de TI (ITOps), la ingeniería de confiabilidad del sitio (SRE) y los equipos de DevOps, también hay importantes beneficios comerciales:
- Reducir el MTTD, MTTR (tiempo medio de detección y tiempo medio de resolución) significa menos tiempo de inactividad del servicio, SLA (Acuerdos de Nivel de Servicio) mejorados y una mejor experiencia del cliente.
- Ayudar a las organizaciones a lidiar con volúmenes de datos en rápido crecimiento de manera inteligente, reduciendo el costo total de propiedad (TCO) y aliviando los desafíos de escala.
- Reducir el ruido de las señales y las alertas e implementar una mejor automatización ayuda a liberar a los equipos de operaciones para que asuman iniciativas de mayor valor.
- Mejorar la capacidad de una organización para manejar la complejidad de TI cada vez mayor y el ritmo general de cambio, AIOps permite a las empresas aportar valor a los clientes con mayor rapidez y frecuencia.
Dado el volumen, la complejidad y el ritmo de cambio en los entornos de aplicaciones híbridos y nativos del cloud de la actualidad, AIOps está pasando cada vez más de ser una capacidad agradable de tener a una competencia de misión crítica para los equipos de operaciones de TI.
¿Cómo generas confianza en AIOps y lo preparas para la producción?
El personal de TI, los SRE y los ingenieros de DevOps tienen un par de obstáculos de adopción que deben superar para adoptar y utilizar con éxito AIOps para sus casos de uso de observabilidad.
Por un lado, existen desafíos significativos con las palabras de moda, y el mercado de AIOps tiene muchas palabras de moda. Los usuarios se enfrentan a preguntas como ¿cuál es el valor comercial más allá de esas palabras de moda? Y si AIOps los ayudará a detectar y remediar problemas mejor y más eficientemente que su configuración actual de monitoreo u observabilidad. Más allá de las palabras de moda y la exageración, es posible que los usuarios no siempre sepan si se beneficiarán de IA/ML para un caso de uso específico.
Y luego están los obstáculos de la confianza. Uno de esos obstáculos es la incapacidad de los usuarios para saber si los conocimientos basados en AIOps son precisos. Es posible que los usuarios ni siquiera sepan cuán completo es el análisis, la información utilizada, cómo funcionan los algoritmos, cómo se llega a las conclusiones o si esas conclusiones son relevantes para su investigación actual, lo que genera una desconfianza general en los sistemas AIOps de caja negra. En algunos casos, las presiones organizacionales o las políticas motivadas por la falta de confianza también pueden presentar barreras para la adopción de AIOps.
Nuestra experiencia ha demostrado que la mejor manera para que AIOps proporcione su valor es a través de su adopción lenta y constante. Primero, identifica casos de uso específicos, probados por el tiempo y comprobados para comenzar a adoptar AIOps como prueba de concepto (POC). Luego, habilita la funcionalidad AIOps en un subconjunto más pequeño de tu despliegue mientras se validan y socializan los beneficios y resultados en cada etapa. Una vez que hayas tenido cierto éxito, habilita gradualmente más funciones de AIOps con un movimiento hacia entornos de producción. Esta ruta de despliegue deliberada alivia algunos de los desafíos tradicionales asociados con el despliegue de nuevas tecnologías que, de lo contrario, pueden impedir la adopción generalizada de AIOps.
Probar y comprobar la eficacia de la tecnología en un laboratorio más pequeño o en un entorno que no sea de producción y medir y mostrar los resultados a la gerencia puede ayudar a aumentar la confianza y obtener aceptación antes de desplegar AIOps en un entorno de producción del mundo real. Dichas pruebas pueden descubrir otras brechas y requisitos, como datos faltantes o inconsistentes, cobertura superficial o almacenamiento o cómputo insuficiente. A medida que despliegues AIOps en producción, verifica si tu solución de Observability puede escalar sus características de manera adecuada y manejar las cargas de trabajo de tu empresa. Ciertas características de AIOps que funcionan bien en entornos de laboratorio o POC pueden tener dificultades para mantenerse al día con los requisitos a mayor escala que normalmente se encuentran en los entornos de producción.
¿Cómo puede la observabilidad aprovechar una IA y un machine learning más profundos más allá de las definiciones tradicionales de AIOps?
Todo comienza con los datos. Cuanto más completos y ricos sean los datos que están disponibles para analizar, más se puede hacer con esos datos mediante la aplicación de tecnologías de IA/ML. La aplicación avanzada de IA/ML puede ayudar a impulsar casos de uso adicionales, como la extracción de información comercial, la obtención de indicadores predictivos o líderes a través de múltiples señales o la definición y el despliegue de IA/ML completamente personalizados cuando surja la necesidad.
Un ejemplo del uso de IA/ML más allá de AIOps tradicional es el procesamiento de lenguaje natural (NLP). NLP ayuda con la categorización y clasificación de datos textuales. NLP es útil para casos de uso como el análisis de sentimientos que ayuda a medir el sentimiento del usuario vinculado a eventos como el lanzamiento de una nueva aplicación o actualizaciones importantes de características, complementando y mejorando la observabilidad.
Para una solución a la medida de los requisitos empresariales personalizados y específicos, los equipos de TI pueden decidir traer sus propios esquemas de modelado de ML para construir, entrenar, probar y desplegar en la producción. La salida de estos modelos se puede visualizar en reportes o dashboards customizados, lo que permite a las organizaciones de TI satisfacer necesidades especiales, únicas o específicas que no se satisfacen a través de capacidades listas para usar.
¿Qué casos de uso y tendencias podrá manejar AIOps en el futuro?
A medida que los datos hacen su viaje desde el punto de recopilación, la persistencia (equilibrio de la disponibilidad de datos, rendimiento con TCO), las analíticas hasta la visualización y remediación, AIOps seguirá jugando un papel importante en ese viaje.
A medida que los volúmenes de datos continúan aumentando, las analíticas asistidas por IA durante la recopilación de datos ayudarán a determinar qué datos son más significativos para recopilar y analizar. Ejecutar algoritmos de IA/ML en el borde de la recopilación también ayudará a resumir los datos en el punto de recopilación o cerca de él, distribuir la inteligencia de la IA y reducir el requisito de centralizar todas las analíticas. Los esquemas de clasificación y categorización decidirán dinámicamente si los datos entrantes se envían a niveles tibios o fríos para su almacenamiento, lo que optimiza el TCO. Las analíticas actuarán de forma independiente sobre múltiples señales y datos, detectando comportamientos anómalos y luego aislando rápidamente la causa principal. Y la automatización de la remediación se volverá autónoma para más casos de uso y escenarios a medida que la confianza del cliente comience a aumentar en la remediación automática. Los sistemas de Observability comenzarán a formar circuitos más cerrados; recopilando, almacenando y analizando datos, y detectando y remediando más incidentes automáticamente con cada vez menos intervención humana.
AIOps es importante para los equipos de DevOps en el mundo nativo del cloud actual
Al igual que con muchas tecnologías más nuevas, la definición de AIOps y sus beneficios continúa evolucionando. Incluir AIOps como parte de tu estrategia de observabilidad es parte de la respuesta natural a los datos, la complejidad y el ritmo de cambio cada vez mayores. Y cuando se implementa bien, AIOps puede generar un valor comercial significativo.
Sigue atento mientras profundizamos en los casos de uso comunes de AIOps para impulsar mejoras y eficiencias en un futuro blog.