El lunes, millones de usuarios de Internet recibieron una dolorosa respuesta a una pregunta que pocos sabían que existía. La pregunta era: ¿Qué tienen en común Snapchat, Roblox, Fortnite, Signal, United y Delta Airlines y muchos otros sitios y servicios web?
La respuesta es: todos fueron derribados por una falla en cascada en un centro de datos en el norte de Virginia, propiedad y operado por Amazon Web Services, una rama de la gigante empresa de comercio electrónico.
AWS es una de las tres principales plataformas en la nube, lo que significa que mantiene los datos de sus clientes en sus propios servidores y gestiona la transferencia y transmisión de esos datos dentro de las empresas de los clientes y entre estas y los usuarios finales.
Diseñe para el fracaso (porque sucederá).
– Lydia Leong, Gartner
Cuando el centro de datos de AWS en el norte de Virginia dejó de funcionar pocos minutos antes de la medianoche del domingo, hora de verano del Pacífico, 141 servicios de AWS se apagaron, junto con las empresas clientes que dependen del centro, lo que produjo una cascada de interrupciones que afectaron a usuarios de todo el mundo. Los usuarios de los dispositivos de seguridad para el hogar Ring de Amazon, como los timbres con video, se vieron afectados.
Amazon no afirmó que el problema se había solucionado hasta 3:53 p.m. PDT del lunesaunque algunos clientes seguían informando problemas hasta el martes.
El daño a los clientes de AWS y sus millones de usuarios es incalculable. Como informó mi colega Queenie Wong, los usuarios de la web no pudieron acceder a sus servicios o cuentas. Los clientes de algunos bancos, así como de la correduría web Robinhood, no pudieron completar las transacciones. Pasajeros de Delta y United no han podido realizar un seguimiento de las reservas, realizar el check-in en línea ni recuperar las asignaciones de asientos; Los empleados de las aerolíneas se vieron obligados a recurrir a alternativas manuales, como en tiempos prehistóricos (es decir, anteriores a Internet).
Los propietarios de fundas de colchones Eight Sleep, que cuestan miles de dólares y requieren una tarifa anual de entre 300 y 400 dólares, utilizan una aplicación web para ajustar la temperatura y la inclinación, han informado que se quedan atrapados en posiciones incómodas y se asfixian con un calor incontrolable. El director ejecutivo de la empresa emitió una disculpa en línea y dijo que Eight Sleep implementaría una función que permitiría a los propietarios conectarse a sus camas a través de bluetooth si fallara la conexión a Internet.
La interrupción seguramente generará dudas sobre si Amazon y sus pares de las grandes tecnologías están monitoreando sus sistemas con el rigor necesario para servicios cruciales con una huella global. Como dicen los abogados, “res ipsa loquitur” – “la cosa habla por sí sola”. La respuesta que da es “no”.
En los viejos tiempos, cuando el “servicio telefónico simple” o POTS estaba completamente bajo el control de una sola empresa, AT&T, el compromiso de la empresa era la confiabilidad “cinco nueve”, lo que significaba que funcionaba el 99,999% del tiempo, o toleraba no más de aproximadamente 5,26 minutos de tiempo de inactividad por año. Debido a que los sistemas AWS estuvieron inactivos esta semana durante al menos 15 horas, o 900 minutos, efectivamente destruyó ese estándar.
El estándar cinco-nueve reflejaba la creencia de que el servicio telefónico era demasiado importante como para no estar, de hecho, siempre activo. Los proveedores actuales de servicios de alta tecnología a menudo parecen adoptar la actitud de que lo suficientemente bueno debería serlo para cualquiera.
Como señalé el año pasado, algunas de las empresas más ricas de la actualidad se están embolsando miles de millones de dólares en ganancias pero no gastan lo suficiente para proteger los datos personales privados de sus clientes de los piratas informáticos; por ejemplo, AT&T, que registró una ganancia antes de impuestos de 16.700 millones de dólares el año pasado, fue tan descuidada a la hora de proteger la información privada de sus clientes que los datos de casi todos esos millones de usuarios terminaron en manos de 110 millones. Hackers “motivados financieramente”..
Hasta ahora, Amazon ha afirmado de manera convincente que su interrupción no fue causada por piratas informáticos u otros actores hostiles. Provino enteramente del interior de la casa, por así decirlo.
Para mantener las bromas técnicas al mínimo, digamos que algo salió mal en su sistema de nombres de dominio, lo que permite que el sistema traduzca la dirección web que escribe en su navegador para comunicarse con el sitio web. La confusión tecnológica se extendió por toda la estructura de AWS, lo que provocó problemas en el sitio web y en los fines del usuario. Amazon dice que eventualmente proporcionará un “resumen posterior al evento” que identifique la causa de la interrupción.
Amazon claramente merece la mayor parte de la culpa por el fiasco. Algunos observadores de Amazon han especulado que el problema podría estar relacionado con los despidos masivos que la compañía implementó este verano en su unidad de computación en la nube, y que supuestamente los empleos fueron reemplazados por inteligencia artificial. La empresa confirmó los despidos pero no dijo cuántos empleos se eliminaron; Reuters informó que lo hizo en cientos
Amazon rechaza las especulaciones de que la interrupción esté relacionada con los despidos. Un portavoz me señaló una entrevista en la que el director ejecutivo de AWS, Matt Garman, menospreció la idea de reemplazar el personal de nivel básico con robots de inteligencia artificial, calificándola de “una de las cosas más tontas que he escuchado”. Dicho esto, no está claro quién fue despedido de la unidad de la nube.
Algunos expertos en tecnología han estado advirtiendo durante años acerca de que los operadores de sitios web no tienen un Plan B a mano para exactamente el tipo de interrupción que ocurrió esta semana. AWS no es la única plataforma en la nube que existe. Microsoft y Google son los otros miembros de los tres primeros.
Los usuarios de AWS tampoco se ven obligados a depender del centro de datos de la empresa en el norte de Virginia. AWS tiene centros de datos en todo el país y recomendó a los usuarios cambiar a cualquiera de los otros, pero con el centro de Virginia fuera de servicio, los usuarios no tuvieron suerte si no habían implementado una solución alternativa antes de este problema.
Los departamentos de TI deberían “diseñar para el fracaso (porque sucederá)Lydia Leong, de la consultora tecnológica Gartner, advirtió esta semana. “Las aplicaciones modernas nativas de la nube deben distribuir cargas de trabajo en múltiples zonas de disponibilidad y estar preparadas para moverse rápidamente a otra región cuando sea necesario”, escribió Leong, lo que significa que deben configurarse para mover automáticamente sus datos fuera de los puntos problemáticos. “No se trata de eliminar el riesgo; se trata de reducir el radio de la explosión y el tiempo de recuperación”.
Este problema puede ser un artefacto de la historia de Internet, como señaló Jorg Dekker, de la empresa matriz de Internet, Arelion. Internet fue diseñado como un sistema neutral que confía en que todos los datos que fluyen a través de sus redes conectadas son, bueno, confiables. “Esto significa que asume todo las actualizaciones son válidasuna red puede anunciar lo que quiera y no se pueden comprobar los recursos disponibles”, señaló.
Los diseñadores de redes originales abordaron esta imperfección permitiendo que la red alejara los datos de puntos muertos u otros problemas. “La forma en que Internet evita los daños” es el mantra, pero eso no siempre funciona, especialmente cuando el daño está en la funcionalidad principal. Y a veces no se puede confiar en las actualizaciones confiables.
Este fue el caso de la interrupción de CrowdStrike el año pasado. Una actualización del programa mal diseñada implementado por la empresa de ciberseguridad e instalado automáticamente en las máquinas de los usuarios, bloqueó instantáneamente millones de computadoras que ejecutaban programas de Microsoft y las dejó deshabilitadas hasta que se pudieran realizar correcciones manuales.
La aplicación maliciosa CrowdStrike estaba tan profundamente enterrada dentro del sistema operativo de Microsoft, como está diseñada, que cada vez que se reiniciaba una máquina, encontraba el mismo error y volvía a morir en un bucle interminable de fatalidad. Como escribí en ese momento: “Se cancelaron miles de vuelos. Los médicos no pudieron realizar cirugías. Se congelaron las transacciones bancarias. Las líneas del 911 quedaron en silencio”.
Sin duda, hay ventajas en poner los pilares cruciales de Internet bajo el control de tres de las empresas tecnológicas más ricas del mundo. Después de todo, tienen los recursos financieros para mantener la calidad y la confiabilidad. Lo malo es que sus sistemas funcionan perfectamente hasta el momento en que dejan de funcionar; ahí es cuando la dependencia global de unos pocos grandes operadores se convierte en un colapso global.
La característica ineludible de la vida moderna es que, cada vez más, nadie que viva en el mundo moderno tiene ningún lugar donde esconderse de los errores de los servicios web. No es sólo que nuestras llamadas telefónicas de voz y datos, correos electrónicos y entretenimiento de vídeo lleguen a través de la web, sino que algunos dispositivos requieren una conexión a Internet para funcionar.
No puedo ajustar el modo de cancelación de ruido de mis auriculares Bose excepto a través de una aplicación de teléfono; Lo mismo ocurre con mi cafetera ultraelegante de vertido automático y mi taza de café autocalentable. El otro día, cuando intentaba agregar una línea a mi cuenta familiar de T-Mobile, T-Mobile insistió en que cargara una aplicación de T-mobile en mi iPhone (no T-Mobile) para completar el trato, y yo estaba sentado en una tienda de T-mobile con un representante de T-mobile en ese momento.
Sin embargo, cada vez se comercializan más dispositivos con capacidades innecesarias de Internet, lo que refleja el nirvana del Internet de las cosas lanzado por los desarrolladores web y los fabricantes de electrodomésticos. Una buena regla general podría ser que si su refrigerador o estufa no necesita una conexión a Internet para funcionar, no los conecte. De esa manera, no se convertirá en un ladrillo cerebral debido a un error humano en algún lugar del norte de Virginia.
La conectividad web nos ha aportado beneficios inimaginables incluso a principios del siglo más reciente. Pero como ocurre con todo, los beneficios conllevan cargas. Unas pocas líneas de código renegado pueden marcar nuestra vida en el siglo XXI en el mundo de los años cincuenta o sesenta.
En aquel entonces, cuando nuestros electrodomésticos eran mecánicos o eléctricos, no electrónicos, un mal funcionamiento era fácil de diagnosticar y solucionar: cambiar un tubo de vacío o apretar un tornillo. Hoy en día, si tu televisor se apaga y no puedes obtener HBO Max, no tienes idea de dónde está el problema: dentro del televisor, en tu decodificador de cable o con HBO Max.
Sólo hay que esperar a que alguien lo arregle, con la esperanza de que el problema no esté sólo en su casa o vecindario, sino que esté lo suficientemente extendido como para que los proveedores de servicios se den cuenta y desplieguen un camión. Todos vivimos en un acto de equilibrio: la tecnología actual es excelente cuando funciona. Cuando no lo hace, estamos solos. Hay una lección ahí en alguna parte.