Omicrono, la tecnología de El Español

La caída de parte de Amazon Web Services dejó a muchos usuarios sin poder acceder a sus páginas favoritas, pero ¿por qué ocurrió?

De repente, todo iba más lento. Algunas webs tardaban más en cargar, algunos elementos como imágenes no aparecían; eso si tenían suerte, ya que había otras webs como la de Trello que estaban completamente inaccesibles.

La caída de parte de Amazon Web Services deja sin acceso a webs y servicios

El error no estaba en un servidor, no era cosa de un único servicio; el problema estaba en Amazon, concretamente en su Amazon Web Services (AWS), que muchas compañías usan para sus webs y servicios.

AWS usa Amazon S3, un servicio “en la nube”, compuesto de una gran cantidad de servidores conectados entre si, capaces de responder a la demanda variable de los usuarios. De esta manera, no hay que dedicar un servidor a un servicio, por ejemplo, sino que es posible añadir más servidores dependiendo de la cantidad de peticiones.

AWS está dividido en 42 zonas de disponibilidad en 16 regiones de todo el mundo, por lo que si una zona no está disponible por cualquier motivo, no implica un error catastrófico. Pero el pasado 28 la cosa no fue tan bien.

El pasado martes fue la región del norte de Virginia en EEUU, con el nombre US-EAST-1, la que falló; y por eso las webs de las que se encargaba no estuvieron accesibles, al menos durante cuatro horas. Aunque una buena parte de los servicios que usan AWS no tuvieron ningún problema.

El error tipográfico que lo provocó todo

Hoy Amazon ha explicado los resultados de la investigación que inició después de este problema, y la verdad es que es una historia graciosa. Resulta que todo ocurrió por una errata en un comando, que terminó afectando a más servidores de los que inicialmente estaba planeado.

En la mañana del martes, los administradores de Amazon iniciaron un proceso de depuración en el sistema de facturación de S3. Para completar el proceso, tenían que desconectar un pequeño número de servidores de la red. Este tipo de trabajos de mantenimiento se realizan constantemente; el usuario final nunca nota la diferencia porque afecta a muy pocos servidores.

Por supuesto, estos administradores no suelen controlan los servidores con interfaces gráficas como las que usamos los mortales; suelen usar terminales de texto en las que usan comandos complejos y mucho más potentes.

El problema de usar comandos es que un pequeño error tipográfico puede cambiar completamente la orden. Eso es lo que ocurrió, el administrador se equivocó al escribir el comando; por lo que este afectó a muchos más servidores de los que estaba planeado.

Para agravar las cosas, los servidores que fueron desconectados sin querer eran los encargados de dos subsistemas S3; uno de ellos dedicado a los metadatos y la localización de todos los servidores S3 de la región. Así, de un plumazo, el pobre empleado había desconectado a toda una región.

El problema tardó tanto en solucionarse porque, una vez que el servidor se desconecta, tiene que realizar un reinicio completo; que requiere más tiempo y atención de los administradores.

Si trabajas con terminal, este es un recordatorio de que tienes que leer lo que has escrito antes de pulsar “Intro”.

Te puede interesar
2 de 11