Como seguro se habrán enterado, el pasado martes 28 de febrero internet registró uno de esos grandes fallos que terminó afectando gran parte de las webs, servicios y aplicaciones que usamos diariamente. Esto se debió a una caída del servicio S3 (Simple Storage Service) de Amazon Web Services (AWS), uno de los más grandes de internet y donde compañías como Hootsuite, Twitch, Airbnb, Giphy, Trello, IFTTT, y otras más están alojadas.
Después de la afectación que duró casi cinco horas, hoy 48 horas después Amazon nos informa qué fue lo que pasó. La compañía está publicando un informe donde explica el origen del fallo, donde se confirma que no fue un ataque como muchos pensaban, sino un "simple" error humano.
Errores humanos y la fragilidad de la red
Todo comenzó cuando la mañana del martes algunos miembros del equipo de Amazon S3 estaban depurando el sistema de facturación, lo que consistía en apagar algunos servidores. Un miembro autorizado del equipo ejecutó un comando de acuerdo a lo establecido en el manual, desafortunadamente, una de las entradas del comando se ingresó de forma errónea y terminó deshabilitando un conjunto de servidores más grande de lo previsto.
De entre los servidores que se dejaron offline se encontraban dos importantes subsistemas que dan soporte a S3, uno de ellos es responsable de gestionar los metadatos y la información de localización de todos los objetos S3 de la región. Subsistema que al no estar operativo no se podían realizar tareas básicas de recuperación y almacenamiento de datos.

Al descubrirse el error, el siguiente paso era reiniciar todo el sistema, algo que tomó más tiempo del esperado. Mientras ocurría todo esto, otros sistemas web de AWS dejaron de funcionar, como Elastic Compute Cloud (EC2) que es usado para que las compañías amplíen su almacenamiento en la nube. Y es que la mala noticia es que muchos de los propios servicios de AWS están enlazados a los servicios S3, como el dashboard, que durante el fallo mostraba que todos los servicios estaban funcionando bien, cuando era claro que no era así.
Según Amazon, el reinicio tardó mucho más de lo que se esperaba debido a que muchos de los servidores nunca habían sido reiniciados, y a pesar de que S3 está diseñado para trabajar con la pérdida de algunos servidores, la caída de los subsistemas afectó el desempeño de forma importante. La compañía asegura que este error ha servido para ajustar los protocolos y hacer cambios, como una depuración periódica de forma programada; ahora los ingenieros no podrán no tendrán la capacidad de desactivar servidores; y el dashboard será un sistema independiente al S3.
Ante todo esto, sería interesante saber cuál ha sido el destino del ingeniero, ya que un fallo de este calibre es grave, pero al final hizo todo lo que estaba en el manual. Lo que es importante destacar, es que en plena época de inteligencia artificial, robots y tecnología, la red sigue siendo frágil y más cuando existen fallos humanos.
Más información | Amazon Web Services
En Xataka | No, no es que tu conexión vaya mal, es que medio Internet está fallando tras una caída en Amazon S3
Ver 40 comentarios
40 comentarios
bangalter
"Un typo". Yo pensando que me iban a explicar que había fallado una rutina, un servicio, algún programa o algo, y resulta que un typo es... "un tipo". Ingresais una pasta en publicidad a costa de lectores como yo. Sed mas rigurosos
whisper5
Es muy fácil mirar para otro lado aduciendo que todo ha sido un error humano, y así engañarse. Lo cierto es que la arquitectura de computación que utilizamos es muy frágil, como lo vamos viendo cada vez más, y no se investiga lo suficiente para sustituirla.
La última actualización de macOS tiene un fallo descomunal en la comunicación Bluetooth que hace inservibles a teclados y ratones inalámbricos. El 14 de febrero Microsoft tenía que lanzar sus actualizaciones mensuales de Windows 10 y no lo hizo porque creaba más problemas de los que solucionaba. No son las únicas empresas. Estamos hablando de algunas de las empresas más grandes del sector. Entre sus empleados seguro que están algunos de los mejores informáticos del mundo. Achacar todo esto a un error humano es ponerse una venda en los ojos para no querer ver la verdad.
Conforme pasan los años vamos incrementando la complejidad y magnitud del hardware y del software. Los programas y sistemas operativos que antaño se medían en KB y luego en MB , ahora se miden en GB. ¿Hasta dónde va a llegar esta locura? ¿Tendremos sistemas operativos que ocupen terabytes? Añadimos cada vez más complejidad a unas arquitecturas que requieren que todo funcione a la perfección. Podemos cambiar un único bit de la memoria de un ordenador o teléfono y crear un caos. Y no hablemos de la seguridad informática, algo imposible de alcanzar con la computación actual. Necesitamos computación robusta, algo que ahora no existe.
kinico
Me imagino que el ingeniero responsable debe estar controlado ahora un servidor en la Antártida
maesus
"Ante todo esto sería interesante saber cuál ha sido el destino del ingeniero" Qué serte que escribiendo en un blog no se puedan hacer cagadas de este calibre ¿Verdad?, lo que hay que leer.
marcbrunes
Me encanta como el que ha escrito el post se las quiere dar de enterado y le caen hostias como panes, jajaja. Que nos gusta el postureo...
garbagebcn
EC2 no es un servicio de almacenamiento, es un servicio de computación.
miguelghz
"Elastic Compute Cloud (EC2) que es usado para que las compañías amplíen su almacenamiento en la nube", EC2 es un servicio de computo no de almacenamiento...
revgr
Parece editado por un niño del colé, poco vocabulario y muchas repeticiones
vicentesimal
¿Que es un typo? Presupongo que es un error ortográfico
polepepi
la hortojrafiahezajrandeschonosia
uti
El artículo me ha gustado mucho aunque, como dicen algunos, en el titular podían haber puesto "error humano" en vez de "typo", yo lo hubiera leído igual, tenía curiosidad por saber qué pasó.
Pasa muchas veces, haces un diagrama perfecto, unos programas perfectos, un hard perfecto, como todo es perfecto, nadie se preocupa por hacer una prueba en profundidad y, con un simple mal tecleo de un comando, se lía algo así y se comprueba que el sistema no era tan perfecto como creíamos. . . . . . . .Los que programamos, aunque en nuestra pequeña escala, sabemos lo que es eso.
Pero se aprende de la experiencia, no ha habido daños insolubles, y ha servido para que se modifique la mala concepción del sistema y se haga mucho más seguro.
jaymz
¿Era necesario usar 'typo', y no una palabra de nuestro diccionario?
Usuario desactivado
Sigo prefiriendo que una persona se encargue de estas cosas que una IA, por muchos fallos que pueda cometer un humano, siempre será mejor que una IA.
rafaelf
¿En qué parte del informe dice que es un ingeniero?, probablemente sea un operador con algún privilegio de acceso.
saludable5
Ya iba siendo hora de que avisaran y sí, lo mejor será ser rigurosos. Un saludo.
ermendalerenda
hay comandos muy puñeteros y que una vez que le das al enter u ok te das cuenta que la has liado. Pasa pocas veces pero pasa si estas en sistema. No conozco a ningún informático que no la haya liado en alguna ocasión. Muy bien lo de cambiar la logística para evitar ese fallo y minimozar riesgo Pero siempre habrá alguna decisión humana que pueda dar otro fallo.
jssj
Terrible redacción del artículo.
Al principio dos veces "compañía" en dos líneas.
En el 2do párrafo <>
Más abajo, <>
<>
Y así con perlas como esta <>