Nuestra dependencia de la tecnología es más fuerte que nunca, y eso tiene sus consecuencias: cuando los servicios dejan de funcionar -y todos ellos dejan de hacerlo tarde o temprano- llega el caos. El impacto que tiene que nos quedemos sin Gmail o sin WhatsApp es enorme, pero lo mismo ocurre -si es que el impacto no es mayor- cuando los que se caen son los servidores de Amazon o de Microsoft.
¿Cómo es posible que empresas de esta magnitud puedan tener fallos así? Evidentemente todas ellas cuentan con intrincadas infraestructuras en las que temas como la redundancia y la alta disponibilidad son recurrentes. Y aún así, siempre hay algo que acaba fallando. ¿Cómo tratan de evitar esas caídas esas empresas, y cómo actúan cuando estas se producen a pesar de todo?
Creednos: que se caiga WhatsApp no es el problema
Lo cierto es que los fallos son más comunes de lo que cualquiera de nosotros podría imaginar. En IEEE Spectrum llevan más de una década haciendo un seguimiento de todos esos fallos que se dan en todo tipo de sistemas informáticos, y tras ese tiempo publicaban el año pasado una extensa serie de reportajes en las que trataban de ofrecer conclusiones sobre todos esos fallos.

Una de esas conclusiones, por ejemplo, es la enorme cantidad de dinero que cuestan esos proyectos que fallan o que incluso no llegan a implantarse tras una enorme inversión.
El Departamento de Defensa de los Estados Unidos invirtió 1.000 millones de dólares y 12 años de desarrollo en un sistema de recursos humanos para su ejército (aquí el PDF), pero mucho más dantesco fue el gasto de 18.000 millones de dólares por parte del ejército de los EE.UU. en un Future Combat System (FCS) que trataba de modernizar sus sistemas y que acabó cancelándose al detectarse que el gasto iba a dispararse a más de 200.000 millones de dólares
Las conclusiones de IEEE Spectrum tras esa década eran claras: "los sistemas IT están volviéndose cada vez más complejos y grandes (en términos de datos capturados, almacenados y manipulados), lo que significa que no solo están volviéndose cada vez más difíciles y costosos de desarrollar, sino también más complicados de gestionar". La complejidad de esos sistemas también se debe a otra de las grandes condenas de la tecnología: su incesante evolución y mejora:
Durante la pasada década hemos visto grandes esfuerzos de modernización de las TIC en las industrias financiera, bancaria, aeronáutica y especialmente en el gobierno, generalmente orientada a sustituir sistemas TIC antiguos que se implantaron en los 80 y 90, si es que no lo hicieron antes. Muchos de estos esfuerzos buscaban sustituir múltiples sistemas TIC dispares con un único sistema, lo que tradicionalmente ha demostrado ser mucho más difícil tanto a nivel técnico como de gestión, además de mucho más caro de lo que se imaginaba.
Los fantásticos documentos infográficos que nos deja el análisis de IEEE Spectrum van más allá de los fallos de los que hablábamos al inicio de este reportaje: nosotros nos quejamos de que WhatsApp se nos cae o de que de repente no podemos acceder a nuestro correo en Gmail, pero esos problemas son casi anecdóticos cuando hablamos de infraestructuras de las que sí dependen nuestras vidas como las redes eléctricas, de transporte -un ligero problema en un aeropuerto puede tener consecuencias catastróficas- o todo aquello que afecta al sector sanitario.
No solo hay que protegerse de los ciberataques
El 27 de agosto de 2013 China dejó de tener acceso a internet durante cuatro horas. El problema no fue (solo) un error humano: fue uno de los ataques de denegación de servicio más importantes de toda la historia "digital" de ese país. Evidentemente uno de los apartados más importantes de la infraestructura tecnológica de toda empresa es esa protección frente a ciberataques.

Muchas son las medidas que los administradores de sistemas ponen para evitar este tipo de problemas, pero lo cierto es que los casos de robo de contraseñas y datos sensibles es cada vez más frecuente en todo tipo de servicios. La seguridad de cualquier sistema es tan fuerte como su eslabón más débil, dicen, y esa es una verdad absoluta en este segmento en el que cualquier debilidad puede ser detectada y explotada por parte de los ciberatacantes si tienen suficiente motivación y paciencia.
Incluso en esos casos, como veremos más adelante, no siempre se nos ofrece una explicación especialmente detallada de lo que ocurrió. La explicación de por qué un hacker o un cracker ha logrado acceso a ciertos sistemas a menudo proviene de otros expertos, no de las empresas que sufrieron esos ataques: reconocer errores y explicarlos no suele dar muy buena prensa al público en general y a los clientes en particular, pero es algo que los expertos de la comunidad de seguridad informática tratan de animar a hacer de forma abierta.
Los ejemplos son numerosos, y hay fantásticas recopilaciones de esos grandes robos de datos como el que realizaron en Information is Beautiful. Allí es posible obtener más datos sobre los 164 millones de contraseñas robadas a MySpace, los 145 millones de eBay o el mucho más impactante caso de Mossack Fonseca, y en todos ellos se comprueba cómo esas intrusiones se debieron a ataques que casi siempre aprovecharon despistes de quienes gestionaban esos sistemas.
En el caso de Mossack Fonseca el error fue usar una versión antigua de Drupal y un plugin no actualizado de WordPress en dos de sus sitios web: algo tan aparentemente trivial como una actualización de ambas plataformas hubiera evitado un escándalo que ha salpicado a miles de empresas y particulares. En realidad es tan solo un ejemplo -muy llamativo, eso sí- de una situación cada vez más frecuente. En el segmento de la seguridad informática hay ya un viejo dicho: hay dos tipos de empresas, las que han sido hackeadas y las que lo han sido pero todavía no lo no saben.
Defenderse de esos ciberataques es uno de los problemas serios a los que deben enfrentarse estos expertos, que establecen todo tipo de medidas para tratar de salvarse de los temibles ataques de denegación de servicio -si son lo suficientemente grandes, difícil evadirlos- o el aprovechamiento de vulnerabilidades que es muy difícil controlar con el detalle necesario. Sin embargo esa es solo una parte de la ecuación, y las empresas también deben afrontar riesgos como los que provocan los desastres naturales -Amazon lo sabe bien- y los omnipresentes errores y descuidos humanos.

Lo que sí han hecho muchas empresas con servicios en la nube es tratar de informar del estado de esos servicios para que los usuarios al menos puedan verificar que hay o no problemas en realidad. En algunos casos contamos con paneles de estado separados totalmente de esos servicios que nos informan de su estado -Amazon es un buen ejemplo, pero en Google también ofrecen esa información-, e incluso hay "metapaneles" como DownDetector o IsItDownRightNow que agrupan la información de un buen número de servicios, algo que se une a la información que algunas empresas ofrecen por ejemplo vía Twitter.
Secretismo: quien calla no otorga
Cuando iniciamos el proceso de elaboración de este reportaje nos enfrentamos a una realidad contundente: las empresas no hablan abiertamente de estos temas, y no lo hacen porque son altamente confidenciales. Todd Hoff, responsable de High Scalability -uno de los blogs de referencia en este ámbito- nos explicaba cómo "es un tema muy duro en el que lograr información: gran parte de ella es la 'salsa secreta' de esas empresas, y las implicaciones de seguridad son enormes".

Pongamos de ejemplo a Microsoft, una de las empresas tecnológicas más importantes del mundo, y una de las que tiene una infraestructura más compleja. Sus responsables no podían darnos datos concretos, y trataron de ofrecernos una perspectiva general que nos ofrece una visión de la complejidad de estos sistemas. Entre los datos clave:
Microsoft cuenta con más de 100 centros de datos en más de 40 países. Las localizaciones de esos centros de datos no son públicas para "garantizar una alta seguridad para los datos de nuestros clientes". En esos centros de datos se ofrecen más de 200 servicios en la nube que utilizan "más de 1.000 millones de clientes en 90 mercados [...] Los centros de datos de Microsoft se han implantado para ofrecer el 99,999% de disponibilidad para satisfacer las necesidades de servicio y SLA de nuestros clientes".
La empresa de Redmond gestiona esos servicios a través del Microsoft Operations Center (MOC), y cuenta con instalaciones para "levantar" todos sus servicios en California, Redmond y en la India "para proporcionar disponibilidad instantánea de la continuidad de los servicios georeplicaos en caso de desastres naturales o calamidades". Tenemos más datos en el sitio web informativo de Microsoft, pero la realidad es que los detalles clave son muy limitados. Son, como nos decía Hoff, la salsa secreta de su capacidad operativa en la nube.

Esa realidad presentada por Microsoft se extiende al resto de empresas, pero además suele ocurrir que cuando caen los sistemas de alguna empresa la información sobre esas caídas y sus soluciones es limitada. Esta es una queja constante de los expertos de IEEE Spectrum, que criticaban la ausencia de "post-mortems", los datos que permiten hacer "autopsias públicas" de lo ocurrido y analizar cuál fue el detonante del problema.
En GitHub, por ejemplo, tenemos una compilación de algunos de esos análisis internos de fallos que empresas tecnológicas sufrieron en los últimos años. Afortunadamente aquí sí encontramos esas autopsias que permiten conocer cuál fue el problema. Es curioso comprobar cómo a menudo esos fallos son simples errores de configuración que no se detectaron durante su implantación y que luego costó encontrar más de lo esperado.
Open Compute Project, un buen paso de un largo camino
Es cierto que algunas empresas comparten información cada vez más interesante y liberan tanto esos datos como proyectos que son claves para su infraestructura. Tanto la citada Microsoft como Google o Facebook comparten cada vez más y mejor, y precisamente el caso de Facebook es especialmente destacable porque la empresa de Mark Zuckerberg es la responsable del llamado Open Compute Project (OCP).

Esta iniciativa comparte diseños de productos de centros de datos y que trata de comunicar buenas prácticas y todo tipo de claves para que todo tipo de empresas puedan acceder a soluciones escalables, altamente eficientes y altamente disponibles. Facebook hace uso de centros de datos que son "certificables" por la OCP al 100%, y a ese esfuerzo se han unido Intel, Google, Apple, Microsoft, Rackspace, Ericsson, Cisco, Juniper Networks, Goldman Sachs, Fidelity, Lenovo y el Bank of America.
Eso no parece ser suficiente, claro. Hay críticas claras a un proyecto que según algunos expertos ha creado fragmentación en la industria -favoreciendo unos estándares frente a otros- y que ha hecho que los vendedores de hardware con esa "certificación OCP" tengan una capacidad limitada y dirigida sobre todo a grandes empresas con equipos de ingenieros propios.
También se ha criticado ese proceso de certificación, y parece que aún quedan muchos flecos por resolver como los que están dedicados a la integridad de los datos. El proyecto sigue avanzando, desde luego, y aunque hay ya beneficios patentes -la industria necesita estándares fiables, y OCP está tratando de proporcionarlos- es evidente que hay mucho camino por recorrer.
Ver 31 comentarios
31 comentarios
pandiloko
El artículo está bien, pero el título prometía algo diferente. Como digo, interesante pero no sabes muy bien a dónde quiere llegar el autor o qué quiere contar exactamente.
cefalopodo
Deberías haber profundizado un poco y hablar en qué consisten los distintos tipos de soluciones existentes. Al menos explicar un poco como funciona un clúster, realización , mirrors, ...
Se nota que es viernes porque el artículo es un poco difuso, con cariño :)
crisct
Pero...
Qué hace un tipo de sistemas cuando se le cae todo el sistema?
No, en serio, tengo un servidor de exchange parado y esta todo lleno de archivos.Crypt
Na,es broma ,mal iríamos un viernes a esta hora con semejante jodienda..
r080
Vista la cantidad de amenazas, la complejidad de los sistemas y la facilidad de que haya un mínimo error que lo vuelva todo inestable, concluyo que es prácticamente un milagro que todo funcione.
Jose Juan
Muy buen artículo. Gracias.
hardmetal
a mi lo que mas me ha llamado la atencion es lo mucho que se dice de las posibles problemas.
Pero no cuenta ni una sola de las funcionalidades tecnicas.
Parece un articulo escrito por alguien que no tienen ni idea de sistemas avanzados, y a hecho una enumeracion de todo lo que pillaba.
No se dice nada de clusters de redundancia, tiempos de recuperacion, sistemas de backup, redes de datos de interconexion, como funciona el sistema ante diferentes problemas...
y no se cuenta lo mas importante, que normalmente los sistemas hard/soft de las grandes empresas en parte pura y dura de estavilidad de los sistemas host esta casi al 99.999% pero lo que realmente falla es el software principal de empresa.
Se habla de sistemas replicados geograficamente, pero no se habla nada de como se redirecciona ese trafico, que si los router o sistemas de redireccion funcional mal, no hay sistema replicado que lo soporte.
a demas tampoco cuenta absolutamente nada de los sistemas de recuperacion de desastres, porque la georeplicacion funciona durante un tiempo no eternamente, y hay que tener un buen equipo detras areglando a toda leche el sistema, mientras el replicado da la cara.
En fin que el articulo parece hecho mas a plan bomba de humo que a contar realmente como se hacen sistemas avanzados replicados.
vash-stampede-
Artículo muy interesante, aunque como comentan falta saber que hace un tipo de sistemas cuando se le cae todo el sistema xDDD
Una cosilla -> "instantánea de la continuidad de los servicios georeplicaos en caso de desastres naturales o calamidades"
Ese georeplicaos me ha matado :)
sarpullido
Por un lado entran datos de ilusos, y por el otro lado salen billetes...
Ah, me olvide de lo que hay en medio..., esclavos, muchos esclavos.
Fin.
De nada.
church1987
La forma de evitar una caída es teniendo en backup lo más crítico del sistema para que en caso de caída lo esencial del negocio siga funcionando mientras se restablece el sistema central
Para cosas como wasap o Facebook da igual si se cae ya volverá eso son redes sociales que si fallan pues en un rato ya vuelven de hecho wasap ya se ha caído y no ha llegado el fin del mundo
Lo importante son las empresas como las de luz agua bancos eso sí es importante pero una app para ocio con esperar que vuelva ya esta
Es imposible tener 2 compañías montadas en paralelo por si una falla se tiene la otra
Pero si se puede mantener lo esencial para no caer en desgracia mientras se restaura la normalidad
miguel.amandi
Que hace el de sistemas si se cae todo? Actualizar su perfil de LinkedIn tratando de quitar la última experiencia profesional.
frg92552
Artículo de 2016 repetido en 2019.
Javier... en este mercado las soluciones de hace tres años no tienen nada que ver con las que existen ahora.
Por otra parte, haces un comentario que denota claramente que en tu vida has trabajado gestionando un entorno de producción de una empresa de entidad:
"algo tan aparentemente trivial como una actualización de ambas plataformas hubiera evitado un escándalo que ha salpicado a miles de empresas y particulares"
Las actualizaciones no son algo trivial en absoluto sino todo lo contrario. Esto no es instalar las actualizaciones en tu Windows 10 o en el servidorcito Linux de juguete que uses para tus cositas.
Instalar una actualización en un sistema en producción no tiene nada de trivial.
Usuario desactivado
Uuuuuy, acá en México a un tipo se le cayó el sistema electoral el mismísimo día de las elecciones presidenciales, y que gana su partido político, resultando como presidente Zedillo Ponce de León.
Su nombre Manuel Bartlet Díaz.
Aclaro que él jura y perjura que fue un chivo expiatorio y que nada de eso pasó.
Ahora flamante nuevo director de la única eléctrica de México, Comisión Federal de Electricidad, por decisión del nuevo presidente Andrés Manuel López Obrador.
jairgarcia
Creo que es un muy buen artículo pero falto decir que hay una parte 2 porque falta mucha información.
Saludos
templerun2
Veo que me andas rastreando. Me gusta, prefiero que pierdas el tiempo en leer lo que escribo a ver si aprendes algo. fnaf sister location
rotel
Qué hace un tipo de sistemas cuando se le cae todo el sistema? Echarle la culpa al de redes ;)
sceballos
Exacto Javier, como bien dices cada día dependemos más de la tecnología. Tanto las empresas, como los negocios, como nosotros mismos en nuestra faceta de usuarios dependemos más y más de las nuevas tecnologías.
En la actualidad la ciberseguridad es uno de los temas protagonistas dado la gran cantidad de amenazas, la multitud de sistemas y que a la mínima uno de estos puede venirse abajo.
El artículo me ha gustado pero creo que deberías haber profundizado un poco más, es decir, meter a los lectores de lleno en el asunto. Por ejemplo, el otro día leí un artículo en el que ponían claramente un ejemplo sobre un problema con un correo que el redactor había recibido. En ese post se metieron de lleno en el asunto para intentar mostrar a los usuarios todo internamente. Eso es lo que echo de menos aquí, que nos expliques un poco más diferentes soluciones.
Usuario desactivado
Pues arreglarlo, que vamos a hacer. Pero nosotros no nos comemos a los clientes, esos que se los coman n1.