lunes, 6 de marzo de 2017

Las cinco mayores webs que se ‘cayeron’ en 2016: aprendiendo para evitar los errores

A nadie le gusta que su web favorita o la app que necesita no funcione por un error cualquiera. A las marcas, tampoco: pierden millones en ingresos y reputación.
Dice la Ley de Murphy que “si algo puede salir mal, probablemente saldrá mal”. En el mundo digital, esta frase podríamos aplicarla a las caídas que sufren las web más esenciales de nuestras vidas: la web de una aerolínea que deja de funcionar justo cuando tenemos que sacar un billete, la tienda online que está fuera de servicio el día antes del cumpleaños de nuestro ser querido o la app de turno que necesitamos y que ha decidido que mejor tomarse unas vacaciones forzadas.

Este tipo de inactividades no intencionadas no sólo son un motivo de cabreo para consumidores y partners: también suponen una pérdida directa e indirecta de ingresos para las compañías, además de daños difíciles de reparar en la reputación de las marcas y en la confianza que ofrecen ante los consumidores.  Y no sólo los pequeños negocios online están expuestos a estos errores de bulto: también las grandes organizaciones pecan de estas caídas, como nos demuestra la historia más reciente de 2016.
Salesforce es el vivo ejemplo de cómo ninguna gran compañía está exenta de que sus sistemas se caigan por cualquier fallo de lo más tonto. Así, este proveedor de software de gestión empresarial y relación con clientes sufrió en 2016 una caída de más de 12 horas en todos sus servicios, debido a un fallo en la instancia NA14 de su base de datos, que provocó a su vez un problema de integridad en todos los archivos.
En el ámbito puramente tecnológico encontramos también a Apple, que pese a su vanagloriada atención al detalle no pudo evitar la caída de iCloud, App Store, iTunes y Apple TV durante más de 9 horas en junio de 2016. Un fallo que se volvió a repetir en el caso de iCloud a principios de diciembre, dejando a millones de usuarios sin poder acceder a sus cuentas y archivos personales alojados en la nube.
Junio fue, definitivamente, un mal mes en cuanto a errores garrafales se refiere en servicios web. No en vano, una de las apps de colaboración y mensajería profesional más usada en todo el mundo –Slack– también sufrió ese mes una caída de su servicio durante unas dos horas, debido a que todos sus servidores se colapsaron de forma inesperada.
La revista norteamericana CIO también recoge el caso de Delta Airlines, una de las principales aerolíneas de Estados Unidos. Debido a un corte de electricidad en Atlanta, todos sus sistemas informáticos y de operativa de cayeron durante más de cinco horas, lo que provocó retrasos y cancelaciones de vuelos en todo el mundo: más de 2.200 vuelos fueron cancelados debido a este fallo (evitable con un sistema de generación eléctrica de emergencia), con un coste estimado de 150 millones de dólares, según la compañía BigPanda.
Seguimos con las aerolíneas, uno de los sectores de actividad donde la disponibilidad de los sistemas TIC es más crítico. En este caso, hablamos de la compañía Southwest Airlines, que vió como 836 vuelos sufrieron retrasos o cancelaciones el pasado mes de octubre debido a varios problemas con los sistemas informáticos de la empresa. De hecho, para evitar los incidentes, los trabajadores tuvieron que recurrir a papel y bolígrafo, sistemas de respaldo y tecnologías primarias para poder cumplir a tiempo con los vuelos y los equipajes facturados.

Cómo evitar estas caídas de servicio

La firma especializada BigPanda estima que en 2017 seguiremos sufriendo este tipo de caídas a gran escala en todo tipo de empresas, tanto grandes organizaciones como pequeñas pymes o negocios online. Es por ello que, ante la creciente complejidad de los sistemas TIC, las empresas que quieran garantizar la máxima disponibilidad deben identificar claramente los sistemas que son de misión crítica para el negocio (principalmente punto de venta y facturación) y establecer sobre estas patas sistemas adicionales de protección y respaldo en caso de error.
Asimismo, los expertos recomiendan implementar más herramientas que monitoricen todo el rendimiento de la web y testar con más detalle cualquier cambio que se realice sobre los aplicativos de negocio. Todo con el fin de detectar hasta el más mínimo error de configuración antes de que pueda llegar a causar un daño crítico en el mundo real, especialmente cuando se hacen cambios urgentes (por ejemplo, para tapar una vulnerabilidad) que no han sido suficientemente analizados.
Por supuesto, no debemos olvidar que muchas de las caídas de webs se deben a que los ingenieros y desarrolladores infravaloraron los picos de tráfico o de peticiones que podían recibir (incluso en circunstancias normales, no estamos hablando de ataques de denegación de servicio -DDoS- en los que el error está provocado intencionalmente). En ese sentido, es esencial contar con sistemas de balanceo de carga y soluciones (como una conexión a centros de datos en la nube) que permitan gestionar picos inesperados de trabajo sin que el sistema en su conjunto sufra las consecuencias.

Measure
Measure

No hay comentarios:

Publicar un comentario