Explora el viaje desde la ingeniería hasta la ciencia de datos en una experiencia interactiva.
Iniciar Viaje 🚀(Pasa el mouse)
Son símbolos, números o hechos sin procesar.
Ejemplo:
24, 35.5, "Error 404"
(Pasa el mouse)
Datos procesados con contexto y utilidad.
Ejemplo:
"La temperatura subió a 35.5°C, riesgo de fallo."
Las empresas hoy manejan datos enormes: redes sociales, transacciones, sensores IoT, vídeos, logs de servidores… Estamos hablando de terabytes (TB), petabytes (PB) o incluso exabytes (EB) de información.
Un disco duro normal no sirve: se necesitarían millones y sería muy difícil gestionarlos, además de ser caro y propenso a fallos.
La nube como solución: Cuando hablamos de “guardar en la nube”, realmente hablamos de almacenar los datos en servidores de centros de datos gigantes, que pueden estar distribuidos por todo el mundo. Empresas como Amazon Web Services (AWS), Google Cloud o Microsoft Azure ofrecen esto.
a) Sistemas de almacenamiento distribuido
HDFS (Hadoop Distributed File System): divide los archivos en bloques y los guarda en muchos servidores. Cada bloque se replica varias veces para que no se pierda. Esto permite leer/escribir paralelamente grandes volúmenes de datos.
b) Bases de datos NoSQL
Ejemplos: Cassandra, MongoDB, DynamoDB. Manejar datos semi-estructurados o no estructurados (JSON, logs, imágenes…).
c) Procesamiento distribuido
No sirve solo almacenar, también hay que procesar los datos.
Estrategia de almacenamiento:
Seguridad y redundancia:
a) Servidores virtuales (IaaS)
Se crea un servidor virtual donde subes tu aplicación igual que si fuera un ordenador normal. Puedes instalar tu sistema operativo, bases de datos, librerías… La aplicación queda en el disco del servidor virtual, y se ejecuta allí.
b) Contenedores
Ejemplo: Docker. La aplicación se empaqueta con todo lo que necesita: librerías, dependencias, sistema de archivos mínimo. Se ejecuta en contenedores, que son ligeros y replicables. Permite que la misma aplicación corra en cualquier servidor sin problemas.
Escalabilidad y redundancia: Igual que con los datos, la aplicación puede replicarse en varios servidores. Si un servidor falla, otro toma su lugar automáticamente.
El ciclo de vida no es lineal, es iterativo. Comienza con la Captura, sigue con el Almacenamiento, pasa por el Procesamiento, llega al Análisis y finaliza con el Archivado.
Nube Pública: Servicios como AWS o Google Cloud compartidos por múltiples clientes. Es más barato y escalable.
Nube Privada: Servidores dedicados exclusivamente a una empresa. Mayor seguridad y control, pero más caro.
Nube Híbrida: Una mezcla de ambas. Datos sensibles en la privada, datos generales en la pública.
Manejo de datos masivos definidos por las 3 V.
La infraestructura invisible (AWS/Azure).
Diseño de Arquitectura y Pipelines.
> ¿ESTRUCTURADO O NO?