20 conceptos imprescindibles para estar al día en Big Data

¿Las grandes compañías trafican con nuestros datos? Esta es una cuestión que, sin duda, preocupa a muchos, sobre todo ante el reciente escándalo que ha provocado la filtración de datos de Facebook. Seguro que tú mismo habrás podido experimentar cierta neurosis al consultar tus redes sociales y encontrarte con anuncios que te persiguen después de realizar una búsqueda en Google…

Pero, por el contrario, también encontramos de utilidad poder guiarnos por una nueva ciudad gracias Google Maps o acceder a contenidos “personalizados” a través de Netflix, por ejemplo.

Y es que, lejos de demonizar al Big Data y sus pretensiones “espías”, nos encontramos con muchos beneficios que puede aportarnos esta tecnología, como empresa y también como sociedad.

Gracias al Big Data podemos convertir grandes cantidades de datos, sin aparente conexión, en información de utilidad para nuestro negocio. A través del Big Data las empresas pueden recopilar, almacenar, buscar, extraer, analizar y producir datos que les permitan conocer de forma cualitativa a sus clientes para ofrecerles productos y servicios personalizados.

De hecho, el Big Data ya no es territorio exclusivo de grandes compañías como Facebook, Google, Apple, IBM, Microsoft o Amazon; puede sernos útil también siendo una pyme para extraer valor de los datos que se encuentran en el inmenso océano de Internet y dentro de nuestra propia empresa.

También el Big Data está demostrando importantes beneficios para gestionar la información en casos de catástrofes naturales o actos terroristas, relacionando, diseccionando y destilando los datos con el fin de que sean útiles para el acceso a información. También es muy útil en el ámbito de la salud para la realización de análisis genéticos de ADN dirigidos el diagnóstico precoz de enfermedades.

Para entender todo lo que el Big Data puede hacer por nuestro negocio, recogemos 20 conceptos imprescindibles en esta guía básica para saber de qué hablamos cuando hablamos de Big Data.

                                                                                  

Las 5 V´s del Big Data

El Big Data se define como un gran volumen de datos que pueden estar estructurados o desestructurados. Esta tecnología comparte cinco uves que te permitirán diferenciar lo qué es y no es Big Data.

Volumen: para ser considerados Big Data los datos pesarán de un petabyte en adelante, unidad de almacenamiento que equivale a 1.024 terabytes.

Velocidad: buscamos cada vez más la inmediatez en todos los ámbitos de nuestra vida, y en el Big Data no íbamos a ser menos. Lo ideal es disponer de los datosen tiempo real para permitirnos tomar decisiones de negocio de la manera más ágil posible.

Variedad: es fundamental extraer los datos de diferentes fuentes: redes sociales, bases de datos internas de la empresa, campañas de e-mail marketing, etc. Estas fuentes variarán en función del tipo de negocio. No acudiremos a las mismas fuentes si estamos ante una industria del metal o un e-commerce de moda.

Veracidad: para que tengan valor, los datos deben ser de confianza. Es decir, debemos estar ante datos que realmente aporten algo, deben ser veraces y no estar contaminados.

Valor: el objetivo prioritario del Big Data es convertir un universo de datos (un Big Bang de datos) en información de valor para el negocio. Esta información nos permitirá tomar decisiones fundamentadas y puede significar una auténtica ventaja competitiva para la empresa.

Datos estructurados

También conocidos en idioma inglés como structured data, los datos estructurados son aquella información que se encuentra almacenada en bases de datos. Son, a su vez, datos que pueden ser ordenados y procesados con facilidad a través de la minería de datos (data mining).

Datos no estructurados

Con los datos no estructurados o unstructured data nos encontramos con un universo de datos mucho más complejo. Son datos no estructurados ni definidos que pueden suponer hasta el 80 % de la información de valor de una empresa. Estos datos pueden estar en textos, documentos de power point, hojas de cálculo, vídeos, audios, archivos pdf, imágenes, correos electrónicos, etc.

Data Mining

El Data Mining o minería de datos es un conjunto de técnicas y tecnologías que buscan patrones o algoritmos que den sentido a las ingentes cantidades de datos, en las diferentes etapas de análisis que se llevan a cabo. Emplea el aprendizaje automático, sistemas de bases de datos, estadística e inteligencia artificial.

Crowdsourced data

Este tipo de datos están cobrando cada vez más importancia en el entorno del Big Data. Los crowdsourced data son datos que generan las personas de a pie y que se suelen identificar con momentos críticos como catástrofes naturales. Este tipo de datos es habitual visualizarlos en mapas interactivos.

Un buen ejemplo de esta tendencia son las plataformas Ushahidi que recoge amplias cantidades de información en casos de catástrofes naturales o en conflictos bélicos o Data Collaboratives, herramienta de Big Data que trata de resolver problemas sociales impulsada por Unicef. Estos datos se pueden poner en común entre empresas privadas, entidades públicas y organizaciones humanitarias.

Privacidad y seguridad

Cuando hablamos de Big Data, debemos aludir necesariamente a la privacidad y la seguridad de los datos que manejamos. Si el Big Data y la Inteligencia Artificial son tendencias indiscutibles para este 2018, la ciberseguridad no se queda atrás. Los grandes volúmenes de datos que se cruzan en tiempo real en el Big Data deben cumplir con los criterios de  privacidad y seguridad. La aplicación del nuevo Reglamento General de Protección de Datos (RGPD) impondrá  la necesidad de reforzar estas medidas.

Hadoop

Es un programa especializado en el procesamiento de este tipo de cantidades masivas de datos. Esta tecnología va un paso más allá respecto a las bases de datos tradicionales, ya que permite almacenar y visualizar cantidades mucho mayores de datos. Tiene dos componentes básicos: Hadoop Distributed File System y MapReduce. Se define como un framework de código abierto (opensource) que almacena y procesa una cantidad de datos prácticamente ilimitada y de forma rápida, fiable, flexible en cuanto al tipo de fuentes de los datos y escalable, permitiendo añadir nuevos nodos de computación en función de las necesidades. Otro programa similar sería Casandra.

Hadoop Distributed File System (HDFS)

El HDFS es un componente de Hadoop que actúa como un sistema de archivos o ficheros y aporta gran robustez a Hadoop reduciendo los fallos en el servidor. Al estar formado por nodos que se ejecutan en agrupaciones de computadores básicos, pueden ser sustituidos fácilmente ante una eventual avería. Permite incluir datos de aplicaciones externas a Hadoop y que estos archivos externos se procesen por aplicaciones propias de Hadoop.

MapReduce

Por explicarlo de forma sencilla, MapReduce divide y resume los datos. Es un sistema que procesa datos distribuidos complejos y los divide para poder procesarlos en paralelo. Trabaja con estos datos divididos en fases de mapeo y los reduce para crear información de valor.

Hive

Hive, como infraestructura de almacenamiento, organiza grandes cantidades de datos. Se trata de un sistema de almacenaje construido sobre Hadoop, el programa de procesamiento de grandes cantidades de datos. Se utiliza para agrupar, consultar y analizar datos y es una infraestructura utilizada por empresa como Netflix.

Machine Learning (ML)

Tenemos los datos, pero ahora debemos aprender a partir de ellos. El ML es la puerta de entrada a la Inteligencia Artificial ya que, a través de algoritmos computacionales se genera un aprendizaje automático capaz de ir mejorando con la experiencia. A medida que repite las tareas, el propio sistema se convierte en autónomo al aprender y corregir sus errores sin necesidad de intervención humana. Los Big Data servirían para “entrenar” los modelos de Machine Learning.

Accountability

Relacionado con la seguridad en el tratamiento de los datos, el principio o filosofía de accountability aporta sostenibilidad jurídica y social al tratamiento de los datos, con independencia de que exista una normativa jurídica que nos oblige a la protección de datos de carácter personal. Este principio lo aplican aquellas empresas que buscan ser transparentes en el tratamiento de los datos que entran en su organización, estableciendo procedimientos internos que lo garanticen. Está cobrando cada vez más relevancia.

Evaluación de impacto (EIPD)

La EIPD es un proceso que, implantado en empresas y administraciones públicas, trata de evitar los riesgos que el empleo de información privada puede suponer para el derecho a la protección de datos. Puede cuantificar los riesgos y valorar su impacto en la vida de las personas. Permite, por tanto, identificar y gestionar los riesgos vinculados al Big Data. No es de obligado cumplimiento, pero se incluye en el Código de Buenas Prácticas en Protección de Datos para Proyectos Big Data de la Agencia Española de Protección de Datos que es conveniente revisar.

Los tres niveles de análisis de datos

Existen tres niveles diferentes de análisis de datos: el análisis descriptivo; el análisis predictivo y el análisis prescriptivo. El descriptivo analiza datos pasados de la empresa estableciendo un histórico. El predictivo analiza los datos actuales e históricos para realizar predicciones que nos ayuden a tomar decisiones de negocio; este tipo de análisis incluye la minería de datos, el machine learning y una variedad de técnicas estadísticas. Por último, el análisis prescriptivo no solo nos sirve para anticiparnos al futuro sino que además nos ofrece recomendaciones y sugerencias para la toma de decisiones.

Inteligencia de Negocios

La Inteligencia de Negocios o Business Intelligence está íntimamente relacionada con el Big Data, pero no hay que confundir ambos conceptos. La Inteligencia de Negocios nos ofrece las respuestas a las preguntas que se hace la empresa y el Big Data, por su parte, nos plantea nuevas preguntas y desafíos a los que no habíamos prestado atención previamente.

La Inteligencia Artificial (IA)

La Inteligencia Artificial no es Big Data, pero el Big Data es la base sobre la que se construye la IA. El análisis de esta gran cantidad de datos permitirá la evolución de la Inteligencia Artificial en el futuro cercano.

Small Data

El Small Data se encarga de analizar datos más simples pero que también pueden ser muy útiles en la toma de decisiones empresariales. Son datos más sencillos, pero que afectan al día a día de la organización. Extraer estos datos “cotidianos” de Small Data implican un coste menor respecto a las herramientas de Big Data, pero también proporcionan información cualitativa, aunque a menor escala, sobre las decisiones de compra de nuestros clientes, por ejemplo, más allá de los grandes patrones de comportamiento que establece el Big Data. La combinación de ambas tecnologías puede ser la clave del éxito.

Data warehouse

El data warehouse es una arquitectura de almacenamiento de datos, una especie de repositorio o almacén electrónico que permite almacenar de forma fiable los datos y recuperarlos fácilmente. Esta arquitectura de almacenamiento puede alojarse en un servidor corporativo o en la nube, siendo esta segunda opción la más habitual en la actualidad.

Dato crudo y dato cocinado

Tal y como asegura la investigadora Lisa Gitelman, no existen los datos crudos, todos ellos son intencionados, por lo que no existe el 100 % de la fiabilidad en el Big Data. La autora de best sellers como “Raw Data is an Oxymoron” explica que estos datos tienen un componente social y cultural por lo que deben ser interpretados como tal. Además, estos datos vuelven a “cocinarse” una y otra vez a la hora de realizar su recolección y análisis. Los datos, por tanto, siempre están cocinados y pueden incluir errores y, sobre todo, ambigüedades.

El “postureo” en el Big Data

Y de los datos cocinados pasamos al “postureo” en el Big Data. El científico Stephens-Davidowitz, autor del libro “Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are” apunta a que las personas mentimos descaradamente en las encuestas, “postureamos” en las redes sociales, pero somos realmente sinceros a través de nuestras búsquedas en Google.

20 millones de tuits, 2.5 millones de mensajes de WhatsApp y 2 millones de imágenes subidas a Instagram, todo ello en tan solo una hora. El avance tecnológico de Internet está provocando una era de explosión de datos.

Tanto es así que, según afirma el informe de IBM Marketing Cloud “10 Key Marketing Trends for 2017, el 90 % de los datos que nos rodean hoy por hoy en Internet se han generado en los últimos dos años. Se prevé que el Big Data alcance un volumen de negocio de 5.500 millones de euros en 2018 y cambie para siempre nuestra sociedad.