Big Data, BDaaS y privacidad

bigdata_bigdaas

Por José Luis Colom Planas

1. APROXIMACIÓN AL BIG DATA

Es habitual considerar que Big Data se refiere a conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales.

Según lo define WIKIPEDIA, Big data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.

La enorme cantidad de información produce bloqueo: a más cantidad de datos, menor capacidad de toma de decisiones adecuadas.

Nota del Editor: Como dice Fátima García (comunicación 2.0 de Telefónica), el mismo efecto pasa en el supermercado. Tanta variedad de productos nos genera confusión, y ante tanta oferta muchas veces no sabemos ni qué elegir. Por eso necesitamos herramientas que procesen toda esa información que está ahí fuera y nos la haga más ‘digerible’.

Pero Big Data no es Tecnologías de la Información, es Negocio.

Cada vez más los negocios, la economía y otros campos, hacen que sus decisiones se basen más en datos y análisis, y menos en la experiencia o la intuición. Esa es la misión del Big Data.
Lo importante es entender que Big Data no es una iniciativa surgida del área de TI, sino del Negocio. TI tiene que limitarse a gestionarlo como un servicio más y darle soporte tecnológico. Acordará un nivel de servicio en base a los requerimientos del Negocio. Por tanto costes y beneficios deberían estar pactados.

Lo que las compañías quieren es conocer mejor a sus clientes, quieren arreglar temas de fraude, son Administraciones Públicas que quieren saber cómo están funcionando los servicios al ciudadano o proporcionar otros nuevos.

Big Data está liderado desde el Negocio, aunque corresponda a TI proporcionarles soporte en Infraestructura y Software. Así, el científico de los datos es un perfil a medio camino entre ambos mundos, negocio y tecnología. El ¿Cómo puedo yo prevenir el fraude? es una pregunta desde Negocio.

Algunos ejemplos de Big Data son:

  • Las consultas y resultados de los motores de búsqueda
  • Datos de las redes sociales (como los tuits)
  • Datos meteorológicos
  • Datos astronómicos
  • Vigilancia militar
  • Datos económicos y bursátiles
  • Historiales médicos
  • Datos de Experimentos físicos y sensores
  • Archivos fotográficos, radio y televisión
  • Los vídeos (YouTube)
  • Datos sobre transacciones

Todos los días se escriben comentarios en Facebook, Linked In y Twitter y se suben vídeos a YouTube, pero las redes sociales son sólo uno de las múltiples fuentes de datos de los Big Data.
Los sensores conectados en red recogen ingentes cantidades de datos de los teléfonos móviles, los contadores del gas y la luz, los motores aeronáuticos, las plataformas de perforación y los equipos atmosféricos. Los satélites registran datos meteorológicos y geográficos, así como información para uso militar.

Se crean datos marginales como subproductos de las actividades cotidianas y se almacenan datos de transacciones, por ejemplo los que recogen las cajas de los supermercados.

A medida que los formatos digitales se vuelven más sofisticados, se crean más y más datos. Así, un segundo de vídeo en alta definición ocupa 2.000 veces más bytes que una página de texto.

2. LA PROBLEMÁTICA

El Big Data, como desafío de trabajar con datos desestructurados o semiestructurados, se caracteriza a menudo por las cinco uves (5Vs):

Volumen: Elevado volumen definido como el espacio de almacenamiento requerido para almacenar los datos. (Gestionar 12 terabytes de tweets creados cada día, para mejorar el análisis de opinión de un producto).

Velocidad: Tiene dos posibles interpretaciones. Por un lado se define como la cantidad de información por unidad de tiempo que debemos obtener simultáneamente de los diferentes orígenes de datos y por otro puede interpretarse como la velocidad a la que los datos van a prescribir. A medida que aumentan los volúmenes, el valor de los datos individuales tiende a disminuir más rápidamente con el tiempo. (Una idea de velocidad puede ser analizar diariamente 500.000.000 de registros detallados de llamadas en tiempo real, para predecir la pérdida de clientes más rápido).

Variedad: Se define como la complejidad de los datos de esta clase (Texto, datos de sensores, audio, video, data streams, archivos de LOGs…). Esta complejidad imposibilita los medios tradicionales de análisis.

Variabilidad: Definido como las diferentes formas en las que los datos pueden ser interpretados. Las diferentes consultas requieren diferentes interpretaciones.

Veracidad: La información debe ser verificada para poder apoyarse en ella en la toma de decisiones. La Integridad como atributo de seguridad deberá preservarse.

Debido a los retos que representan las 5Vs, Big Data requiere un enfoque alternativo a la Inteligencia Tradicional del Negocio. Este enfoque alternativo, que podría referirse a que el almacén de datos no estructurados o el almacén de Big Data, no invalida el almacén de datos tradicional, pero sí reconoce sus limitaciones en la extracción de conocimiento a partir de la amplia gama de fuentes de datos disponibles.

Queda claro a pesar del nombre (Big Data), que el tamaño no es el único problema al que enfrentarse en la búsqueda de una solución. Toda esa información hay que:

  • Capturarla
  • Almacenarla
  • Consultarla
  • Gestionarla
  • Analizarla

Para muchas empresas es necesario mantener a lo largo de tiempo, ya sea por imposición legal o por pura operatividad, un gran número de datos estructurados y no estructurados, como pueden ser grandes masas de documentos, emails, y otras formas de comunicación electrónica que es necesario almacenar o consultar y que no hacen otra cosa que crecer de forma exponencial.
La enorme cantidad de datos que generan empresas, usuarios y dispositivos, ha experimentado un crecimiento explosivo que requiere su análisis para obtener ventajas competitivas.
El Big Data se está convirtiendo en el punto de inflexión de las empresas que consiguen “dominarlo”, empresas que se han dado cuenta que la manera de obtener ventaja es tener la capacidad de procesar uno de sus principales activos: la información que la empresa posee.

Podríamos decir que con el Big Data estamos entrando en “la revolución industrial de los Datos”.

3. DIFERENCIA ENTRE BIG DATA Y BI

¿Dónde empieza el Big Data y acaba el BI (Business Intelligence)?

Business Intelligence: Es una “vista de retrovisor” ya que se basa en un análisis de lo que ha ocurrido en el pasado. Se analizan los datos, en la mayoría de los casos estructurados, de volumen razonable,  generados por la propia compañía y se descubre cómo ha estado funcionando el negocio para poder sacar conclusiones y tomar algún tipo de decisión.

Big Data: Dispone además de la capacidad de proporcionar predicción analítica, esto es, capacidad real de anticipación a las tendencias futuras que permitan adelantarse al mercado. El volumen, variedad, velocidad o diferentes fuentes de origen de los datos lo justifican al requerir una capacidad de análisis más avanzada.

 4. ALGUNAS ESTADÍSTICAS

4.1. VOLUMEN Y DISTRIBUCIÓN DE DATOS

Volumen: Cada día se genera en el mundo la enorme cantidad de 2,9 trillones de bytes de datos. Según IDC, la producción digital total del mundo fue de unos 180 exabytes en 2006 y creció hasta 1.800 exabytes en 2011, es decir, se multiplicó por diez en cinco años. El volumen total de datos se prevé que alcance los 35.000 exabytes en 2020, lo que supone multiplicar dicha cifra por veinte durante los próximos diez años.

Distribución: Los datos no estructurados se calcula que representa aproximadamente el 80% de todos los datos que existen. El 60% de los datos desestructurados en 2015 se cree que serán creados por consumidores.

Gradiente: Su volumen total experimenta un aumento continuado ya que el 90% del total se ha generado en los últimos dos años.

4.2. EMPLEOS RELACIONADOS CON BIG DATA

Empleos directos: Se estima que para 2018 cerca de 200 mil personas trabajarán directamente en el análisis de datos sólo en Estados Unidos.

Toma de decisiones: Casi 1.500.000 de usuarios utilizarán el análisis de datos para tomar decisiones corporativas.

4.3. INVERSIONES Y ROI

 Inversión: La de TI en Big Data, según Gartner, a nivel mundial crecerá desde los 27.000 millones de dólares en 2012 a los 55.000 millones en 2016.

ROI (Retorno de la Inversión): Un estudio conjunto de la Universidad de Oxford e IBM a un total de 1.144 empresas y profesionales de TI pertenecientes a 95 países y 26 sectores, concluye que un 63% de los encuestados afirman obtener ventaja competitiva cuando utiliza analítica para Big Data, frente al 37% que se registró en una encuesta realizada  en 2010.

Adopción en España: El 4,8% de las empresas en España ya está utilizando esta tecnología y el 14,6% considera utilizarla en un futuro inmediato. IDC estima que la adopción va a acelerarse de forma llamativa: en 2014 se espera que el 19,4% de las empresas incorporen Big Data a sus procesos, lo que supone un incremento del 304% con respecto a 2012.

Limitadores: Se mencionan como limitadores en la adopción del Big Data la falta de expertos o data scientists (el 33%), que impactará en la externalización de servicios; La falta de presupuesto (28%) y capacidad de integración (19%) y la mala calidad de los datos que se manejan (16%).

5. VENTAJAS  PERSEGUIDAS MEDIANTE BIG DATA

La eficacia del Big Data es directamente proporcional al análisis que se haga de la información. Su utilidad es indudable, ya que  esa lectura permitirá tomar decisiones estratégicas.

Conocer profusamente a un usuario particular, a un consumidor o a un ciudadano ayuda a anticipar sus comportamientos, expectativas y necesidades concretas. Permite, en resumen, ahorrar tiempo, hacer más eficaces determinados servicios y tomar decisiones más seguras.

Ejemplo de algunas áreas críticas dónde el Big Data puede constituir una ventaja competitiva:

Fidelización y retención de clientes: Un adecuado análisis de los datos permite ofrecer experiencias de compra personalizadas y, por consiguiente, altos niveles de retención de clientes. Los principales actores del comercio electrónico en EE.UU. “eBay” ha reconocido el uso del Big Data con dichos propósitos.

Nuevos productos y servicios: Al construir modelos de clientes sobre el cruce de patrones de conducta online, las compañías están logrando anticiparse a las necesidades de los consumidores. En el sector financiero, por ejemplo, las grandes compañías globales se sirven del Big Data para crear productos que resulten atractivos para sus clientes y simultáneamente compatibles con las leyes de los países en los que operan.

Pronósticos y previsiones: en la medida que las transacciones comerciales también se han digitalizado, las compañías están recurriendo al Big Data para realizar proyecciones sobre su propio desempeño financiero en virtud de las variables del mercado.

Optimización de la producción y la distribución: las herramientas de análisis de datos también pueden funcionar de manera óptima al integrarse con sistemas de logística. En efecto, algunas compañías manufactureras están utilizando el Big Data para descubrir conexiones entre un método de producción determinado y el tipo de embalaje más conveniente según las formas de distribución.

Rendimiento de productos: Ofrece un análisis cada vez más preciso y detallado de las fluctuaciones y rendimientos de todo tipo de recursos. Procter & Gamble analiza la manera en la que los consumidores de 80 países distintos utilizan diariamente unas 4.000 millones de dosis de sus productos.

Simulación de procesos: Permite realizar adaptaciones “experimentales” a cualquier escala de un proceso y conocer su impacto en tiempo casi real sobre un bien o servicio concreto. Coca-Cola combina sus bases de datos y sus plataformas de análisis para estudiar la información en tiempo real que obtiene masivamente de sus respectivos clientes (por ejemplo, a través de las máquinas de vending).

Conocimiento de la demanda: Ayuda a conocer mejor la demanda y a realizar una segmentación más ajustada de la oferta. “Financial Times en la web” utiliza el análisis de los datos masivos para optimizar las tarifas de sus anuncios según la demanda inmediata de sus lectores: qué leen, a qué hora, de qué sección, desde qué localidad… Sus ventas son hoy mayores debido no sólo a un mejor conocimiento del producto, sino, ante todo, a una capacidad más elevada de sus profesionales para detectar los nichos de la publicación insuficientemente explotados.

Adaptación predictiva a la demanda: Acelera el desarrollo de prestaciones y productos cada vez más innovadores y eficientes. El servicio 1004 de atención al cliente de Telefónica utiliza modelos predictivos para determinar el número de llamadas que recibirá en fechas muy concretas. De esta forma el “Call Center” más grande de Europa (14 millones de llamadas sólo en un mes) ha conseguido mejorar en un 50 por ciento su eficiencia.

6. EJEMPLO ILUSTRADO DE APLICACIÓN.

En las ventas al por menor en las grandes y medianas superficies, los minoristas pueden utilizar los datos personales de ubicación para entender los patrones de compra.

Lo consiguen gregando información sobre la densidad de tráfico y velocidad para generar conocimientos detallados acerca de donde los compradores frenan y aceleran con sus carros de la compra, en respuesta a las promociones y la publicidad, y luego vincular estos modelos con datos sobre las compras de productos, demografía de los clientes y los patrones históricos de compra.

Esa inteligencia granular puede ayudar a mejorar una serie de decisiones de negocio de distribución en las superficies de venta.

Para efectuar el seguimiento de los movimientos de los compradores y dado que las señales GPS no suelen penetrar en el interior de las superficies de venta o centros comerciales, los minoristas pueden utilizar otras tecnologías electrónicas.
Estas tecnologías incluyen etiquetas RFID en los productos o en los carros de la compra, cámaras de video, y varias tecnologías innovadoras aprovechando los teléfonos móviles. Cada una de estas técnicas proporciona un nivel diferente de detalle acerca de la ubicación.

Las etiquetas RFID son baratas y precisas, pero a menudo no reflejan los movimientos detallados de los compradores. Por ejemplo, una etiqueta puede estar unida a un carro que se deja en un pasillo mientras que el consumidor se mueve. Diversas tecnologías, incluyendo Shopkick e Inteligencia Path ya están en el mercado.

NOTA DEL EDITOR: El reconocimiento mediante videocámaras puede ser excelente para la gestión del flujo de tráfico, pero difícil de utilizar para el seguimiento de la conducta de un individuo, a la vez que entramos en conflicto con la legislación de ciertos países en materia de protección de datos, a no ser que las imágenes se distorsionen para impedir identificaciones individuales.

7. EXTERNALIZACIÓN

7.1. INTRODUCCIÓN

Muchas empresas no pueden hacer frente a las fuertes inversiones en infraestructura de TI necesarias para implementar Big Data.

En dicho escenario es donde toma fuerza la posibilidad de externalizar el análisis de los grandes conjuntos de datos a empresas tecnológicas especializadas.

En un entorno marcado por unas condiciones económicas difíciles y la cada vez mayor competencia de los mercados emergentes, las empresas de los países desarrollados están obligadas a reducir los costes y mejorar la eficiencia. Externalizar la gestión de sus Big Data constituye una opción económicamente interesante.

7.2.  BDaaS (BIG DATA COMO SERVICIO EN EL CLOUD)

[3] Cuando las empresas no pueden costearse la infraestructura física necesaria para analizar grandes volúmenes de datos desestructurados, recurren al CLOUD.

Muchos proveedores de almacenamiento de datos se erigen en CSP (Cloud Services Provider) directamente o mediante acuerdos y ofrecen soluciones basadas en CLOUD COMPUTING como parte de su actividad de negocio (Catálogo de Servicios además del Catálogo de Productos) y las comercializan entre los clientes como soluciones mas asequibles y accesibles.

En esencia, las empresas cliente alquilan espacio de almacenamiento y potencia de proceso en servidores virtuales, a los que pueden acceder en línea. Estos servidores están equipados con sofisticadas aplicaciones que han sido diseñadas especialmente para manejar y analizar grandes volúmenes de datos.

La ventaja para los clientes es que pueden conseguir resultados rápidamente a un coste razonable. Además pueden acceder al asesoramiento y soporte del proveedor como apoyo al diseño y a la ejecución de los proyectos.

Éstos son sólo algunos escenarios donde los enfoques basados en el CLOUD podrían ser adecuados para las necesidades de datos analíticos del Big Data:

Empresas que ya están alojadas en la nube: Si la empresa ya utiliza servicios basados en el CLOUD de un proveedor de servicios externo, gran parte de los datos de origen transaccionales ya está en una nube quizá pública. Si tiene profundas datos históricos sobre esa plataforma CLOUD, puede que ya haya entrado en las grandes magnitudes de datos. El CSP como prestador de servicios puede ofrecer un servicio de valor añadido de análisis de datos que puede ser interesante  para aprovechar el que todos los datos ya “estén en casa”.

Alto volumen de orígenes de datos externos: Orígenes de datos externos que requieran considerable pre-procesamiento. Si una empresa, por ejemplo, está haciendo el seguimiento de los sentimientos y opiniones de las entradas de consumidores en los medios sociales, probablemente no tiene ni el servidor, ni el almacenamiento, ni el ancho de banda, (…), “in-site” para llevarlo a cabo eficaz y eficientemente. Esa es una clara aplicación en la que se aprovecha el filtrado de social-media proporcionado por  un CLOUD público con un servicio de motor de Big Data.

Aprovisionamientos muy grandes pero de corta duración: Para proyectos de corta vida, de corto ciclo, como puede ser un proyecto de ciencias de datos que requiere un análisis exploratorio en un orden de magnitud más grande de lo normal, la nube puede ser su única opción factible o asequible. Está hecho a medida para el CLOUD ya que en la nube se puede rápidamente aprovisionar recursos de almacenamiento y potencia de proceso ajustándolos a la duración del proyecto, y luego con la misma rapidez desabastecerlo todo cuando el proyecto esté terminado.

Archivo históricos off-premise: Si se requiere un archivo histórico “petaescala” para tratarlo con grandes aplicaciones de análisis de datos, tales como e-discovery, análisis de registros, incidentes de seguridad y gestión de eventos, se puede contratar como servicio toda esa capacidad a un proveedor de la nube.

En los escenarios de CLOUD COMPUTING, la oferta de valor se deriva de los principios básicos de la arquitectura de proceso masivo en paralelo, en la base de datos de análisis, la puesta en común de recursos, el aprovisionamiento elástico bajo demanda, la facilidad de autoservicio y la medición y pago por uso transparentes.

8. PRIVACIDAD Y PROTECCIÓN DE DATOS PERSONALES

8.1. PECULIARIDADES DEL BIG DATA

Ante un escenario de Big Data, que se caracteriza por un ingente volumen de datos desestructurados,

  • ¿Cómo se podrán garantizar los derechos fundamentales de privacidad de las personas afectadas?
  • ¿Serán aún aplicables o técnicamente viables algunos requisitos legales en materia de Protección de Datos de naturaleza personal, como pueda ser el derecho de acceso en unos años?

A medida que la implantación del Big Data evoluciona y se afianza en las organizaciones, éstas obtienen beneficios del análisis de grandes datos, a la vez que necesitan proteger la privacidad de sus clientes y usuarios, demostrando que lo hacen.

En un escenario en el que la captación de información es creciente y proviene de todo tipo de dispositivos, cada vez hay que ser más responsables con el uso de esos datos.

Además, los consumidores y usuarios también se vuelven más inteligentes, saben y se informan cómo las empresas usan la información y exigen políticas de protección adecuadas, que quizás, no siempre sean compatibles con el máximo aprovechamiento de oportunidades de marketing, incluso cuando revierten en esos mismos clientes.

Aunque parece deseable un servicio excelente como consecuencia de aplicar técnicas de análisis del Big Data, también puede  llegar a ser contraproducente. Un cliente que observe una alta relevancia de una propuesta o contenido, puede sentirse asustado acerca de  los métodos seguidos para lograrla.

El equilibrio parece estar en la combinación de políticas de datos estrictas pero que permitan la explotación de la información con fines de mejora del servicio y siempre de forma transparente, informando acerca de que se usa, como se ha obtenido y para qué.

8.2. PRINCIPIO DE LIMITACIÓN DE LA FINALIDAD

Uno de los principios que se cuestionan con el Big Data es el de limitación de la finalidad. Paso a transcribir la traducción de parte de un comunicado de prensa del GT29 publicado en Bruselas, el 8 de abril de 2013 [1]:

Las autoridades europeas de protección de datos clarifican el principio de limitación de la finalidad, reconociendo que protege a los interesados ​​mediante el establecimiento de límites en el recabado y posterior tratamiento de sus datos.

Cuando una persona proporciona sus datos personales a una empresa u otra organización, usualmente tiene ciertas expectativas acerca de la finalidad para la que sus datos serán utilizados. Hay un valor en honor a estas expectativas que es la preservación de la confianza y la seguridad jurídica. Por ello, el principio de limitación de la finalidad es una piedra angular de la protección de datos.

No obstante, los datos que ya han sido recogidos pueden ser realmente útiles para otros propósitos, que no están previstas inicialmente. Por lo tanto, también hay valor en permitir, dentro de límites cuidadosamente equilibrados, un cierto grado de uso adicional.

El principio de limitación de la finalidad está diseñado para ofrecer un enfoque equilibrado:

  • Por un lado tiene como objetivo conciliar la necesidad de la previsibilidad y la seguridad jurídica en relación con los fines del tratamiento.
  • Por otro lado, la necesidad pragmática de proporcionar flexibilidad.

En su dictamen (WP203) [2], las autoridades europeas de protección de datos, se reunieron en el Grupo de Trabajo del artículo 29 para evaluar el principio de limitación de la finalidad con el objetivo de ofrecer orientación en su aplicación práctica en el marco legal actual.

El principio de limitación de la finalidad tiene dos componentes fundamentales:

  • Los datos de carácter personal deberán ser recogidos para ‘determinados, explícitos y legítimos’ fines (especificación del propósito).
  • No ser ‘Tratados posteriormente de manera incompatible con dichos fines (uso compatible).

El procesamiento adicional para un propósito diferente no significa necesariamente que sea incompatible, pero la compatibilidad debe evaluarse caso por caso, teniendo en cuenta todas las circunstancias.

Las autoridades europeas de protección de datos establecen que, en particular, los siguientes factores clave deben tenerse en cuenta:

  • La relación entre los fines para los cuales los datos personales han sido recabados y los efectos de su procesamiento posterior.
  • El contexto en el que los datos personales han sido recabados y la expectativa razonable del interesado ​​en cuanto a su uso posterior.
  • La naturaleza de los datos personales y el impacto del tratamiento ulterior de esos datos en los afectados.
  • Las garantías adoptadas por el Responsable del Tratamiento (Data Controller) para asegurar un tratamiento adecuado y para evitar cualquier impacto desproporcionado en los afectados.

8.3. RIESGOS Y DESAFÍOS EN PRIVACIDAD

La finalidad última del ‘Big data’ se refiere a analizar, comprender y aprovechar todo el valor de los datos a través de aplicaciones analíticas. La expectativa es que en última instancia pueda conducir a mejor y mayor informadas decisiones.

Big Data puede utilizarse para identificar tendencias generales y correlaciones, pero su tratamiento también puede afectar directamente a los individuos. Por ejemplo, en el campo del marketing y la publicidad, Big Data se pueden utilizar para analizar o predecir las preferencias personales, el comportamiento y las actitudes de los clientes individuales y, posteriormente, tomar decisiones al respecto como pueden ser descuentos personalizados , ofertas especiales y anuncios específicos en función del perfil del cliente.

Además de su potencial de innovación, Big Data también puede presentar riesgos significativos para la protección de los datos personales y el derecho a la privacidad. En particular, Big Data plantea inquietudes acerca de:

  • La magnitud de la recopilación de datos, seguimiento y elaboración de perfiles, teniendo también en cuenta la variedad y el detalle de los datos recopilados y el hecho de que los datos se combinan a menudo de diferentes fuentes.
  • La seguridad de los datos, ya que habitualmente los niveles de protección son inversamente proporcionales a la expansión en volumen.
  • Transparencia: a menos que se les proporciona suficiente información, los individuos estarán sujetos a decisiones que ellos ignoran y sobre las que no tienen ningún control.
  • Aparte de Inexactitud si fallan los análisis a los que el afectado no tendrá acceso, puede provocar discriminación, exclusión y desequilibrio económico (como se verá más adelante) en base a los resultados.
  • Aumento de las posibilidades de vigilancia del gobierno si utiliza Big Data indiscriminadamente con la población.

El tipo de aplicación analítica utilizada, puede llevar a resultados que son inexactos, discriminatorios o ilegítimos obtenidos de otra manera.

En particular, un algoritmo puede detectar una correlación, y luego dibujar una inferencia estadística, es decir, un perfil que se utilice para otras decisiones de modo injusto o discriminatorio. Esto puede perpetuar los prejuicios y estereotipos existentes, y agravar los problemas de la exclusión social y la estratificación.

Además, y en términos más generales, la disponibilidad de grandes conjuntos de datos y herramientas analíticas sofisticadas para examinar estos datos también pueden aumentar el desequilibrio económico entre las grandes empresas por un lado y los consumidores del otro.

Este desequilibrio económico puede conducir a la discriminación de precios desleal con respecto a los productos y servicios ofrecidos, así como anuncios publicitarios dirigidos y altamente intrusivos, perturbadores y con ofertas personalizadas.

También podría dar lugar a otros efectos adversos significativos para las personas, por ejemplo, con respecto a las oportunidades de empleo, préstamos bancarios, u opciones de seguros de salud o de cualquier otro tipo.

8.4. SALVAGUARDAS HABILITADORAS

Como en otros casos, en la evaluación de la compatibilidad con los principios en que se basa la Protección de Datos personales, deben considerarse todos los factores incluyendo la relación entre los objetivos, el contexto de la recolección, las expectativas razonables de los interesados, la naturaleza de los datos personales y el impacto sobre los afectados.

También es importante evaluar las salvaguardas adoptadas para garantizar un tratamiento adecuado y para evitar cualquier incidencia. Con el fin de identificar qué salvaguardas son necesarias, puede ser útil hacer una distinción entre dos escenarios diferentes:

  • En el primero, las organizaciones que tratan los datos desean detectar tendencias y correlaciones en la información en sí misma.
  • En el segundo, las organizaciones están interesadas en los individuos en sí.

En el primer escenario, el concepto de segregación de funciones es probable que desempeñe un papel clave, y el grado en que esto se pueda conseguir podría ser un factor importante en decidir si el uso posterior de los datos para marketing u otro se pueda considerar compatible.

En estos casos, los responsables del tratamiento deben garantizar la confidencialidad y seguridad de los datos, y tomar todas las medidas de índole técnica y organizativa necesarias para garantizar segregación de funciones.

Un segundo escenario potencial es cuando una organización quiere Big Data específicamente para analizar o predecir las preferencias personales, el comportamiento y las actitudes de los clientes individuales, que posteriormente servirán de base para aplicar ‘medidas’ o decisiones que se toman con respecto a esos clientes.

En estos casos casi siempre se requiere el consentimiento libre, específico, informado e inequívoco, que de otra manera no puede considerarse compatible. Es importante destacar que tal consentimiento se debe exigir, por ejemplo, para el seguimiento y elaboración de perfiles con fines de marketing directo, publicidad comportamental, datos de la intermediación, publicidad basada en geo-localización o seguimiento de la investigación basada en el mercado digital.

Para el consentimiento informado, y para garantizar la transparencia de los datos de los consumidores, éstos deben tener acceso a sus “perfiles”, así como a la lógica de la toma de decisiones (algoritmo) que condujo a la elaboración del perfil. En otras palabras: las organizaciones deben revelar su criterio de toma de decisiones.

Esta es una salvaguardia fundamental y aún más importante en el mundo Big Data. La mayoría de las veces, no es la información recogida en sí mismo que es sensible, sino más bien, las inferencias que se deduce de la misma y la forma en que las inferencias se dibujan, que podría ser motivo de preocupación. Además, la fuente de los datos que llevaron a la creación del perfil también debería ser revelada.

Teniendo en cuenta el riesgo de inferencias erróneas, en particular, también es fundamental que los interesados sean capaces de corregir o actualizar sus perfiles si deciden hacerlo. Esto también puede beneficiar al tratamiento de datos que podrán basar sus decisiones (de marketing o de otro tipo) en información más precisa.

Además, en muchas situaciones, las salvaguardias tales como permitir a los interesados​​/clientes tener acceso directo a sus datos en un formato portable, fácil de usar y de lectura mecánica puede ayudar a empoderarlos, y reducir el desequilibrio económico entre las grandes empresas por un lado y los interesados/consumidores, por el otro.

Por ejemplo, el acceso a la información sobre el consumo de energía en un formato fácil de usar podría hacer más fácil para los hogares la posibilidad de cambiar las tarifas y obtener los mejores precios de gas y electricidad, así como permitirles controlar su consumo de energía y modificar su estilo de vida para reducir sus facturas, así como su impacto ambiental.

Permitir la portabilidad de datos podría permitir a las empresas y a los interesados/consumidores maximizar los beneficios del Big Data de una manera más equilibrada y transparente. También puede ayudar a minimizar las prácticas abusivas o discriminatorias y reducir los riesgos de la utilización de los datos inexactos para fines de toma de decisiones, lo que beneficiaría tanto a empresas como a consumidores.

8.5. RIESGOS DE BDaaS (BIG DATA COMO SERVICIO EN EL CLOUD)
Deben tenerse en cuenta las medidas obligatorias de seguridad de los datos que puedan afectar al CSP o al cliente, por estar sujetos a una regulación específica. Su incumplimiento puede representar acciones legales y procedimientos sancionadores.

En relación a los datos de naturaleza personal, un ejemplo sería el artículo 12.2 (Acceso a los datos por cuenta de terceros) de la LOPD (Ley Orgánica de Protección de Datos), que cita:

 “La realización de tratamientos por cuenta de terceros deberá estar regulada en un contrato que deberá constar por escrito o en alguna otra forma que permita acreditar su celebración y contenido, estableciéndose expresamente que el encargado del tratamiento únicamente tratará los datos conforme a las instrucciones del responsable del tratamiento, que no los aplicará o utilizará con fin distinto al que figure en dicho contrato, ni los comunicará, ni siquiera para su conservación, a otras personas.

En el contrato se estipularán, asimismo, las medidas de seguridad a que se refiere el artículo 9 de esta Ley (LOPD) que el encargado del tratamiento está obligado a implementar”.

Una de las obligaciones que establece el RLOPD (Reglamento de aplicación de la LOPD) se aprecia en el  Art. 20.2 que dice:

 “Cuando el responsable del tratamiento contrate la prestación de un servicio que comporte un tratamiento de datos personales sometido a lo dispuesto en este capítulo, deberá velar por que el encargado del tratamiento reúna las garantías para el cumplimiento de lo dispuesto en este Reglamento”.

Normalmente, además de una clausula referida a protección de datos en el contrato de prestación de servicios con el CSP, se suscribe un contrato adicional de acceso a datos (contrato de encargado del tratamiento), específico para dar cumplimiento a la LOPD y a la directiva EU 95/46/CE.

8.6. TID (TRANSFERENCIAS INTERNACIONALES DE DATOS)

El cliente que contrata los servicios de BDaaS en el CLOUD, debe conocer en todo momento en que ubicación geográfica se encuentra el CPD que albergará sus datos en la nube.
Si dicha transferencia es a un tercer país, por ejemplo fuera del EEE (Espacio económico Europeo), puede tener importantes consecuencias legales, ya que se considerará una transferencia internacional de datos. En dicho caso se requiere notificarlo a la AEPD si se transfiere a un país con nivel de protección adecuado o equiparable (existe una lista de países reconocidos), o solicitarse autorización previa al Director de la AEPD si se trata de otro país.

Las infracciones por incumplimiento del deber der solicitar autorización, caso de una transferencia a un país sin nivel equiparable de protección, se consideran muy graves según la AEPD y la cuantía de la sanción oscila entre 300.001€ y 600.000€.

El título VI (Transferencias internacionales de datos), Capítulo I (Disposiciones generales), cita textualmente:

 “Artículo 65. Cumplimiento de las disposiciones de la Ley Orgánica 15/1999, de 13 de diciembre.

La transferencia internacional de datos no excluye en ningún caso la aplicación de las disposiciones contenidas en la Ley Orgánica 15/1999, de 13 de diciembre, y en el presente reglamento.

Artículo 66. Autorización y notificación.

  1.  Para que la transferencia internacional de datos pueda considerarse conforme a lo dispuesto en la Ley Orgánica 15/1999, de 13 de diciembre, y en el presente Reglamento será necesaria la autorización del Director de la Agencia Española de Protección de Datos, que se otorgará en caso de que el exportador aporte las garantías a las que se refiere el artículo 70 del presente reglamento.

La autorización se otorgará conforme al procedimiento establecido en la sección primera del capítulo V del título IX de este reglamento.

  1.  La autorización no será necesaria:

a) Cuando el Estado en el que se encontrase el importador ofrezca un nivel adecuado de protección conforme a lo previsto en el capítulo II de este título.

b) Cuando la transferencia se encuentre en uno de los supuestos contemplados en los apartados a) a j) del artículo 34 de la Ley Orgánica 15/1999, de 13 de diciembre.

  1.  En todo caso, la transferencia internacional de datos deberá ser notificada a fin de proceder a su inscripción en el Registro General de Protección de Datos, conforme al procedimiento establecido en la sección primera del capítulo IV del título IX del presente reglamento”.

9. BIG DATA Y LA ISO 20000-1:2011

NOTA DEL EDITOR: El objetivo de la Norma ISO 20000-1 es certificar el SGS (Sistema de Gestión de Servicios) de una empresa, que incluya políticas y un marco de trabajo orientado a procesos, para hacer posible una efectiva gestión e implementación de todos los servicios.

La implantación de algunos procesos de los que conforman la Norma, requerirá para dicho alcance una especial atención dada la mayor complejidad inherente al tipo de servicio.

Aplican significativamente al Big Data:

  • Gestión de la Capacidad
  • Gestión de Nivel de Servicio

Gestionar la Capacidad y el Nivel de Servicio manejando volúmenes ingentes de datos con crecimiento exponencial, no es tarea fácil pero resulta imprescindible para atender eficaz y eficientemente  las necesidades del negocio.

La certificación ISO 20000-1 acredita a un proveedor de servicios de Big Data como su capacidad de proveer servicios de calidad constante, según se hayan acordado en los SLAs, pese a su variabilidad en volumen, y a un coste razonable.

NOTA DEL EDITOR: La relación entre Big Data y las normas ISO 20000-1 e ISO 27001, se estudia mucho más ampliada en la ponencia que presenté en el Congreso Nacional itSMF los días 11 y 12 de Noviembre de 2013 en Madrid, bajo el título “Big Data: NO sin Gobierno, NO sin Gestión”.  

10. BIG DATA Y LA ISO 27001

 NOTA DEL EDITOR: El objetivo de la Norma ISO 27001 es certificar el SGSI (Sistema de Gestión de la Seguridad de la Información) de una empresa, especificándolos requisitos para la creación, implementación, funcionamiento, supervisión, revisión, mantenimiento y mejora de un SGSI documentado, teniendo en cuenta los riesgos empresariales generales.

La seguridad de la Información ha de estar presente en todos los procesos del negocio.

Debe velarse por preservar los siguientes atributos de la información tratada en el Big Data:

  • DISPONIBILIDAD: Garantizar que la información esté disponible y se pueda usar cuando se necesite.
  • CONFIDENCIALIDAD: Garantizar que la información esté disponible exclusivamente para personas autorizadas.
  • INTEGRIDAD: Garantizar que la información sea completa, precisa y protegida contra cambios no autorizados.

Es intuitivo que a mayor complejidad y volumen de la información, más difícil será protegerla de forma adecuada y proporcional al valor de la misma y al cálculo de los riesgos asociados en base a:

  • Amenazas
  • Vulnerabilidades
  • Impacto para el negocio

 Certificar un SGSI en base a la ISO 27001 y con alcance del servicio de Big Data es una compleja pero acertada decisión  dada la naturaleza de alto volumen, velocidad de incremento y variedad de los datos.

11. APLICACIONES

11.1. COMERCIO MINORISTA

En general, la “minería de datos” o “extracción de datos” es una práctica habitual en los supermercados.

Les confiere la capacidad de registrar las preferencias de los clientes, analizar Comportamientos de Compra y fijar precios en consonancia, pero sobre todo ha permitido a los establecimientos diferenciarse, ofrecer los incentivos adecuados para atraer a los clientes y competir sobre una Base Segmentada de comparación de precios.

Una innovación reciente ha venido de la mano de los datos almacenados por los programas de tarjetas de fidelización. Algunas cadenas de supermercados británicas utilizan regularmente los historiales de compra de las tarjetas de fidelización para Adaptar las Promociones a cada cliente en forma de cupones.

Otras cadenas, como las de moda, también están adentrándose en el mundo del Big Data. Un ejemplo es Inditex, propietaria de las tiendas Zara, que recoge datos de sus tickets de caja para identificar la demanda de determinadas prendas. Controla la mayor parte de su cadena de suministro y utiliza una estrategia de Producción Ajustada JIT (Just In Time) que evita la acumulación de existencias. Si identifica una nueva tendencia, tarda pocas semanas en desarrollar un nuevo producto y tenerlo disponible en las tiendas, siendo la media del sector de unos seis meses.

11.2. FABRICACIÓN

El análisis de sus Big Data puede acelerar considerablemente la velocidad con que desarrollan un producto. También permite a los diseñadores y fabricantes compartir datos de forma rápida y económica, así como crear Simulaciones para probar diferentes diseños.
Tanto el sector aeroespacial como los fabricantes de coches analizan sus Big Data para estos fines.

Toyota, Fiat y Nissan aseguran que han reducido los plazos de desarrollo entre un 30% y un 50% optimizando mediante análisis de Big Data en su Cadena de Suministro.

11.3. SANIDAD

Los sistemas nacionales de salud suelen ser grandes, complejos y con elevado presupuesto. Se puede usar Big Data como herramienta de gestión para reducir las listas de espera y mejorar la forma en que se recuperan y actualizan los registros e historiales médicos de los pacientes.

11.4. GESTIÓN EMPRESARIAL

El análisis de grandes conjuntos de datos no sólo ofrece un inmenso atractivo a las áreas de Marketing y Comercial en las empresas, sino que también puede ayudar a mejorar los Procesos de Gestión.

Las empresas de distribución y los fabricantes procesan sus Big Data para optimizar su Cadena de Suministro y sus Inventarios. También se puede usar Big Data para potenciar los Flujos de Caja y reducir todo lo posible el ciclo de conversión de efectivo de una empresa, es decir, el tiempo que pasa entre que la tesorería se gasta en el proceso de producción y se recibe el dinero de los clientes.

Big Data también puede ayudar a mejorar aspectos del Gobierno Corporativo creando determinados Controles de Riesgos. Un problema común es que las decisiones de gestión pueden estar basadas en acontecimientos concretos y estar mal fundamentadas por esa falta de visión global.

Poner Big Data a disposición de toda una empresa tiene ventajas considerables. Por ejemplo, puede animar a divisiones con peores resultados a mejorar sin intervención directa de la dirección de la empresa. Una aplicación común es clasificar los Objetivos de Ventas por división o incluso por empleado.

Está aumentando la demanda de software que pueda ofrecer este tipo de estadísticas e indicadores de rendimiento. También se realiza un uso generalizado de Big Data en el sector de la Selección de Personal y en los departamentos de RR.HH. de grandes empresas. Los candidatos son filtrados y los CV son analizados automáticamente con aplicaciones especializadas.

12. EL BIG DATA CREA VALOR

12.1. INTRODUCCIÓN

La potencial creación de valor que supone el Big Data puede provocar una transformación al tener implicaciones respecto a cómo las organizaciones deberán ser diseñadas, organizadas y gestionadas.

Si partimos de un mundo en el que la experimentación a gran escala es posible:

  • ¿Cómo tienen que evolucionar las funciones corporativas y actividades de marketing?
  • ¿De qué manera los procesos de negocio cambian, y cómo valoran y aprovechan las empresas sus activos (en particular los activos de información)?
  • El acceso de una empresa a la capacidad de análisis del Big Data, ¿Podría conferirle potencialmente más valor que una marca?
  • ¿Qué modelos de negocio existentes son susceptibles de ser interrumpidos?
  • ¿Cómo va a afectar a los modelos de negocio existentes y las infraestructuras competir con nuevos competidores ágiles  que son capaces de procesar con rapidez y tomar ventaja de los datos de consumo detallados que se está convirtiendo rápidamente en fuentes disponibles, por ejemplo, lo que se dice en los medios sociales o lo que los sensores informan que se está haciendo en el mundo?
  • ¿Y qué pasará cuando el superávit informativo empiece a cambiar desde los proveedores hasta los clientes, en la medida que mediante su análisis de datos comparen las relaciones entre precios y calidad de toda la competencia del sector?

12.2. CREAR TRANSPARENCIA

Simplemente, hacer grandes volúmenes de datos más fácilmente accesibles a las partes interesadas de manera oportuna puede crear un enorme valor. En el sector público, por ejemplo, hacer que los datos relevantes sean más fácilmente accesibles entre administraciones separadas puede reducir significativamente el tiempo de búsqueda y el procesamiento.

En la industria manufacturera, la integración de los datos de I + D, ingeniería y fabricación de unidades para permitir la ingeniería concurrente puede reducir significativamente el tiempo de comercialización y mejorar la calidad.

12.3. HABILITAR LA EXPERIMENTACIÓN

Para descubrir las necesidades, exponer variabilidad y mejorar el rendimiento.

Big Data proporciona a las organizaciones la posibilidad de instrumentar procesos de análisis mucho mas afinados.

Los múltiples datos que se obtienen de forma natural o mediante experimentos controlados,  permiten analizar la afectación en el rendimiento, comprender su causa raíz y su modelo de comportamiento, lo que facilitará a los líderes gestionar a niveles superiores.
12.4. SEGMENTAR LA POBLACIÓN

Para poder personalizar las acciones, Big data permite a las organizaciones crear segmentaciones muy específicas y adaptar los productos y servicios para satisfacer esas necesidades específicas.

Este enfoque es muy conocido en Marketing y en Gestión de Riesgos. Incluso los bienes de consumo y empresas de servicios que han utilizado la segmentación por muchos años están empezando a desplegar técnicas de análisis de Big Data cada vez más sofisticadas, como la microsegmentación en tiempo real de los clientes objetivo de las promociones publicitarias.
12.5. DECIDIR EN BASE A ALGORITMOS AUTOMATIZADOS

Se trata de la sustitución/apoyo a la toma de decisiones humanas con algoritmos automatizados.

Sofisticados análisis pueden mejorar sustancialmente la toma de decisiones, reducir al mínimo los riesgos, y descubrir información valiosa que de otro modo permanecería oculta.

Como ejemplos de dichos análisis citaremos:

  • Permiten a las agencias financieras utilizar motores automatizados de cálculo de riesgo con un análisis más ajustado de los candidatos.
  • Permiten  a los minoristas que pueden utilizar algoritmos para optimizar los procesos de toma de decisiones, tales como el ajuste automático de los stocks y los precios en respuesta a lo que ocurre en tiempo real en las tiendas y en las ventas online.

En algunos casos las decisiones no necesariamente serán automatizadas pero si asistidas mediante el análisis de Big Data, usando técnicas de muestras completas en lugar de sólo muestras pequeñas como las que las personas, mediante hojas de cálculo, podemos manejar y entender.

Algunas organizaciones ya están tomando mejores decisiones mediante el análisis de conjuntos de datos completos de los clientes, empleados, o incluso sensores incorporados en los productos.

12.6. INNOVAR NUEVOS MODELOS DE NEGOCIO

Big data permite a las empresas crear nuevos productos y servicios, mejorar los existentes, e inventar modelos de negocio completamente nuevos.

Los fabricantes están utilizando datos obtenidos de la utilización de los productos reales para mejorar el desarrollo de la próxima generación de productos innovadores y la creación de una oferta de servicios de postventa adecuada a los productos.

La aparición de los datos de localización en tiempo real, ha creado un conjunto totalmente nuevo servicios como son los seguros de accidentes con tarificación personalizada en función de dónde y cómo, la gente conduce sus coches.

13. BIG DATA EN LAS AA.PP.

13.1. EFICIENCIA

Eficiencia, a través de decisiones más inteligentes en torno a la organización de los distintos departamentos, la priorización de las tareas internas y la reducción de los costes del funcionamiento operativo. El Instituto Global Mckinsey estima que la explotación de los conjuntos de datos masivos alberga un valor de 200.000 millones de euros para la administración pública europea.

13.2. LUCHA CONTRA EL FRAUDE

Gracias a la gestión de conjuntos masivos de datos, la Oficina Federal de Investigación de los Estados Unidos, más conocida por sus siglas, FBI, culminó en 2011 la mayor operación de su historia contra el fraude en el sistema de cobertura médica del Gobierno.
En concreto, destapó una red de empresas y particulares que facturaron ilegalmente a cuenta del programa de asistencia pública Medicare, destinado a personas mayores de 65 años, unos 4.100 millones de euros. Esta cifra representa casi el 1 por ciento de la dotación económica de dicho programa en 2010.

13.3. MEJORA EN LA RECAUDACIÓN DE IMPUESTOS

Se considera que el tratamiento a gran escala de la información que atesora la Hacienda del Reino Unido podría ahorrar a los contribuyentes de ese país entre 20.000 y 41.000 millones de euros, es decir, una media de 470 euros por cabeza. Un 6,25 por ciento de esa cantidad se obtendría gracias a una reducción significativa del fraude; un 12,5 por ciento a la mejora del sistema de recaudación de impuestos; y un 81,25 por ciento a un incremento de la eficacia operativa.

13.4. SMART CITIES (CIUDADES INTELIGENTES)

Una buena oportunidad para la gestión pública del Big Data es a través de las llamadas Smart Cities.

Se trata de urbes donde el IoT (Internet de las Cosas) y el Big Data se integran para generar información con la que resolver los problemas modernos de habitabilidad, seguridad y eficiencia energética.

Lo hacen mediante millones de sensores emplazados en semáforos, farolas, contenedores de basura, parterres, autobuses, coches patrulla, cámaras de videovigilancia, parquímetros municipales, bajo el asfalto o las aceras…

Una supervisión en tiempo real de la información asociada a estos elementos urbanos puede ayudar a ahorrar hasta un 15% en el consumo de agua de riego y un 7% en el consumo de agua potable; un 25% en el transporte de basura; un 17% en el uso de energía eléctrica y otro 17% en las emisiones de CO2, según un estudio de Telefónica.

14. PROFESIÓN RELACIONADA (CIENTÍFICO DE DATOS)

Con la proliferación de Internet, las redes sociales y los sensores a partir de la “informática de las cosas”, cada vez se genera mayor volumen de datos  y como consecuencia aparece el Big Data. A partir de todo ello surgen nuevas profesiones.

Según la prestigiosa consultora Gartner, en 2015 unos 4,4 millones de empleos a nivel mundial estarán relacionados con el Big Data.

NOTA DEL EDITOR: Las diferentes profesiones relacionadas con Big Data se estudian mucho más ampliadas en la ponencia que presenté en el Congreso Nacional itSMF los días 11 y 12 de Noviembre de 2013 en Madrid, bajo el título “Big Data: NO sin Gobierno, NO sin Gestión”. 

Aparece el Científico de Datos, profesional gracias al cual se pueden identificar más y mejores oportunidades de negocio. Su principal desempeño consiste en saber analizar los datos que manejan las empresas para convertirlos en valioso conocimiento y lograr ser así más competitivas.

Con mentalidad analítica, el Científico de Datos debe saber asociarlos, procesarlos y visualizarlos desde múltiples perspectivas para encontrarles un nuevo sentido.

Como capacidades mas valoradas debe saber de matemáticas (estadística y analítica) y programación, pero también debe tener habilidades de interlocutor (saber escuchar y comunicar lo que descubre), tanto a la parte de Negocio como a la de TI. Debe analizar, entender y proponer. Innovar aportando nuevas ideas que incluso pueden llegar a transformar el negocio.

15. TÉCNICAS Y TECNOLOGÍAS DE BIG DATA

15.1. TÉCNICAS PARA ANALIZAR BIG DATA

Hay muchas técnicas que se basan en disciplinas como la estadística y la informática que pueden utilizarse para analizar grandes conjuntos de datos. Presento una lista que, sin llegar a ser exhaustiva dada su continua evolución, relaciona algunas categorías de técnicas aplicables en una amplia gama de situaciones. Todas las técnicas que lista aquí pueden aplicarse a Big Data, aunque algunas de ellas también sirven para conjuntos menores de datos.

Solo se relacionan, ya que su detalle puede consultarse en el documento de  McKinsey Global Institute, referenciado en el apartado de BIBLIOGRAFÍA CONSULTADA al final de éste artículo.

  • A/B testing
  • Association rule learning
  • Classification
  • Cluster analysis
  • CrowdsourcinData fusion and Data integration
  • Data mining
  • Ensemble learning
  • Genetic Algorithms
  • Machine learning
  • NLP (Natural Language Processing)
  • Neural Networks
  • Optimization
  • Pattern Recognition
  • Predictive modeling
  • Regression
  • Sentiment Analysis
  • Signal Processing
  • Spatial Analysis
  • Statistics
  • Supervised learning
  • Simulation
  • Time series analysis
  • Unsupervised learnin
  • Visualization

15.2. TECNOLOGÍAS DE BIG DATA

Por citar algunas de ellas:

Cassandra: Un Sistema de Gestión de Base de Datos de código abierto (libre) diseñado para manejar grandes cantidades de datos en un sistema distribuido. Este sistema fue desarrollado originalmente en Facebook y ahora es administrado como un proyecto de la Fundación de Software Apache.

Hadoop: Una plataforma de software de código abierto (libre) para el procesamiento de enormes conjuntos de datos en ciertos tipos de problemas en un sistema distribuido. Su desarrollo se inspiró en MapReduce de Google y el sistema de archivo de Google. Fue desarrollado originalmente en Yahoo! y ahora es administrado como un proyecto de la Fundación de Software Apache.

Hive: Es un sistema de almacén de datos para Hadoop que facilita una fácil síntesis de datos, consultas ad hoc y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivo compatibles con Hadoop. Hive proporciona un mecanismo para proyectar la estructura en estos datos y consultar los datos utilizando un lenguaje SQL llamado HiveQL. Al mismo tiempo dicho lenguaje también permite a los programadores tradicionales de map/reduce conectar sus mappers personalizados y reductores cuando no es conveniente o es ineficiente para expresar esta lógica en HiveQL.

Pig: Es una plataforma para el análisis de grandes conjuntos de datos que consiste en un lenguaje de alto nivel para construir programas de análisis de datos, enlazado con la infraestructura para la evaluación de estos programas. La característica destacable de los programas de Pig es que su estructura es favorable a la paralelización substancial, que en los ciclos les permite manejar conjuntos muy grandes de datos.

Mahout: Tiene como objetivo construir bibliotecas escalables de aprendizaje automático.  Actualmente se apoya sobre todo en cuatro casos de uso: Minería de recomendación que trata de obtener el comportamiento de los usuarios, clustering mediante agrupación de documentos relacionados, clasificación de documentos nuevos a partir de documentos existentes y minería de conjuntos de elementos que frecuentemente aparecen juntos.

HBase: Una  base de datos no relacional, distribuida, de código abierto (libre), basada en  Big Table de Google. Fue desarrollada originalmente por Powerset y ahora es administrada como un proyecto de la Fundación de Software Apache como parte de Hadoop.

R: Un lenguaje de programación y entorno de software para computación y gráficos estadísticos  basado en código abierto (libre). El lenguaje R se ha convertido en un estándar de facto para el desarrollo de software estadístico y de análisis de datos. R es parte del Proyecto GNU, una colaboración que apoya proyectos de código abierto.

15.3. VISUALIZACIÓN

La presentación de la información de tal manera que los interesados puedan asimilarla de manera efectiva es fundamental si queremos obtener del análisis de datos conclusiones concretas.

Los seres humanos son altamente eficaces en la percepción de ciertos tipos de patrones con sus sentidos, pero con importantes limitaciones en su capacidad para procesar grandes cantidades de datos numéricos o de texto.

Por esta razón, hay una enorme cantidad de investigación e innovación en el campo de la visualización, es decir, las técnicas y tecnologías utilizadas para la creación de imágenes, diagramas o animaciones para comunicar, entender y mejorar los resultados de los análisis de Big Data.

Solo se relacionan, ya que su detalle puede consultarse en el documento de  McKinsey Global Institute, referenciado en el apartado de BIBLIOGRAFÍA CONSULTADA al final de éste artículo.

  • Tag Cloud
  • Clustergram
  • History Flow
  • Spatial Information Flow

16. BIBLIOGRAFÍA CONSULTADA

The McKinsey Global Institute. Report: “Big data: The next frontier for innovation, competition, and productivity”. June 2011. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers.

Report Big Data

  1.  “Bringing Big Data to the enterprise”. Página Web.

Big Data

  1.  “UNDERSTANDING BIG DATA – Analitycs for Enterprise Class – Hadoop and Streaming Data”. 2012. Paul C. Zikopoulos, Chris Eaton, Dirk de Roos, Thomas Deutsch, George Lapis. Mc Graw Hill.

FUOC (Fundación para la Universitat Oberta de Catalunya). ”DEL CLOUD COMPUTING AL BIG DATA – Visión introductoria para jóvenes emprendedores”. Septiembre 2012. Jordi Torres i Viñals. (Coordinación: José Antonio Morán).

Blog Cloud & Big Data (Jordi Torres)

[1] ARTICLE 29 DATA PROTECTION WORKING PARTY. ’European Data Protection Authorities clarify principle of purpose limitation’. Brussels, 8 April 2013. Press Release.

Principio de limitación de finalidad

[2] ARTICLE 29 DATA PROTECTION WORKING PARTY. “Opinion 03/2013 on purpose limitation”. 2 April 2013. 00569/13/EN.

WP203 Limitación de finalidad

José Luis Rodriguez. “Big Data (2): el nuevo combustible de la era digital”. 7 de Agosto 2012. TC Blog (Territorio Creativo).

TC Blog Big Data

[3] James Kobielus. “When you should put big data in the cloud”. March 21, 2013.InfoWorld.

Big Data in the Cloud

P. Zikopoulousa y C. Eaton. “Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data”. 2011.  McGraw-Hill.

Fidelity worldwide investment. “Big data: una revolución industrial en la gestión de los datos digitales”. 2012. In Perspective.

Big Data: una revolución industrial

Harward Business Review. “Data Scientist: The Sexiest Job of the 21st Century”. October 2012. Thomas H. Davenport and D.J. Patil.

Data Scientist

Telefónica. A un CLIC de las TIC. “De profesión: Científico de Datos”. 11 de Febrero 2013. Fátima García (comunicación 2.0)

Científico de Datos

José Luis Rodriguez. “Big Data (2): el nuevo combustible de la era digital”. 7 de Agosto 2012. TC Blog (Territorio Creativo).TC Blog Big Data

  1.  “Convertir el Big Data en oportunidades de negocio pasa por la excelencia en los procesos de negocio”. 3 de Febrero 2013. Maria Guilarte.

Big Data en MuyComputerPRO