Blog del suscriptor

Big data

La Big Data es una expresión usada frecuentemente en la actualidad, pero de la que desconocemos muchos aspectos. Fue definida en 2001 descriptivamente como las «5Vs» aplicadas a los datos masivamente almacenados dada la necesidad concurrente de volumen-velocidad-variedad-veracidad-valor.

De entre todas ellas la variedad es la que puede presentar una mayor dificultad comprensiva. Los datos pueden proceder de datos estructurados (numéricos y alfanuméricos) pero también de otras fuentes con diferentes formatos: imágenes, sonido, vídeos… Estos conforman las llamadas bases de datos no estructuradas siendo los algoritmos los responsables de extraer consecuencias de esa masa ingente de información. En el primer caso se emplea algún Sistema de Base de Datos como Apache Hbase y en el segundo caso un sistema de archivo más complejo empleándose el Hadoop Distributed File System (HDFS).

No hay duda de que los datos constituyen hoy un insumo crítico de la producción económica, junto con la tierra, el capital, la mano de obra y el petróleo. Profundizar en este aspecto requiere de un estudio específico por su relevancia. No en vano, constituye el núcleo de lo que se ha llamado IV Revolución Industrial o Industria 4.0, lo que provocará problemas de gran calado jurídico dada la concurrencia de legislaciones de protección de datos y datos personales, que por otro lado son básicos para que esta tecnología alcance las disrupciones productivas pronosticadas.

Las fuentes de datos, las más conocidas, son los buscadores de internet como Google, Explorer o Yahoo!; redes sociales como Facebook, Twitter, WhatsApp, Linkedin, Xing; compañías de comercio internacional como Amazon, EBay, Alibaba así como las centradas en el entretenimiento: YouTube y Spotify, entre otras muchas.

Debe incluirse el Open Data y la reutilización de los Datos Abiertos generados por muchas naciones, incluyendo a la Unión Europea y entidades internacionales, como el Banco Mundial, Fondo Monetario Internacional, WEF, entre otros.

En España se encuentra el proyecto Datos.gob.es que ofrece datos producidos por la Administración del Estado procedentes de todas las áreas de su actuación pública.
Habrá que sumar los ofrecidos por las otras administraciones, la Local y la autonómica y el resto de las entidades que integran el sector público de conformidad al art. 2 de la Ley 40/2015.

Los datos deben contener información de interés público, es decir, relevante o beneficiosa para la sociedad, accesibles, gratuitos, no discriminatorios, oportunos y, sobre todo, actualizados en formato abierto.

La tecnología que empleó originariamente el Big Data fue el Aprendizaje Automático, utilizando algoritmos programados con técnicas estadísticas y matemáticas que aplicados a los macrodatos arrojan sesgos predictivos en el comportamiento de las personas y consumidores, de ahí su importancia esencial para gobiernos y empresas.

Para Pedro Domingos, profesor de la Universidad de Washington, los algoritmos que la integran no buscan una ecuación demostrativa del patrón, sino que la deducen del análisis de los datos y cuanto mayor sea la cantidad más probabilidades tendrá de acierto. Es una hipótesis igualmente defendida por Abu-Mostafa, profesor de ciencias de la computación en el Instituto de Tecnología de California.

Esos datos masivos no estructurados se ven incrementados por lo que se ha denominado el Internet de las Cosas (Internet of things), conocido por el acrónimo IoT y se incrementaran más conforme se implante la tecnología 5G. La IoT consiste en la recopilación, almacenamiento y análisis de flujos de datos producidos por dispositivos inteligentes: teléfonos, tabletas digitales y un largo número de dispositivos de distinto y diferente uso: hogar, agrícola, empresarial, seguridad, sanidad, también instrumentos musicales… Este incremento adicional está dando lugar a lo que se denominar Huge Data.

En EEUU, el Departamento de Salud (HHS) promueve la investigación a través de su División de Investigación, Innovación y Empresas (DRIVe). Busca soluciones innovadoras para tratar la sepsis mediante la introducción de algoritmos de Aprendizaje Automático.

Además, los datos que posee el Instituto Nacional de Salud (NIH) procedentes del Proyecto de Microbioma Humano y del Programa de Investigación All of Us podrán ser procesados mediante inteligencia artificial para encontrar soluciones médicas.

En 2019, los investigadores financiados por el NIH emplearon inteligencia artificial para analizar los latidos cardiacos irregulares cuyos resultados podrán ser utilizados para mejorar la precisión y eficiencia de las lecturas de los electrocardiogramas.

Muchas opciones y posibilidades, aunque se trate de potencialidades más que de realidades que hayan podido ofrecer respuestas a desafíos ignotos.

Sigue los temas que te interesan

Blog del suscriptor

Opinión