¡Llega la era petabyte!

Comienza una época con nombre de medida gigante: el petabyte, que equivale a un millón de gigas. Además de mejorar nuestra comunicación, el flujo de cantidades ingentes de datos acelera el propio desarrollo de la ciencia.

(reportaje publicado en el núm de noviembre de la revista Muy Interesante)

How Large Is a Petabyte- - Petabyte - Gizmodo

Busco piso, luminoso, en zona tranquila y con una habitación lo suficientemente grande como para que quepa una estantería de unos 450 metros. Porque ése es el espacio que se necesitaría para poner todos los libros que obtendría si impriera la información que genero. Y no soy la única. A cada habitante de este planeta le sucede lo mismo. Y es que sólo en las últimas tres décadas la humanidad ha producido mucha más información que en los 5000 años anteriores de existencia de la especie. Nada menos que unos 281 exabytes, es decir, 281.000 gigabytes. ¿Qué cuánto es eso? Pues bien, para que se hagan una idea, dividan esa cifra entre el número de habitantes de la Tierra, que es de 6800 millones de personas. ¿Ya? Eso les dará que tocan a unos 45 gigabytes de datos por persona. Y si en un solo giga caben unas 250 canciones en MP3 o un millar de fotos digitales, ¡imagínense en 281.000 millones!

Vivimos rodeados de cantidades masivas de datos. Son la llave hacia los descubrimientos y compartirlos de forma rápida, un acelerador de la innovación que ha propiciado que en la última mitad de este siglo –y sobre todo a partir de finales de los 80- se hayan producido avances cientítificos de gigante en ámbitos como la biología, la física o las matemáticas. Hace no tanto tiempo, en la Edad Media, por ejemplo, apenas había fuentes de información y las noticias –y sólo algunas- se transmitían a través de juglares y correos que tardaban días, semanas, meses en llegar. La población era eminentemente analfabeta y los libros eran muy escasos y se hallaban en manos del clero. La invención de la imprenta por parte de Gutemberg supuso la primera revolución cultural: democratizó el acceso al conocimiento e hizo que la sabiduría popular, las ciencias, la literatura, la política, la economía, la historia, quedaran inmortalizadas, atrapadas en papel al alcance de todos.

La siguiente revolución la propició Internet y su capacidad infinita de almacenar y almacenar información, disponible a un solo clic. De hecho, ha contribuido a esta especie de síndrome de Diógenes informativo que padece la humanidad. Generamos  datos sin parar: subimos fotos y vídeos a la Red tomados con nuestros teléfonos móviles o cámaras digitales; colgamos canciones, dibujos, incluso cortometrajes o videoclips de elaboración casera; vemos la tele en directo, a la carta. Hablamos con un amigo que vive en la otra punta del mundo a través de Skype. Nos empapamos de la biografía de un cantante antes de ir a su concierto. Vemos en directo cómo pasa la vida en Picadilly Circus, en Trafalgar Square o en los Campos Elíseos. Envíamos un mail, 50 mails. En definitiva, datos, datos y más datos que se trasladan de un sitio a otro a cada instante.

¿Naufragio entre bits?

Desde que la banda ancha empezó a correr por venas y arterias de la ciudad, a comienzos de este nuevo siglo, el uso de la Red se ha multiplicado en un 305%. Y lo seguirá haciendo, porque generar contenido es gratis, o casi. Dicen los expertos que de aquí un año y poco, para 2011, el universo digital será 10 veces mayor al de 2006 y, además, se multiplicará por seis cada año. No es de extrañar si pensamos que las previsiones apuntan que en 2014 habrá en todo el planeta 2000 millones de personas conectadas a internet y unos 3000 millones de usuarios de teléfono móvil.

Generar y disponer de toda esa información es genial, es una puerta abierta al conocimiento y en el ámbito de la ciencia está llevando a obtener resultados antes impensables. “Internet ha revolucionado el mundo de la medicina –asegura Maribel Torres, médico especialista en radiología del Hospital de La Paz-. Puedes compartir información con otros hospitales de forma inmediata, participar en estudios multicentro. Antes, los radiólogos teníamos que mandar cajas con placas, con lo que pesaban, por correo tradicional, al especialista que vivía en la otra punta del mundo, con el riesgo de que se rompieran, se rayaran o se perdieran. Ahora grabamos la imagen en un sistema digital y lo almacenamos en servidores que están en red. Ahorramos muchísimo espacio físico al hospital y es una práctica más respetuosa con el planeta”.

Para Josep Maria Gili, profesor de investigación del Instituto de Ciencias del Mar de Barcelona-CSIC , “el hecho de tener acceso a la información al instante también hace que se produzca menos repetición, sobre todo en el campo de las ciencias experimentales. Hace 20 años, a lo mejor estabas trabajando en un tema y no te dabas cuenta de que era el mismo que el de otro grupo de investigación hasta que se publicaba. Internet ha facilitado el acceso a la información, todo está allí y lo puedes consultar al momento. Y es, además, un material ampliado, mucho más completo que el que encuentras en revistas impresas, con más documentación gráfica. Pero eso tiene una contrapartida y es la cantidad ingente de información que se publica y que te exige un criterio para filtrar qué tiene y qué no tiene interés”.

Y es que ese océano de bits puede ser también un lastre insuperable. Hagan la prueba: tecleen en Google cualquier palabra, por ejemplo ‘revolución francesa’. En 0,47 segundos obtendrán 2.190.000 resultados, de los cuales sólo unos cuantos se adecuarán a lo que necesita o quiere saber. Y puede que llegar a esa información le lleve un buen rato. Algunos expertos se atreven a vaticinar que la web, no tardando mucho, se va a colapsar, incapaz de seguir asumiendo tal volumen de datos. “El problema –dice Daniel Newman, analista de Gartner, una de las consultoras en tecnologías de las sociedad de la información más importantes del mundo- no es que haya demasiada información, sino cuánta es relevante. […] Deberíamos encontrar vías para conseguir información de manera más rápida, segura y simple”.

Y esto, ¿dónde lo meto?

Que haya tanta información no sólo genera problemas para encontrarla, sino también para almacenarla. Sólo en el año 2007 la información que se creó, capturó y replicó excedió por primera vez en la historia la capacidad de almacenamiento disponible. Antes, la información se almacenaba en los libros, en las bibliotecas, pero el saber ocupa mucho, mucho lugar. Sólo tenemos que pensar en los 20 tomos de enciclopedia que teníamos en casa y a los que le íbamos añadiendo “actualizaciones” en versión tocho año tras año. La llegada de los primeros ordenadores, a mediados del siglo pasado, resolvió en parte ese problema: las palabras, las frases, las páginas se transformaron en ceros y unos y comenzamos a guardar kilobytes en discos floppy, más tarde empezamos a usar discos duros para meter megabytes, y ahora incluso terabytes, que, aunque nos parece mucho, lo cierto es que están superados. Actualmente vivimos en la era del petabyte y se almacena en… nubes o cloud computing. Información que reside en internet y a la que se accede a través de aplicaciones.

A esta escala, la información ya no es cuestión de una taxonomía de tres o cuatro dimensiones y orden, sino de estadística. Por eso hubo que dar con nuevas maneras de gestionar toda ese conocimiento para que no fuera mero ruido y tuviera utilidad. La clave para ello está en las matemáticas y eso lo descubrió Google, que se ha convertido en el método más eficaz para el tratamiento de datos. En lugar de intentar entender la información y de hallar criterios semánticos para clasificarla, aplica algoritmos matemáticos y pura estadística. Y su invento… funciona. Los motores de búsqueda han convertido la red en una única mega base de datos que abarca todos los campos, desde la biología y la cosmología, hasta la lingüística, la sociología o la literatura. Y gracias a las matemáticas y a la posibilidad de manejar esas cantidades de datos, se han hecho avances increíbles en muchos campos, como la cosmología o la genética.

“Con los superordenadores y su capacidad de cálculo, podemos realizar simulaciones complejísimas del universo, como responder si es único o hay muchos –señala el reputado cosmólogo mexicano Carlos Frenk-. Esas simulaciones producen una cantidad ingente de datos que a un cosmólogo le llevaría toda la vida revisar”. Esos superordenadores funcionan mediante algoritmos estadísticos que analizan millardos de datos y buscan patrones allí donde la ciencia y el ser humano no llegan. Es más, todos esos bits generados se introducen en complejos clusters de computación, los más grandes vistos hasta el momento, que son los encargados de digerir la información. “Recientemente, hicimos una simulación, la más extensa sobre el universo hasta el momento, con un superordenador superpotente ubicado en Alemania. Al ordenador le llevó unos pocos meses realizar lo que todas las personas del mundo, 6800 millones de habitantes, trabajando día y noche sin descanso, sin comer, ni beber, sólo calculando, hubieran tardado 10 años en acabar”, señala Frenk.

Datos y más datos

En ocasiones, el poder almacenar y manejar petabytes de información de forma algorítmica hace que se hallen patrones y explicaciones allí donde la ciencia hasta el momento no llega. Por ejemplo, en el campo de la genética. El descubrimiento de las interacciones entre los genes y las proteínas, así como otros aspectos epigenéticos desafiaban la idea hasta aquel momento imperante sobre el ADN y suponían una evidencia de que el medio ambiente podía influir en rasgos heredados, lo que durante mucho tiempo se consideró imposible genéticamente. El científico estadounidense J Craig Venter, por ejemplo, arrojó luz sobre este tema utilizando secuenciadores de alta velocidad y superordenadores que analizaban estadísticamente los datos que se iban produciendo para proponer una secuenciación génica.

Este científico consiguió pasar de secuenciar organismos individuales a ecosistemas enteros. En 2003 comenzó con el océano y en 2005 siguió con el aire. Y ha descubierto miles de especies desconocidas de bacterias y otras formas de vida. Pero Venter apenas sabe nada de las especies que ha encontrado. Sólo dispone de un pitido estadístico, una secuencia única que introduce en un superordenador y éste la compara al resto de millones de secuencias que están en la base de datos. Si no hay otra igual, tiene que representar una nueva especie. A veces, encuentra que en parte esos pitidos se corresponden en buena medida con secuencias de especies conocidas, por lo que puede aventurar algunas hipótesis sobre los nuevos animales o plantas. Pero nada más. Sólo tiene datos. Y sin embargo, ha hecho unos avances excepcionales en biología.

Y ésta parece ser la tendencia que empieza a imperar en ciencia: trabajar con petabytes de datos, superordenadores y computación distribuida para avanzar en el conocimiento. En este sentido, la National Science Foundation norteamericana anunció a comienzos del año pasado que iba a poner en marcha un programa para financiar la investigación basada en una plataforma de computación distribuida a larga escala, desarrollada por Google e IBM, junto a seis universidades. Han bautizado al proyecto como Cluster Exploratory; contará con 1600 procesadores, varios terabytes de memoria y cientos terabytes de procesamiento y ya hay varios proyectos sobre la mesa, como simulaciones del cerebro y del sistema nervioso.

La posibilidad de disponer de enormes cantidades de datos, de tener la capacidad de almacenarlos junto con las nuevas herramientas estadísticas que permiten analizarlos están abriendo nuevas vías a la ciencia y la tecnología. Suponen una nueva forma de observar y entender el mundo. Y el gran reto será no cómo almacenar toda esa información, sino hallar maneras de darle sentido. La era petabyte acaba de empezar.

(despieces)

GRID, la web 5.0

Seguramente, el LHC no provocará el fin del planeta como muchos agoreros vaticinaron, pero sí tal avalancha de datos que hace tan sólo una década a los científicos les hubiera llevado toda una vida trabajar con la información generada en un día. Para lidiar con esa ingente cantidad de bits se han tenido que desarrollar estrategias para distribuir los datos a 150 centros de cálculo repartidos por todo el planeta. Es así como han creado la GRID, una tecnología capaz de repartir los terabytes generados por el LHC, de manera que los científicos puedan acceder a ellos desde cualquier lugar del planeta al instante.

El Puerto de Información Científica (PIC), ubicado en el campus de la Universidad Autónoma de Barcelona, alberga uno de los nodos del GRID. “Es el primer paso del análisis de datos de física de altas energías –explica Gonzalo Merino, físico del PIC, al frente del proyecto GRID-. Básicamente, se trata de convertir los datos en crudo que toman los detectores, como si fueran el negativo de una fotografía, en un formato a partir del cual los invetsigadores puedan extraer información que les sea útil”. Además de esta tarea, el PIC guardará una copia de aproximadamente  el 5% de los datos que se generen durante el primer año de vida de funcionamiento del LHC, o lo que es lo mismo, alrededor de un petabyte de información, mil millones de gigabytes que, si se tuvieran que pasar a CD, generarían una montaña de unos 2 km de altura.

De momento, el uso del GRID está  restringido a la comunidad científica pero a largo plazo los expertos del PIC creen que se pondrá a disposición de todo el mundo, como ocurrió con internet. Dicen que será un paso adelante en la evolución de la Red, “la web 5.0”, como dice Manuel Delfino, director de este centro. Si hasta ahora el protocolo http ha permitido compartir documentos entre ordenadores, la tecnología GRID hará posible compartir capacidad de cálculo, lo que puede ser muy útil a la hora de procesar gran cantidad de información, de datos, como al hacer análisis de genes y proteínas para el diagnóstico médico. De hecho, el PIC ya tiene en marcha un proyecto con el Hospital de Sant Pau de colaboración en un estudio de enfermedades neurodegenerativas.

Prediciendo enfermedades

El 26 de diciembre de 2004 un maremoto azotó el sudeste asiático. Poco antes de las 8 de la mañana el suelo tembló a 4000 metros de profundidad en el Océano Índico, a unos 260km al oeste de la costa de Aceh, en Indonesia. El sismo fue de 9 grados en la escala de Richter y provocó una cadena de maremotos que sumergieron en una densa capa de barro, agua y cadáveres aquella zona. Pero la pesadilla no acabó entonces. Días después,  la amenaza de que se produjeran epidemias de enfermedades como el cólera se cernió sobre la ya maltrecha población. Las condiciones climáticas tienen mucho que ver con el desarrollo de muchas epidemias y desde Barcelona, un equipo de científicos del laboratorio de investigación del clima (LRC http://www.lrclima.net/), del parque científico de Barcelona han dado con una fórmula para poderlas predecir. Estudian el comportamiento del clima a lo largo del tiempo, su evolución y cómo influye en diversos aspectos de la vida. Estos investigadores han estudiado a fondo el caso de la India y han desarrollado un modelo climático. “Nos da una capacidad predictiva y es anticipativo, por lo que puede implementarse como un sistema de alerta temprana de epidemias de cólera”, explica Xavier Rodó, director del LRC.

Enfermedades como el cólera, la malaria, la gripe acostumbran a salir en la misma estación pero no cada año. Por eso, el LCR estudió los factores que propician cada enfermedad. Para ello tuvieron que recoger una gran cantidad de datos, algunos de tipo demográfico, como la clase de población, la inmunidad adquirida, el número de habitantes, las políticas de vacunación. Y otros tenían que ver más con el clima. El hecho de que la India hubiera sido colonia británica ayudó a las tareas de investigación porque los ingleses mantuvieron muchos registros con información sobre la población y el país.

El equipo del LCR, además, desarrolló un modelo climático para intentar dar sentido a los datos de que disponían. Los primeros modelos climáticos son de los años 70 y eran muy sencillos. Con el paso el tiempo, se fueron haciendo más complejos y aunque hoy en día funcionan bastante bien, son imperfectos. En la actualidad, hay unos 15 modelos climáticos y todos ellos presentan el mismo problema: las incertidumbres. Una de las formas de intentar obtener predicciones más fiables es comparando los resultados de todos los modelos y hacerlos simular una misma predicción del clima muchas veces variando algo algunos de los elementos, como la temperatura o las precipitaciones. Para ello, se utiliza un sistema de computación distribuida, similar al que emplea el proyecto SETI, de búsqueda de inteligencia extraterrestre a través del análisis estadístico de las señales de radio.  Se trata de repartir el cálculo de datos entre ordenadores personales, que tras obtener los resultados, los devuelven a la central. La potencia de estos cálculos es lo que permite acotar en gran medida las incertidumbres del modelo.

Para estar al día

A cada instante, se calcula que hay unas 18.000 webs en todo el planeta que publican noticias en al menos 40 idiomas. En 2002 la Comición Europea le pidió a sus investigadores que dieran con un método para monitorizar esas noticias, con el objetivo de ver lo que la prensa decía de la UE. Así fue como desarrollaron un software que monitoriza 1540 webs que generan unos 40.000 artículos cada día. No hay una base de datos, sino que son unos 10 gigabytes de información que fluyen a través de un algoritmo que busca correlaciones cada dia, 3,5 terabytes al año.  El sistema, llamado Europe Media Monitor (EMM), ahora también incluye vídeo, por lo que la cantidad diaria de información se mide en terabytes.

El EMM contabiliza el número de noticias y reportajes que se publican sobre un tema concreto y rastrea el nombre de gente y lugares para crear clusters geotageados, para, por ejemplo, sucesos como revueltas en Haití o disturbios políticos en Zimbabwe. Los clúster que crecen con mayor celeridad y más indican que un tema aumenta de importancia o de gravedad. Ahora desde la UE se está trabajando para poder predecir esas revueltas. Como disponen de un cantidad enorme de datos, intentan de hallar un modelo predictivo. Para ello están implementando un sistema de detección tonal: se trata de entender los verbos y los nombres, porque, afirman, si sabes cómo se siente la gente sobre algo, estás a un paso de ser capaz de adivinar lo próximo que van a hacer.

Anuncios

Una respuesta a “¡Llega la era petabyte!

  1. Ahora que estoy haciendo un proyecto sobre el tema me doy cuenta de la cantidad de información que generamos… Éste comentario sin ir más lejos, puede que lo lean 1 o 2 personas y automáticamente después caiga en el olvido… Da miedo.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s