El 5 de septiembre fue activado el servicio de búsqueda de bases de datos en la plataforma de Google. Dataset Search consiste en un motor que facilita el hallazgo de conjuntos de datos organizados en los miles de repositorios de datos que hay en internet. Esta innovación representa una herramienta de gran utilidad para los investigadores en distintas ciencias, periodistas, estudiantes, científicos de datos y cualquier persona que desee acceder a una base de datos en particular.

Hasta ahora, quien buscaba conjuntos de datos para una investigación se encontraba con cualquier clase de resultados asociados a las palabras claves introducidas, lo que significaba tener que “desmalezar” por cuenta propia los resultados para refinar la búsqueda. O como lo explica la página de información de Google Dataset Search: “Los conjuntos de datos y los datos relacionados suelen estar distribuidos entre varios repositorios de datos en Internet. En muchos casos, la información sobre estos conjuntos no está enlazada ni indexada por los motores de búsqueda, por lo que encontrar datos resulta tedioso o, en algunos casos, imposible”.

Un post publicado en el blog de Google explica que: “De forma similar a como funciona Google Scholar, Dataset Search le permite encontrar datasets dondequiera que estén alojados, ya sea un sitio de editor, una biblioteca digital o la página web personal de un autor”.

La compañía desarrolló pautas para que los proveedores de datasets describan sus conjuntos de datos de forma que Google (y otros motores de búsqueda) puedan comprender mejor el contenido de sus páginas web. Estas pautas incluyen “información sobresaliente sobre los conjuntos de datos: quién creó el conjunto de datos, cuándo se publicó, cómo se recopilaron los datos, cuáles son los términos para usar los datos, etc”. De esta manera, el sistema recopila y vincula esta información, analiza dónde puede haber diferentes versiones de los mismos conjuntos de datos, y ubica publicaciones que puedan estar describiendo o discutiendo el conjunto de datos.

Ese mecanismo se basa en el estándar abierto para describir metadatos “schema.org”. Es por esto que Google alienta “a los proveedores de datasets, grandes y pequeños, a adoptar este estándar común para que todos los datasets sean parte de este ecosistema sólido”.

Ahora mismo, en Dataset Search se pueden encontrar referencias a conjuntos de datos relativos a ciencias ambientales y sociales, así como datos de otras disciplinas, incluidos datos gubernamentales y datos proporcionados por organizaciones de noticias. “A medida que más repositorios de datos utilicen el estándar schema.org para describir sus datasets, la variedad y cobertura de los datasets que los usuarios encontrarán en la Dataset Search continuará creciendo”, precisó Google en su blog.

El siguiente ejemplo es una búsqueda de registros meteorológicos diarios en Dataset Search:

Aparecen datos de NASA y NOAA, así como de repositorios académicos como Dataverse de Harvard y Consorcio Interuniversitario de Investigación Política y Social (ICPSR).

Esta herramienta desarrollada por Google representa una buena noticia para la comunidad científica. Hoy en día, con la revolución de la Big Data, cada vez está más claro el valor de los conjuntos de datos en muchos ámbitos más allá de los centros académicos. En la industria en el comercio, en las finanzas, en la industria cultural, el manejo de datos y la toma de decisiones basadas en datos crecen en importancia. Así mismo, los gobiernos tienden a ser más abiertos y a publicar más datos, de manera que puedan ser utilizados para evaluar las gestiones y profundizar en estudios que proporcionen soluciones a los problemas de las sociedades.

Google tiene grandes expectativas con esta herramienta. Así describen ellos mismos sus objetivos:

Al ofrecer a nuestros usuarios una interfaz única con la que buscar en varios repositorios a la vez, esperamos transformar la forma en la que se publican y utilizan los datos. También creemos que este proyecto tendrá otras ventajas adicionales, ya que permitirá: a) crear un ecosistema de intercambio de datos que animará a los editores de datos a seguir las prácticas recomendadas para almacenar y publicar datos; y b) ofrecer a los científicos una forma de mostrar el impacto de su trabajo a través de las citas de los conjuntos de datos que hayan producido”.

AG / Con información de http://blog.google/

Comparte en redes sociales
Share on Facebook
Facebook
Share on Google+
Google+
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *