¿Qué Es el Web Scraping? Cómo Extraer Legalmente el Contenido de la Web
¿Alguna vez has querido comparar precios de varios sitios a la vez? ¿O tal vez extraer automáticamente una colección de posts de tu blog favorito? Todo es posible con el web scraping.
El web scraping se refiere al proceso de extracción de contenidos y datos de sitios web mediante software. Por ejemplo, la mayoría de los servicios de comparación de precios utilizan web scrapers para leer la información de precios de varias tiendas online. Otro ejemplo es Google, que rutinariamente scrapea o «rastrea» la web para indexar sitios web.
El web scraping es un conjunto de prácticas utilizadas para extraer automáticamente — o «scrapear» — datos de la web.
Otros términos para referirse al web scraping son «scraping de contenidos» o «scraping de datos» Independientemente de cómo se llame, el web scraping es una herramienta extremadamente útil para la recopilación de datos online. Las aplicaciones del web scraping incluyen la investigación de mercado, la comparación de precios, la supervisión de contenidos y mucho más.
¿Pero qué es exactamente lo que «scrapea» el web scraping — y cómo es posible? ¿Es incluso legal? ¿Querría un sitio web que alguien viniera a scrapear sus datos?
¿Qué Podemos «Scrapear» de la Web?
Es posible scrapear todo tipo de datos de la web. Desde los motores de búsqueda y los feeds RSS hasta la información gubernamental, la mayoría de los sitios web ponen sus datos a disposición de los scrapers, crawlers y otras formas de recopilación automática de datos.
Sin embargo, eso no significa que estos datos estén siempre disponibles. Dependiendo del sitio web, puede que tengas que emplear algunas herramientas y trucos para obtener exactamente lo que necesitas — suponiendo que los datos sean accesibles en primer lugar. Por ejemplo, muchos scrapers web no pueden extraer datos significativos del contenido visual.
En los casos más sencillos, el scraping web puede hacerse a través de la API o interfaz de programación de aplicaciones de un sitio web. Cuando un sitio web pone a disposición su API, los desarrolladores web pueden utilizarla para extraer automáticamente datos y otra información útil en un formato conveniente. Es casi como si el host de la web te proporcionara tu propio «conducto» hacia sus datos. ¡Esto sí que es hospitalidad!
Por supuesto, no siempre es así — y muchos de los sitios web que quieres scrapear no tienen una API que puedas utilizar. Además, incluso los sitios web que tienen una API no siempre te proporcionarán los datos en el formato adecuado.
¿Es Legal el Web Scraping?
Para algunas personas, la idea de scrapear la web puede parecer casi un robo. Después de todo, ¿quién eres tú para «coger» los datos de otra persona?
Afortunadamente, no hay nada intrínsecamente ilegal en el web scraping. Cuando un sitio web publica datos, normalmente están disponibles para el público y, por tanto, son libres de ser scrapeados.
Por ejemplo, dado que Amazon pone a disposición del público los precios de los productos, es perfectamente legal scrapear los datos de los precios. Muchas aplicaciones de compra populares y extensiones de navegador utilizan el web scraping con este mismo propósito, para que los usuarios sepan que están obteniendo el precio correcto.
Sin embargo, no todos los datos de la web están hechos para el público, lo que significa que no todos los datos de la web son legales para scrapear. Cuando se trata de datos personales y de propiedad intelectual, el web scraping puede convertirse rápidamente en web scraping malicioso, lo que puede dar lugar a sanciones como un aviso de retirada de la DMCA.