Los bots de IA abrumaron las bases de datos científicas con web scraping

Los bots de IA que realizan web scraping están causando estragos en las bases de datos científicas, afectando la funcionalidad de sitios como DiscoverLife y otros recursos académicos.

Última actualización 20252025-06-03T12:18:12Z

Los programas automatizados que recopilan datos de entrenamiento para herramientas de inteligencia artificial están sobrecargando los sitios web académicos. En febrero, el repositorio de imágenes en línea DiscoverLife, que contiene casi tres millones de fotografías de diferentes especies, comenzó a recibir millones de visitas diarias a su sitio web, un volumen mucho mayor al normal. En algunos momentos, este aumento de tráfico fue tan alto que ralentizó el sitio hasta hacerlo inutilizable. Estos programas automatizados, que intentan 'raspar' grandes cantidades de contenido de los sitios web, se están convirtiendo cada vez más en un dolor de cabeza para los editores académicos y los investigadores que administran sitios que alojan artículos de revistas, bases de datos y otros recursos. Gran parte del tráfico de los bots proviene de direcciones IP anónimas, y el aumento repentino ha llevado a muchos propietarios de sitios web a sospechar que estos web scrapers están recolectando datos para entrenar herramientas de inteligencia artificial generativa (IA), como chatbots y generadores de imágenes.

Los bots de IA abrumaron las bases de datos científicas con web scraping

Podría gustar