Las webs saqueadas por empresas de IA les pagarán con su propia medicina: Cloudflare quiere poner a buen recaudo el contenido 'humano'

Los gigantes tecnológicos como OpenAI, Google y Microsoft hacen uso de bots rastreadores diseñados para recolectar contenidos de la WWW, con los que poder entrenar sus cada vez más complejos modelos de IA generadores de texto e imagen.

A diferencia de los tradicionales bots que indexan contenidos para buscadores (y que normalmente respetan las limitaciones impuestas por los webmasters sobre qué contenidos son analizables y cuáles no), estos rastreadores de IA actúan con una voracidad indiscriminada, extrayendo textos, imágenes, vídeos y código fuente sin pedir permiso.

Llegados a este punto, la lucha entre creadores y recolectores de datos parece haberse convertido en una carrera armamentista

Por un lado, los gigantes tecnológicos siguen perfeccionando sus técnicas de scraping para evadir restricciones. Por otro, empresas como Cloudflare y legisladores internacionales están trazando nuevas líneas de defensa. Y, mientras, los nuevos datos de origen humano son cada vez menos.

Los creadores de contenidos están reaccionando

Así, mientras las grandes tecnológicas cosechan datos para construir modelos multimillonarios, los periodistas temen que sus artículos entrenen IAs que luego produzcan textos similares, restando valor a su labor, y los artistas visuales denuncian el uso de sus obras en generadores de imágenes sin consentimiento.

Además, el alto tráfico de bots impacta afecta al rendimiento de sitios web pequeños, encareciendo la infraestructura necesaria para mantenerse a flote.

En Genbeta

OpenAI defiende que la IA coja todo lo que quiera de Internet. Y temen que en unos meses se les acabe el chollo

En respuesta, muchos creadores están optando por colocar sus contenidos detrás de muros de pago o eliminarlos por completo de la Red, contribuyendo así a una fragmentación del acceso a la información.

En el ámbito legal, la Unión Europea ha dado un paso decisivo con la implementación de la nueva norma de IA de 2024, que exige consentimiento explícito para el uso de contenidos en el entrenamiento de modelos.

En Estados Unidos ya se discute una regulación similar, mientras compañías como The New York Times o Getty Images ya han demandado judicialmente a OpenAI y Stability AI, respectivamente, por el uso no autorizado de sus contenidos.

Las potenciales consecuencias de la actvidades de estos rastreadores van desde la violación de derechos de autor hasta la explotación de trabajo creativo sin compensación

El contraataque de Cloudflare: un laberinto para desorientar a las IAs

Ante esta situación, la empresa de ciberseguridad Cloudflare (últimamente en boca de todos por su enfrentamiento con LaLiga) ha lanzado una innovadora arma defensiva: el AI Labyrinth, una tecnología no bloquea directamente a los bots maliciosos —una estrategia que suele alertar a los atacantes, que buscan así nuevos medios de acceder—, sino que los engaña redirigiéndolos a un laberinto de páginas falsas generadas por IA.

Estas páginas, creadas con el motor Workers AI, simulan ser reales y están llenas de contenido científicamente válido (para no ayudar a difundir bulos) pero irrelevante y sin relación con el sitio web. Su objetivo: hacer que los crawlers pierdan tiempo y recursos procesando datos inútiles, disminuyendo su eficiencia para entrenar modelos de IA.

En Genbeta

La evolución de la IA generativa ha estancado, según uno de los creadores de ChatGPT: 'más' ya no es necesariamente 'mejor'

Además, al identificar bots que siguen enlaces invisibles ocultos en la estructura del sitio (que un humano no vería ni visitaría), el sistema los marca automáticamente como maliciosos, mejorando la base de datos de Cloudflare sobre 'actores hostiles'... y (toma ironía), permitirá entrenar modelos de IA dedicados a mejorar la detección futura de bots.

La efectividad del AI Labyrinth radica en que no interfiere con la experiencia de los usuarios humanos ni con el SEO del sitio. Las páginas generadas no se indexan en buscadores y los enlaces ocultos son invisibles para navegadores legítimos. Es, en esencia, una trampa invisible diseñada por una IA para cazar otras inteligencias artificiales.

Cloudflare ha integrado esta nueva función como parte de sus servicios CDN ('Content Delivery Network', que viene a ser una fase intermedia entre el usuario y el servidor web), pero lo más relevante es que ya está disponible para todos los planes (incluido el gratuito) y los webmasters pueden activarla con un solo clic en el panel de control de Cloudflare.

Imagen | Marcos Merino mediante IA

En Genbeta | OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos

Las webs saqueadas por empresas de IA les pagarán con su propia medicina: Cloudflare quiere poner a buen recaudo el contenido 'humano'

Hay quien piensa que Internet no puede seguir 'siendo jauja' para las grandes tecnológicas que buscan suplantar la labor de los verdaderos creadores de contenidos

Los creadores de contenidos están reaccionando

El contraataque de Cloudflare: un laberinto para desorientar a las IAs

Explora en nuestros medios

nproxy.org

Los creadores de contenidos están reaccionando

El contraataque de Cloudflare: un laberinto para desorientar a las IAs

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios

nproxy.org