Los gigantes tecnológicos como OpenAI, Google y Microsoft hacen uso de bots rastreadores diseñados para recolectar contenidos de la WWW, con los que poder entrenar sus cada vez más complejos modelos de IA generadores de texto e imagen.
A diferencia de los tradicionales bots que indexan contenidos para buscadores (y que normalmente respetan las limitaciones impuestas por los webmasters sobre qué contenidos son analizables y cuáles no), estos rastreadores de IA actúan con una voracidad indiscriminada, extrayendo textos, imágenes, vídeos y código fuente sin pedir permiso.
Por un lado, los gigantes tecnológicos siguen perfeccionando sus técnicas de scraping para evadir restricciones. Por otro, empresas como Cloudflare y legisladores internacionales están trazando nuevas líneas de defensa. Y, mientras, los nuevos datos de origen humano son cada vez menos.
Los creadores de contenidos están reaccionando
Así, mientras las grandes tecnológicas cosechan datos para construir modelos multimillonarios, los periodistas temen que sus artículos entrenen IAs que luego produzcan textos similares, restando valor a su labor, y los artistas visuales denuncian el uso de sus obras en generadores de imágenes sin consentimiento.
Además, el alto tráfico de bots impacta afecta al rendimiento de sitios web pequeños, encareciendo la infraestructura necesaria para mantenerse a flote.
En respuesta, muchos creadores están optando por colocar sus contenidos detrás de muros de pago o eliminarlos por completo de la Red, contribuyendo así a una fragmentación del acceso a la información.
En el ámbito legal, la Unión Europea ha dado un paso decisivo con la implementación de la nueva norma de IA de 2024, que exige consentimiento explícito para el uso de contenidos en el entrenamiento de modelos.
En Estados Unidos ya se discute una regulación similar, mientras compañías como The New York Times o Getty Images ya han demandado judicialmente a OpenAI y Stability AI, respectivamente, por el uso no autorizado de sus contenidos.
El contraataque de Cloudflare: un laberinto para desorientar a las IAs
Ante esta situación, la empresa de ciberseguridad Cloudflare (últimamente en boca de todos por su enfrentamiento con LaLiga) ha lanzado una innovadora arma defensiva: el AI Labyrinth, una tecnología no bloquea directamente a los bots maliciosos —una estrategia que suele alertar a los atacantes, que buscan así nuevos medios de acceder—, sino que los engaña redirigiéndolos a un laberinto de páginas falsas generadas por IA.
Estas páginas, creadas con el motor Workers AI, simulan ser reales y están llenas de contenido científicamente válido (para no ayudar a difundir bulos) pero irrelevante y sin relación con el sitio web. Su objetivo: hacer que los crawlers pierdan tiempo y recursos procesando datos inútiles, disminuyendo su eficiencia para entrenar modelos de IA.
Además, al identificar bots que siguen enlaces invisibles ocultos en la estructura del sitio (que un humano no vería ni visitaría), el sistema los marca automáticamente como maliciosos, mejorando la base de datos de Cloudflare sobre 'actores hostiles'... y (toma ironía), permitirá entrenar modelos de IA dedicados a mejorar la detección futura de bots.
La efectividad del AI Labyrinth radica en que no interfiere con la experiencia de los usuarios humanos ni con el SEO del sitio. Las páginas generadas no se indexan en buscadores y los enlaces ocultos son invisibles para navegadores legítimos. Es, en esencia, una trampa invisible diseñada por una IA para cazar otras inteligencias artificiales.
Cloudflare ha integrado esta nueva función como parte de sus servicios CDN ('Content Delivery Network', que viene a ser una fase intermedia entre el usuario y el servidor web), pero lo más relevante es que ya está disponible para todos los planes (incluido el gratuito) y los webmasters pueden activarla con un solo clic en el panel de control de Cloudflare.
Imagen | Marcos Merino mediante IA
Ver 1 comentarios