Perplexity elude restricciones impuestas por sitios web
La startup de inteligencia artificial Perplexity enfrenta acusaciones por realizar scraping en sitios que dejaron claro su rechazo a esta práctica, según reveló el proveedor de infraestructura en línea Cloudflare.
El pasado lunes, Cloudflare presentó un informe técnico en el que muestra cómo Perplexity evitó las restricciones indicadas mediante robots.txt y ocultó su comportamiento cambiando su identidad digital. Los investigadores señalaron que la compañía modificó el “user-agent” de sus bots y alteró sus redes autónomas (ASN) para esquivar las reglas establecidas por los administradores web.

El scraping en la IA: una práctica persistente y controvertida
Los modelos de inteligencia artificial requieren grandes volúmenes de datos obtenidos de Internet. Para entrenarlos, las empresas recopilan textos, imágenes y videos de múltiples fuentes. Sin embargo, diversos portales han tratado de impedir este acceso, usando herramientas como robots.txt para limitar el rastreo de sus páginas.
Pese a esas medidas, Perplexity accedió a sitios restringidos. Cloudflare documentó millones de solicitudes diarias dirigidas a decenas de miles de dominios. La empresa identificó el bot utilizado por Perplexity mediante señales de red e inteligencia artificial.
Cloudflare actúa frente a las prácticas de Perplexity
Tras recibir quejas de varios clientes, Cloudflare realizó pruebas técnicas que confirmaron la elusión de bloqueos. En respuesta, la empresa eliminó a Perplexity de su lista de bots verificados y activó nuevas técnicas para restringir su acceso.
En 2024, medios como Wired ya habían denunciado que Perplexity copiaba contenido sin autorización. Cuando el periodista Devin Coldewey preguntó a su CEO, Aravind Srinivas, sobre la definición de plagio, no ofreció una respuesta clara.
Cloudflare endurece su postura ante los crawlers de IA
En julio, Cloudflare lanzó un mercado digital para que sitios web puedan cobrar a bots de IA que acceden a sus contenidos. Además, habilitó una herramienta gratuita que bloquea la recopilación de datos destinados al entrenamiento de modelos.
Aunque Perplexity niega las acusaciones y considera que el informe busca promover productos de Cloudflare, las pruebas indican que la empresa accede a sitios ignorando sus restricciones. Esta controversia profundiza el debate sobre los límites éticos del uso de datos públicos en la inteligencia artificial.
Fuente:
techcrunch
Te puede interesar:
Rumores en redes sociales alimentan el cierre del Banco Pichincha