Home Economía La perplejidad supuestamente está raspando sitios web que no debe hacerlo, nuevamente

La perplejidad supuestamente está raspando sitios web que no debe hacerlo, nuevamente

4
0

Los rastreadores web desplegados por perplejidad a los sitios web de raspado supuestamente son restricciones para eludir, según un nuevo informe de Cloudflare. Específicamente, el informe afirma que los bots de la compañía parecen ser sitios de “sigiloso gateo” al disfrazar su identidad para sortear los archivos y los firewalls de txt.

Robots.txt es un host de sitios web de archivos simples que les permite a los rastreadores web saber si pueden raspar el contenido de un sitio web o no. Los bots oficiales de rastreo web de Perplexity son “PerplexityBot” y “User de perplejidad”. En las pruebas de Cloudflare, la perplejidad aún podía mostrar el contenido de un nuevo sitio web no indicado, incluso cuando esos bots específicos fueron bloqueados por robots.txt. El comportamiento se extendió a sitios web con reglas de firewall de aplicaciones web específicas (WAF) que restringieron los rastreadores web también.

Un diagrama de flujo creado por CloudFlare para ilustrar las diferentes formas en que los rastreadores web de Perplexity intentan acceder al contenido de un sitio web.Un diagrama de flujo creado por CloudFlare para ilustrar las diferentes formas en que los rastreadores web de Perplexity intentan acceder al contenido de un sitio web.

Marco de la nube

Cloudflare cree que la perplejidad está sortiendo esos obstáculos al usar “un navegador genérico destinado a hacerse pasar por Google Chrome en macOS” cuando los robots.txt prohíben sus bots normales. En las pruebas de CloudLFare, el rastreador no declarado de la compañía también podría girar a través de direcciones IP no figuradas en el rango oficial de IP de Perplexity para superar los firewalls. Cloudflare dice que la perplejidad parece estar haciendo lo mismo con los números de sistema autónomo (ASNS), un identificador para direcciones IP operadas por el mismo negocio, escribiendo que vio el rastreador que cambia ASN “a través de decenas de miles de dominios y millones de solicitudes por día”.

Engadget se ha comunicado con la perplejidad para hacer comentarios sobre el informe de Cloudflare. Actualizaremos este artículo si recibimos noticias.

La información actualizada de los sitios web es vital para las empresas que capacitan modelos de inteligencia artificial, especialmente porque los servicios, como la perplejidad, se utilizan como reemplazos para los motores de búsqueda. La perplejidad también se ha capturado en el pasado eludir las reglas para mantenerse al día. Múltiples sitios web informaron en 2024 que la perplejidad todavía estaba accediendo a su contenido a pesar de que lo prohibían en robots.txt, algo que la compañía culpaba a los rastreadores web de terceros que estaba usando en ese momento. La perplejidad luego se asoció con múltiples editores para compartir los ingresos obtenidos de los anuncios que se muestran junto con su contenido, aparentemente como una buena para su comportamiento pasado.

Evitar que las empresas raspen contenido de la web probablemente seguirá siendo un juego de Whack-A-Mole. Mientras tanto, Cloudflare ha eliminado los bots de Perplexity de su lista de bots verificados e implementó una forma de identificar y bloquear el rastreador sigiloso de Perplexity para acceder al contenido de sus clientes.

LEAVE A REPLY

Please enter your comment!
Please enter your name here