Come impedire ai crawler di OpenAI di eseguire lo scraping del tuo sito web

Mentre gli utenti adorano ChatGPT per l’enorme quantità di informazioni che contiene attualmente, lo stesso non si può dire dei proprietari di siti web.

ChatGPT di OpenAI utilizza i crawler per eseguire lo scraping dei siti Web, ma se sei il proprietario di un sito Web e non desideri che il crawler di OpenAI acceda al tuo sito Web, ecco alcune cose che puoi fare per impedirlo.

Come funziona la scansione OpenAI?

Un web crawler (noto anche come spider o bot dei motori di ricerca) è un programma automatico che esegue la scansione di Internet alla ricerca di informazioni. Quindi compila tali informazioni in modo che sia facile per il tuo motore di ricerca accedervi.

I web crawler indicizzano ogni pagina di ogni URL pertinente, di solito concentrandosi sui siti Web più pertinenti alle tue query di ricerca. Ad esempio, supponiamo che tu stia cercando su Google un particolare errore di Windows. Il web crawler all’interno del tuo motore di ricerca eseguirà la scansione di tutti gli URL dai siti Web che ritiene più autorevoli sull’argomento degli errori di Windows.

Il web crawler di OpenAI si chiama GPTBot e secondo La documentazione di OpenAIconcedere a GPTBot l’accesso al tuo sito Web può aiutare ad addestrare il modello di intelligenza artificiale affinché diventi più sicuro e accurato e può persino aiutare a espandere le capacità del modello di intelligenza artificiale.

Come impedire a OpenAI di eseguire la scansione del tuo sito web

Come la maggior parte degli altri web crawler, GPTBot può essere bloccato dall’accesso al tuo sito web modificando il protocollo robots.txt del sito web (noto anche come protocollo di esclusione dei robot). Questo file .txt è ospitato sul server del sito web e controlla il comportamento dei web crawler e di altri programmi automatici sul tuo sito web.

Ecco un breve elenco di cosa può fare il file robot.txt:

  • Può impedire completamente a GPTBot di accedere al sito web.
  • Può bloccare l’accesso di GPTBot solo a determinate pagine di un URL.
  • Può dire a GPTBot quali collegamenti può seguire e quali no.

Ecco come controllare cosa può fare GPTBot sul tuo sito web:

Blocca completamente GPTBot dall’accesso al tuo sito web

  • Imposta il file robot.txt, quindi modificalo con qualsiasi strumento di modifica del testo.
  • Aggiungi il GPTBot al robots.txt del tuo sito come segue:
  •  User-agent: GPTBot
    Disallow: /

    Impedisci l’accesso solo a determinate pagine da parte di GPTBot

  • Imposta il file robot.txt, quindi modificalo con il tuo strumento di modifica del testo preferito.
  • Aggiungi il GPTBot al robots.txt del tuo sito come segue:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Tuttavia, tieni presente che la modifica del file robot.txt non è una soluzione retroattiva e qualsiasi informazione che GPTBot potrebbe aver già raccolto dal tuo sito Web non sarà recuperabile.

    OpenAI consente ai proprietari di siti Web di rinunciare alla scansione

    Da quando i crawler sono stati utilizzati per addestrare i modelli di intelligenza artificiale, i proprietari di siti Web hanno cercato modi per mantenere privati ​​i propri dati.

    Alcuni temono che i modelli di intelligenza artificiale stiano sostanzialmente rubando il loro lavoro, attribuendo persino un minor numero di visite al sito Web al fatto che ora gli utenti ottengono le loro informazioni senza mai dover visitare i loro siti Web.

    Tutto sommato, se vuoi bloccare completamente i chatbot AI dalla scansione dei tuoi siti Web è completamente una tua scelta.