Google, documenti trafugati: cosa impariamo sul motore di ricerca

Un tesoro di informazioni su come funziona il motore di ricerca Google, dai cui criteri dipende una parte consistente dell’economia web – dai giornali all’ecommerce. Ma anche i dettagli su come Google utilizzi i dati delle nostra navigazioni (e interessi) che vengono dal browser Chrome.

C’è questo nelle migliaia di documenti, che sembrano provenire dal Content API Warehouse interno di Google, pubblicati su Github da un bot automatico chiamato yoshi-code-bot. La data di pubblicazione è 13 marzo, ma sono stati rivelati al pubblico in queste ore e per gli esperti è una finestra aperta come potrebbe funzionare l’algoritmo di ranking di Google.

Un super “leak” di dati riservati, insomma: non era mai successo a quello che è di gran lunga il motore più usato al mondo (anche se nel 2023 era successo lo stesso al russo Yandex).

Cosa c’è nel grande leak

I documenti dettagliano 2.596 moduli e 14.014 attributi utilizzati per classificare i contenuti. Spiegano che i contenuti possono essere retrocessi per motivi quali link non corrispondenti, insoddisfazione degli utenti, recensioni di prodotti, posizione, domini a corrispondenza esatta e contenuti pornografici.

Fonte: Il Sole 24 Ore