TUTTO SUL NUOVO ALGORITMO RANKBRAIN DI GOOGLE

Pubblichiamo la traduzione di un’interessantissimo articolo di Danny Sullivan apparso il 27 Ottobre su Search Engine Land.

Google sta utilizzando una tecnologia di machine learning chiamata RankBrain per fornire i propri risultati di ricerca. Ecco cosa ne sappiamo per ora.

Ieri, una notizia ha fatto emergere che Google sta utilizzando un sistema di intelligenza artificiale, chiamato RankBrain, per aiutarsi nella scelta del ranking dei propri risultati di ricerca. Curiosi di sapere come funzioni e come si integri nel sistema generale di ranking? Ecco cosa sappiamo su RankBrain.

Le informazioni fornite di seguito provengono da tre fonti. La prima, quella di Bloomberg che ha fornito la notizia su RankBrain ieri. La seconda, una lista di informazioni addizionali fornite da Google direttamente a Search Engine Land. Terza, le nostre stesse conoscenze sull’argomento provando a dare risposte alle domande a cui Google non ha risposto. Saremo chiari nell’indicare quando queste fonti sono state utilizzate.

Cos’è RankBrain?

RankBrain è il nome del nuovo sistema di machine learning, basato su intelligenza artificiale, utilizzato per elaborare i risultati di ricerca di Google ed ordinarli adeguatamente, come comunicato da Bloomberg e confermato da Google.

Cos’è il machine learning?

Si parla di Machine Learning quando un computer insegna a se stesso come fare qualcosa, piuttosto che fare quello che è pensato da un umano o che gli sia semplicemente stato detto di fare con un programma dettagliato.

Cos’è l’intelligenza artificiale?

La vera intelligenza artificiale, AI in breve, è quando un computer può essere intelligente come un essere umano, almeno nel senso di acquisire informazioni e conoscenza sia pensando che traendo conclusioni da quello che ha già appreso creando nuove connessioni.

La vera intelligenza artificiale esiste solo nella fantascienza e nei romanzi. In pratica, l’ AI è utilizzata per indicare sistemi computerizzati designati all’apprendimento e l’individuazione di connessioni tra le informazioni.

In cosa differisce l’intelligenza artificiale dal machine learning? Riferendoci a RankBrain, sembra che siano quasi dei sinonimi. Potreste sentirne parlare utilizzando uno o l’altro termine scambievolmente, oppure potreste sentir parlare di machine learning utilizzato per descrivere l’approccio di intelligenza artificiale che è stato utilizzato.

Quindi RankBrain è il nuovo modo in cui Google posiziona i risultati di ricerca?

No. RankBrain è parte dell’algoritmo generale di ricerca di Google, un programma utilizzato per ordinare miliardi di pagine note ed in grado di individuare le più rilevanti per ogni query di ricerca.

Qual è il nome dell’algoritmo di ricerca di Google?

Si chiama Hummingbird, come già detto in passato. Per anni, l’algoritmo generale di Google non ha avuto un nome formale. Ma a metà 2013, Google ha finalmente coniato un nome ufficiale, Hummingbird.

RankBrain è parte di HummingBird?

Questo è quello che sembra. Hummingbird è l’algoritmo di ricerca generale, proprio come un’automobile ha un motore generico al suo interno. Il motore stesso è composto da varie parti, come il filtro dell’olio, una pompa per il carburante, un radiatore e così via. Allo stesso modo, Hummingbird è composto da varie parti, e RankBrain è una di queste, una delle più recenti.

In particolare, sappiamo che RankBrain sia parte dell’algoritmo generale di Hummingbird perché l’articolo di Bloomberg fa chiarezza sul fatto che RankBrain non gestisca tutte le ricerche, come solo l’algoritmo generale fa.

Hummingbird contiene anche altre parti con nomi molto familiari per chi è del settore SEO, come Panda,Penguin e PayDay per combattere lo spam, Pigeon progettato per migliorare i risultati di ricerca Local,Top Heavy progettato per abbassare il ranking di siti ricchi di pubblicità, Mobile Friendly progettato per premiare le pagine web mobile-friendly e Pirate progettato per combattere le violazioni di copyright.

Pensavo che l’algoritmo si chiamasse “PageRank”

PageRank è parte dell’algoritmo Hummingbird e ricopre il ruolo specifico di dare credito alle pagine web basandosi sui link che gli arrivano da altre pagine web.

PageRank ha un valore speciale perché è il primo nome che Google abbia mai dato ad una delle parti del suo algoritmo da quando il motore di ricerca è iniziato nel 1998.

Cosa possiamo dire di questi “Segnali” che Google utilizza per il Ranking?

I segnali sono cose che Google utilizza per aiutarsi a determinare come le pagine web vengono posizionate. Per esempio, legge le parole nelle pagine web, quindi le parole sono un segnale. Se alcune parole sono in grassetto, potrebbe essere un altro segnale da prendere in considerazione. I calcoli fatti nel PageRank danno alle pagine un altro punteggio che può essere utilizzato come segnale. Se Google nota che una pagina è mobile friendly, viene registrato un altro segnale.

Tutti questi segnali vengono elaborati da varie parti dell’algoritmo Hummingbird per decidere finalmente quali pagine devono essere mostrate per determinate query di ricerca.

Quanti segnali ci sono?

Google ha spesso parlato di più di 200 fattori di ranking principali che vengono presi in considerazione, ma in realtà potrebbero esserci più di 10.000 variazioni di “sottosegnali”. Generalmente si parla di “centinaia” di fattori, come detto anche da Bloomberg nell’articolo di ieri.

Pensiamo che sia un guida abbastanza buona per vedere in generale le cose a cui Google da peso per posizionare le pagine web.

RankBrain è il terzo segnale più importante?

Esatto. Uscito dal nulla, questo nuovo sistema è diventato quello che Google definisce il terzo fattore di ranking più importante per le pagine web. Dall’articolo di Bloomberg:

RankBrain è uno delle “centinaia” di segnali che entrano nell’algoritmo che determina quali risultati compaiano su una pagina di ricerca di Google e dove vengono posizionati.
Nei pochi mesi in cui è stato rilasciato, RankBrain è diventato il terzo segnale di ranking più importante per contribuire ai risultati di una query di ricerca.

Quali sono il primo ed il secondo fattore di ranking?

Google non lo ha reso noto anche se gli è stato chiesto due volte.

E’ noioso e probabilmente fuorviante che Google non voglia spiegare quali siano i primi due. L’articolo di Bloomberg non è a caso. Google vuole far sapere, tramite PR, cosa intende esattamente quando parla dipassi avanti nel machine learning.

Ma per capire esattamente quali siano questi passi avanti, sarebbe utile sapere quali altri fattori Google usi al momento, cosicchè si possa poi tornare a ragionare su RankBrain. Ecco perché Google dovrebbe spiegarceli.

Comunque, la mia idea personale è che i link rimangano il segnale più importante, il modo in cui Google li conti sotto forma di voti. E’ anche un sistema da cui non si può prescindere, come spiegato in questo vecchio articolo “The broken Ballot Box Used by Google and Bing” .

Per il secondo segnale più importante, penso che siano le “parole”,  dove per parole intendo tutto dalle parole utilizzate nelle pagine a come Google interpreti le parole che la gente introduce nella casella di ricerca di Google al di fuori dell’analisi di RankBrain.

Cosa fa RankBrain?

Da una conversazione Email con Google, ho capito che RankBrain è principalmente utilizzato come metodo per interpretare le query di ricerca che la gente invia a Google per individuare pagine che non hanno esattamente al loro interno le parole che sono state ricercate.

Google non aveva già modo di trovare le pagine che non avevano la query esatta nel testo?

Si, Google trova pagine senza termini esatti già da tempo. Per esempio, anni ed anni fa, se ricercavi “scarpa”, Google poteva non trovare “scarpe” in quanto tecnicamente due termini diversi. Ma grazie allo “stemming” Google è diventato più furbo e conosce le variazioni tipo “scarpa” e “scarpe” come “correre” è una variazione di “corsa”.

Google intercetta bene anche i sinonimi, così se ricerchiamo “sneakers”, potrebbe comprendere che stiamo parlando di “scarpe da corsa”. Ha anche acquisito la capacità di identificare differenze concettualiche gli permettano di separare le pagine che parlano di “Apple” come brand e quelle che parlano di mele (frutto).

Cosa si può dire a riguardo del Knowledge Graph?

Il Knowledge Graph, lanciato nel 2012, è stato il modo il modo con cui Google è migliorato nello stabilire le connessioni tra le parole. Più importante, google ha imparato come ricercare “cose e non stringhe di testo”, come descritto dalla stessa Google.

Le stringhe sono semplici frasi composte da caratteri, quindi pagine che contengono ad esempio “Obama”. Per cose invece intendiamo che quando qualcuno cerca Obama su Google probabilmente intende “Il presidente USA Barack Obama”, una persona con connessioni ad altre cose e persone.

Il Knowledge Graph è un database di fatti che riguardano cose nel mondo reale e le relazioni che intercorrono tra esse. Ecco perché quando ricerchiamo qualcosa tipo “quando è nata la moglie di Obama” abbiamo una risposta precisa da parte di Google che ci indica anche il suo nome.

Come aiuta RankBrain a migliorare le Query?

I metodi utilizzati da Google per migliorare le query di ricerca generalmente vengono fatte da esseri umani che svolgono il lavoro da qualche parte, sia creando immense liste di stemming e sinonimi o creando database di connessioni tra le cose (entity). Sicuramente ci sarà anche una parte automatizzata ma il tutto dipende maggiormente da un lavoro umano.

Il problema è che Google processa tre miliardi di ricerche al giorno. Nel 2007, Google affermava che il 20/25% di queste query non erano mai state viste prima. Nel 2013, ha abbassato quel numero al 15%,  percentuale usata nuovamente da Bloomberg nell’articolo di ieri e che Google ha confermato. Ma il 15% di tre miliardi di query è ancora un numero enorme di query mai inserite da un essere umano, circa 450 milioni al giorno.

Molte possono essere complesse, le query con più parole, chiamate anche le query di “long-tail“.
RankBrain è progettato per aiutare Google ad interpretare meglio tali domande e tradurle in maniera efficace ed individuare le pagine più adatte.

Come detto da Google, può identificare pattern tra ricerche complesse apparentemente non correlate e capire che in realtà sono molto simili tra loro. Questo apprendimento permetterà a Google di comprendere tutte le query future e capire a quale argomento specifico si riferiscono. Cosa più importante, da quello che Google ci ha detto, è che può associare questi gruppi di query a gruppi di risultati che potrebbero soddisfare maggiormente chi ricerca.

Google non ha fornito esempi di gruppi di ricerche o dettagli su come RankBrain indovini quali siano le pagine migliori. Ma questo probabilmente perché Google può tradurre qualcosa di ambiguo in qualcosa di molto più specifico e fornire i risultati adeguati.

C’è qualche esempio?

Anche se Google non ha fornito esempi, l’articolo di Bloomberg ne ha uno di una ricerca in cui RankBrain potrebbe probabilmente risultare utile:

What’s the title of the consumer at the highest level of a food chain

Per una persona come me, “consumer” suona come un riferimento qualcuno che acquisti qualcosa.
Però, è anche un termine scientifico per indicare qualcuno che consumi cibo. Ci sono anche dei sottolivelli nella catena alimentare (food chain). Quali “consumer” sono al livello più alto? “The title” – “the name” è “predatori”.

Immaginate che RankBrain abbia collegato la prima query lunga alla seconda versione più semplificata che probabilmente sarà anche la più comune e diffusa. Capisce che sono molto simili. Come risultato, Google può dedurre la risposta facendo leva su quello che già conosce per dare risposte a ciò che è meno comune.

Questo è un esempio di come Google potrebbe utilizzare RankBrain.

Può farlo anche Bing con RankNet?

Nel 2005, Microsoft ha iniziato ad utilizzare il suo sistema di machine learning, chiamato RankNet, come parte di Bing come lo conosciamo oggi. Infatti, il capo ricercatore e creatore di RankNet ha recentemente ricevuto un’onorificenza. Ma negli anni Microsoft non ha mai parlato di RankNet.

Potrai immaginare che questo cambierà. E’ anche interessante vedere che quando facciamo la ricerca su Bing, per far vedere quanto funzioni bene RankBrain, Bing da buoni risultati, incluso uno fornito anche da Google.

Altri esempi?

Google ha fornito un nuovo esempio: “Quanti cucchiai in una tazza?” (unità di misura straniere per le ricette di cucina).
Google ha detto che RankBrain ha favorito alcuni risultati in Australia ed altri negli Stati Uniti per la query perché nelle nazioni le unità di misura sono differenti anche se hanno gli stessi nomi.

Ho provato a fare questa prova da solo ma non ho trovato grandi differenze. Anche senza RankBrain sarebbero state leggermente diverse in quanto i siti noti in Australia vengono favoriti quando ricerchi dall’Australia.

RankBrain aiuta?

Anche se i due esempi precedenti non danno grande testimonianza della grandezza di RankBrain, credo realmente che ci sarà un grande impatto, come afferma Google. L’azienda non parla spesso di cosa accade nei suoi algoritmi. Fa piccoli test continuamente. Ma lancia i grandi cambiamenti solo quando tutto è già ben testato.

Integrando RankBrain, ed affermando che sia il terzo segnale di ranking come importanza, vuol dire che si tratta di un enorme cambiamento. Google non l’avrebbe mai affermato se non fosse sicuro della sua capacità di essere utile.

Quando è iniziato RankBrain?

Google ci ha detto che c’è stato un rilascio graduale ad inizio 2015 ed è pienamente attivo da un paio di mesi.

Su quali query ha impatto?

Google ha detto a Bloomberg che una grande fetta di query viene elaborata da RankBrain. Abbiamo chiesto dati più dettagliati ma abbiamo ricevuto la stessa risposta vaga.

RankBrain apprende continuamente?

Tutta la fase di apprendimento di RankBrain avviene offline, come detto da Google. Elabora in batch le ricerche storiche ed apprende come predirre i risultati da esse.

Queste “predizioni”, sono testate e se funzionano bene, l’ultima versione di RankBrain diventa effettiva (Live). Poi il ciclo di apprendimento offline e pubblicazione si ripete.

RankBrain fa qualcosa in più del perfezionamento delle Query?

Tipicamente, come le query vengono trattate, elaborate e semplificate , che sia attraverso stemming, sinonimi o adesso RankBrain, non viene considerato un fattore o segnale di ranking.

I segnali sono tipicamente fattori che sono correlati al contenuto, come le parole nella pagina, i link che puntano alla pagina, se la pagina è su https o meno. Possono essere anche correlati all’utente, come dove si trova l’utente che sta ricercando o la search history del browser.

Quindi quando Google si riferisce a RankBrain come terzo segnale più importante per il ranking, intende realmente un segnale di ranking? SI. Google ha confermato che c’è una componente in cui RankBrain contribuisce attivamente per decidere come una pagina web deve posizionarsi.

Come esattamente? C’è una sorta di RankBrain Score che possa segnalare la qualità? Forse, ma sembra molto più probabile che RankBrain aiuti Google a classificare meglio le pagine basandosi sul loro contenuto. RankBrain dovrebbe essere in grado di riassumere meglio di cosa parlino le pagine di qualsiasi altro sistema utilizzato da Google fino ad ora.

Come posso imparare di più su RankBrain?

Google ci ha detto che le persone che vogliono imparare i vettori di parole – il modo in cui parole e frasi possono essere matematicamente connesse – dovrebbe leggere questo post, che parla di come RankBrain ha imparato il concetto di “Capitali” di nazioni semplicemente analizzando nuovi articoli.

C’è una ricerca più ampia qui. Puoi anche giocare con il tuo progetto personale di machine learning utilizzando Google’s word2vec. In più Google, ha un’intera area con i suoi documenti su machine learning ed AI, idem per Microsoft.

Nota: Assicurati anche di leggere l’articolo, How Machine Learning Works, As Explained by Google.

Vota questa pagina
[Totali: 1 Media: 5]