(giovedì 17 maggio)
Con l’avvento degli anni Duemila, i Search Engine erano molto più semplici di quelli odierni, in quanto studiati per analizzare il significato del testo o delle parole e si limitavano ad applicare regole ‘preconfezionate’, dando in questo modo maggiore peso alle parole chiave e al loro posizionamento nel testo o nei tag html.
Successivamente i motori di ricerca adottarono un perfezionamento dei propri algoritmi: ci si rese conto infatti che le keywords non erano più sufficienti ad ottenere risultati di qualità poiché a fronte si faceva riferimento a regole facili da “smontare” nella loro complessità. Si cominciò a parlare di spam engine.
Sorse dunque l’esigenza di andare oltre all’analisi delle kw per provare a comprendere il significato “intrinseco” delle parole. Per rispondere a questa esigenza verosimilmente sempre più stringente si svilupparono degli algoritmi cosiddetti semantici (modelli matematici che consentono di individuare un punteggio di pertinenza di un determinato documento per una query di ricerca dell’utente) unitamente all’implementazione di contenuti che, in quanto pertinenti alla ricerca, potessero corredare la “ricerca secca”.
Ci si accorge così che è possibile creare delle “relazioni” fra i vari elementi chiamate “entità” (l’entità rappresenta qualcosa – luogo, persona, brand – che consente alla macchina di capire il significato dei contenuti pubblicati e conseguentemente di integrare la lettura con informazioni di contesto – correlate -), presentandoli non più in maniera gerarchica ma organizzandoli come aggregati basati sul valore semantico: ecco, un insieme di relazioni basate su un grafo.
In questo modo si possono estrarre informazioni aggiuntive relative anche al di fuori della pagina web in considerazione del contesto (insieme di informazioni e dati strutturati che circonda la ricerca). E’ così che si comincia a parlare di SEO semantica, volta cioè a far capire al motore di ricerca di cosa si sta parlando, realizzando un passaggio da dati non strutturati (propri del linguaggio) a dati strutturati (comprensibili dalle macchine).
Si parla di campo semantico delle parole (insieme di tutte le parole pertinenti con quella data, dove la pertinenza è espressa da un legame di appartenenza della parola stessa) per indicare insiemi di vocaboli che hanno un legame con la parola in oggetto, permettendo al search engine di cogliere il significato di una parola o di una frase ragionando così sul suo contesto.
Un primo tentativo di algoritmo semantico, peraltro abbastanza efficace, è stato l’algoritmo LDA il quale si basava sul concetto di gruppi di Topic (insieme di termini “pertinenti”) finalizzati a “snellire” la varietà di documenti su cui andare poi a fare la ricerca ‘ultima’: in funzione di una propria query di ricerca esso risponde con un valore numerico compreso in un certo range (‘indice di pertinenza’) con cui indica quanto ogni singolo risultato sia pertinente alla ricerca effettuata. A meno della definizione di un “word space” (‘ventaglio’ di parole) l’apprendimento di un algoritmo LDA andrebbe avanti ‘senza soluzione di continuità’ generando risultati via via sempre meno attendibili.
Grazie ad algoritmi semantici Google, analizza e classifica le pagine ed i contenuti del web.
Una potenzialità della seo semantica è la disambiguazione, cioè è in grado di scandagliare le varie sfumature di significato che può assumere la parola ricercata, ricerche poi correlate nel grafo di ricerca.
L’efficacia degli algoritmi semantici finisce, o perlomeno viene limitata non producendo risultati attendibili, da problemi di polisemia (parole che hanno significato diverso in contesti diversi) che di conseguenza alterano in molti casi l’output. Anche il fornire pagine web con argomentazioni fuorvianti (la sorgente dell’informazione è ricca di “rumore”) rispetto all’argomento principale (racconti personali, commenti dei lettori, snippet di testo di articoli correlati che sporcano il contenuto) porta ad avere un documento ricco di testo extra che ne diminuisce la rilevanza anche se, magari, il contenuto è il migliore in assoluto. Ad ogni modo queste problematiche sono notevolmente ridotte quando tali algoritmi lavorano su settori verticali (es. vLex, Yummly, Zaptravel).
Da circa 5 anni fa, per migliorare il markup delle pagine web creando un formato standard dal quale attingere dati, l’impegno di Google ed altri motori di ricerca, al fine di organizzare le informazioni e renderle universalmente accessibili e fruibili, é orientato a trovare meccanismi che permettano di meglio comprendere i contenuti esistenti; i motori di ricerca stanno diventando delle vere e proprie learning machine, e pertanto occorre cercare di semplificare il processo di comprensione. Ci sono diversi elementi utili a tale scopo, e probabilmente il principale è oggi l’uso del markup semantico che si realizza mediante lo sviluppo di un “vocabolario” che possa permettere la marcatura semantica HTML delle pagine web. Il risultato è stato Schema.org,
un sito nel quale si può trovare tutto il necessario per marcare in modo appropriato i propri contenuti. Schema.org unitamente all’adozione dei Microdati (metadati) consentono ai motori di ricerca di comprendere le informazioni presenti in modo da fornire risultati più completi nelle SERP.
Ma perché la SEO diventa semantica ??
Nel 2012 Ray Kurzweil viene assunto in Google con la mission di studiare la comprensione del linguaggio naturale. In questo modo, Google si avvicina all’IA (Intelligenza artificiale): si passa in sequenza dal ritrovamento di informazioni “aggiuntive” a come viene impostata la ricerca alla possibilità di comprendere la lingua utilizzata nelle pagine indicizzate e introdurre dei servizi informativi per l’utente.
Breve excursus sullo sviluppo dell’algoritmo di Google : nell’ultimo ventennio si è assistito ad un perfezionamento sempre maggiore degli algoritmi di calcolo passando da Hummingbird, RankBrain , ‘AI First’. Hummingbird è la revisione completa più importante e miliare capace di interpretare l’intento di ricerca nascosto dietro le richieste; RankBrain è in grado di fornire pagine attinenti (Intelligenza Artificiale di Google) con cui è in grado di approfondire maggiormente il sistema di conoscenza/intenti e fornire risposte per ricerche “disgiunte” (‘disambiguazione’, vedi sopra) nel senso che è in grado di riportare contenuti vicini anche se non espressi direttamente dall’utente; ‘AI First’: il SEO di Google imposta una nuova visione che sposta lo strumento da semplice focus di reperimento informazioni al ritrovamento di servizi, informativi e di assistenza (tramite ‘Google Assistant’).
A fine estate del 2013, Google ha annunciato un nuovo aggiornamento algoritmico: Hummingbird.
A differenza dei precedenti algoritmi Panda e Penguin, che possono essere visti come “revisioni” di un vecchio motore, con il suo annuncio a fine estate del 2013, Hummingbird è il motore nuovo di zecca, orientato a presentare i risultati in un modo completamente diverso rispetto al passato. Lo sforzo di Google è quello di concentrarsi sulla fase di comprensione delle ricerche. Ciò faciliterebbe le fasi successive, limitando il numero dei documenti indicizzati che vengono consultati per mostrare i migliori risultati possibili. Questa maggior attenzione alla fase di comprensione significa anche una maggior attenzione al contesto della ricerca, a come i concetti appaiono nei documenti e a come sono in relazione fra loro.
L’arma migliore è organizzare la conoscenza, quello che ad ora il motore di ricerca sa fare meglio: lo fa attraverso un grafo (‘Knowledge Graph’), collegando cioè le informazioni con grafi per aiutare il motore di ricerca ad interpretarle correttamente.
La gara ora si sposta dal terreno delle keyword al terreno della semantica, dei significati: le entità sono le nuove keywords.
La varietà di dispositivi oggi utilizzati per connettersi alla Rete, rappresenta un ulteriore fattore determinante. PC, portatili, smartphone, tablet, televisori, hanno ognuno un metodo diverso di input, che va dal digitare una parola ad effettuare una richiesta vocale.
Se una volta la query-tipo era[ristoranti a Milano], oggi è diventata molto più specifica, come [dove andare a mangiare cibo indiano a Milano], o [qual è il posto migliore per mangiare cibo indiano a Milano]. Un esempio per constatare che i motori di ricerca han capito che lavorare sulle singole parole chiave non era sufficiente; hanno invece bisogno di capire come i dati sono correlati, sia all’interno dello stesso sito che nell’intero web. E’ questo il cambiamento più importante all’interno della search: il passaggio da parole chiave ad entità. Le parole diventano concetti, e i motori di ricerca evolvono in macchine in grado di apprendere.
Due sono i concetti fondamentali da cui ha preso origine la seo semantica: intento e contesto. L’intento parte dall’utente, il quale dichiara (più o meno) esplicitamente cosa sta cercando. E il contesto, che potrebbe essere inteso come tutto ciò che “circonda” una ricerca e la fa andare in una certa direzione, ovvero le dà un senso.
Collegando intento e contesto, i motori di ricerca sono in grado di comprendere le diverse query.
Il contenuto principale può essere pensato come un ombrello sotto cui stanno le diverse entità.