L’algoritmo del Klout svelato ( o quasi )

La funzione fondamentale di Klout e misurare l’influenza dei propri utenti attraverso uno stimatore.
L’algoritmo usato per il calcolo di questo punteggio è sempre stato segreto e questo ha contribuito ad attirare sopra Klout molte critiche ( alcune delle quali condivise anche da me).

C’è molto da dire e da criticare sul Klout da diversi punti di vista. Io in questo post cercerò di occuparmi principalmente di questioni algoritmiche.

Molte critiche affermano che l’algoritmo ( che viene definito come un complesso algoritmo di machine learning) sia in realtà molto rudimentale e poco efficiente nel misurare l’influenza.

Questa affermazione è intrinsecamente non verificabile visto che non esiste una misurazione standard dell’influenza e nemmeno una definizione standard ma esistono prove di questa “rudimentalità” che invece sono molto meno opinabili.

Nel 2011 Sean Golliher ha sviluppato un algoritmo alternativo che semplicemente utilizzando il numero di followers riusciva a ottenere uno stimatore del klout score con coefficente di correlazione dell 94%.

La formula utilizzata da Golliher è effettivamente rudimentale:

Klout= w1 * (followers/following) + w2 (listed/followers)

I valori di w1 e w2 non sono dichiarati ma sembra sia facile ottenerli “fittando” quel modello di regressione su un dataset.

La sua analisi è parziale e studia un solo social network ( twitter), ma è comunque sufficiente a rendere dubbio l’algoritmo.

L’articolo originale è purtroppo stato rimosso ( prima o poi scriverò una mail al tipo, mi incuriosisce molto)

Forse per questo il 28 Ottobre 2015 Klout si è decisa a dare maggiori informazioni sul funzionamento del suo algoirtmo.

Come funziona veramente?

L’ “evento” della rivelazione dell’algoritmo è stato ripreso da varie testate ( wired, forbes) ma nessuna è veramente scesa nel dettaglio analizzando i contenuti del paper pubblicato che peraltro non è particolarmente tecnico.

Vediamo quindi di capire veramente come funziona analizzando il paper.

Per prima cosa gli autori definiscono cosa lo stimatore dovrebbe stimare:

Sia G una rete sociale.
Sia A l’insieme delle azioni attraverso le quali gli utenti di G possono interagire.
Sia u il nostro utente e Gu il sottoinsieme di G con cui esso può interagire.

Possiamo definire l’influenza come una misura della quantità e della qualità delle interazioni che l’utente u può indurre in Gu in un tempo T.

( Non molto rigorosa, nevvero? In compenso suona assai bene )

Per calcolare questo punteggio Klout analizza circa 3600 features prese da 9 social network diversi.
Le features sono però raggruppate per social.
Ad ogni social è quindi associato uno score parziale che contribuisce alla formazione dello score globale.

Questo approccio è dovuto alle differenze fra le strutture di vari social network che offrono informazioni diverse e non direttamente comparabili.

Le features dipendono sia dalla struttura della rete sociale che dalle interazioni.
La struttura costituisce la componente “lenta” mentre le interazioni quella “dinamica”.

Esempi di componenti lente sono:

Followers ( o amici, fans, subscrivers, link entranti)
Coefficenti della struttura del grafo, utilizzati solo per Wikipedia ( pageRang, inlink/outlink)
Caratteristiche del profilo, utilizzate per LinkedIn e Lithium ( Titolo di lavoro, livello di educazione, awards, badge, certificazioni).

Le componenti dinamiche sono invece più complesse da calcolare perchè devono includere un “peso” dell’azione.
Devono infatti prendere in considerazionen oltre al tipo di azione l’audience dell’azione, quando l’azione è avvenuta, quanto movimento ha provocato l’azione nella rete sociale.
Il confronto con altre azioni dello stesso tipo permette di normalizzare il valore dell’azione rendendola comparabile.

Le componenti dinaniche e le compnenti lente sono quindi utilizzate per calcolare lo score relativo a un singolo social.
Lo score generale è quindi calcolato come la norma Euclidea del prodotto del vettore degli score con un vettore dei pesi W.

Il vettore dei pesi W è calcolato attraveso un algoritmo di machine learning che fitta il modello in base a un training set costituito da degli influencer.

Il training set viene generato utilizzando dei valutatori umani.

Si scelgono dei valutatori e ai valutatori si propongono delle coppie di influencer chiedendogli di scegliere quello più influente fra i due.
Avendo abbastanza valutatori si può generare ordinamento fra gli influencer presi in esame che viene utilizzato per calcolare il loro klout score da immettere nel training set.

E quindi? dov’è l’algoritmo?

Non c’è. Non rivelano i particolari, ed era prevedibile.

Altrimenti conoscendolo si potrebbe manipolare il proprio klout score.
Il sogno di ogni SEO applicato ai social network.

Ok, ma non dice proprio niente!

Eh si, non solo viene descritto sommariamente l’algoritmo, non vengono nemmeno date informazioni sul vettore dei pesi che ha un ruolo fondamentale. Più importante dell’algoritmo stesso.
Esso rappresenta le informazioni sul modello che l’algoritmo di machine learning è riuscito ad estrarre dal dataset.

Non dicendo niente dei pesi non si può capire quanto un social conta rispetto ad un altro e quanto un’azione conta rispetto ad un’altra.

In Klout.com si afferma genericamente che:

Postare un migliaio di volte e ottenere zero risposte è meno influente che postare unan volta sola è ottenere un migliaio di risposte. Non è una questione di quanto si parla ma di quante persone ti stanno ad ascoltare.

Ok, bellissimo, ma quanto?

E quindi, funziona?

Beh, Klout calcola il klout-score… funziona per definizione.

Non esiste un unità di misura standard per fare confronti.

Il problema è però alla base, è nel concetto di “influenza” e nella definizione di influencer.

Influence is the ability to drive action.

Dice Klout.com, ma di che azioni stiamo parlando?

Obama ha 99 e Justin Bieber 92.
Solo 7 punti di scarto.

Se volete far vendere qualcosa in effetti farvela sponsorizzare da Bieber è un ottima cosa ma dire che è il secondo influencer del pianeta richiede una definizione di influencer molto diversa da quella che ho io.

E rassegnatevi, potete essere influenti su argomenti complessi quanto volete, collegare tutti i social che volete.

Non batterete mai le foto in costume di Emily Ratajkowski che usa solo twitter.

Un’altra questione importante è che attualmetne klout non fa sentiment analisys.
E’ cioè incapace di percepire e tenere conto del tipo di reazioni che i post generano.

Se postate qualcosa di geniale e la gente vi risponde che siete veramente saggio è indifferente dal postare una stupidaggine epocale con gente che vi risponde che avete proprio detto una stronzata.

A un costoso corso di web marketing ho imparato che se aggiungo una foto non necessaria di Emily Ratajkowski aumentano le visite alla pagina. Io però non sono pronto alla notorietà ed ho cercato quindi una foto particolarmente vestita.

PS:

Questo post è stato effettivamente scritto intorno al 25 Novembre 2015, le informazioni si riferiscono a quella data.

The Darshan’s Weblog

“Spero di non incrementare inutilmente l’entropia dell’universo” (no, non sono morto, ho solo un sacco di cose da fare)

L’algoritmo del Klout svelato ( o così dicono )

L’algoritmo del Klout svelato ( o quasi )

Come funziona veramente?

E quindi? dov’è l’algoritmo?

Ok, ma non dice proprio niente!

E quindi, funziona?

Articoli recenti

Banner…

Categorie

Le mie foto su Flickr

Blogroll

Link

Map

Archivi

Nerd Score

Copyright

The Darshan’s Weblog

“Spero di non incrementare inutilmente l’entropia dell’universo” (no, non sono morto, ho solo un sacco di cose da fare)

L’algoritmo del Klout svelato ( o così dicono )

L’algoritmo del Klout svelato ( o quasi )

Come funziona veramente?

E quindi? dov’è l’algoritmo?

Ok, ma non dice proprio niente!

E quindi, funziona?

Articoli recenti

Banner…

Categorie

Le mie foto su Flickr

Blogroll

Link

Map

Archivi

Nerd Score

Cloud

Copyright