Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo offre una panoramica delle funzionalità di Databricks per l'analisi del grafo e un'introduzione ai concetti di base del grafo. I grafici sono anche chiamati reti, soprattutto nel contesto di un'area di studio specifica, come i social network o le reti di comunicazione.
Un grafico è un set di vertici collegati da archi. I vertici sono spesso noti anche come nodi e i bordi vengono invece chiamati collegamenti, relazioni o archi. Ad esempio, i social network rappresentano le connessioni tra le persone. Altri esempi includono reti di trasporto, ad esempio voli, treni o collegamenti in autobus tra città e reti di telecomunicazioni, ad esempio i cavi che trasportano traffico Internet tra server. L'elaborazione dei gragrafi viene comunemente usata anche in aree come il rilevamento di frodi o minacce e la raccomandazione del prodotto. Molti problemi aziendali traggono vantaggio da una comprensione e dall'analisi delle reti tramite l'elaborazione dei gragrafi ed è particolarmente potente se combinato con altre tecniche di analisi, tra cui l'apprendimento automatico.
Il diagramma mostra un semplice esempio. I nodi in questa rete sono 6 paesi dell'Europa occidentale e centrale. Le linee, o i bordi, nel diagramma indicano che due paesi condividono un bordo.
Databricks Runtime ML include pacchetti di analisi di rete per problemi su qualsiasi scala. Per reti relativamente piccole che possono essere elaborate in un singolo nodo di calcolo, usare NetworkX. Per reti di grandi dimensioni che richiedono l'elaborazione distribuita, usare GraphFrame. È anche possibile installare pacchetti open source aggiuntivi in base alle esigenze o connettersi a partner e strumenti esterni per l'elaborazione e la visualizzazione dei grafici.
La parte restante di questo articolo descrive i concetti di base dell'analisi della rete e include un notebook che usa il pacchetto NetworkX per illustrare alcuni di questi concetti.
Concetti di analisi dei grafi e delle reti
In questa sezione vengono descritti alcuni dei concetti di base dell'analisi della rete.
Nodi e bordi
Nell'analisi di rete, una rete o un grafo, è costituito da un set di nodi e da un set di archi, o collegamenti, che connettono i nodi. I nodi rappresentano le cose connesse, ad esempio persone o città. I bordi rappresentano le connessioni o le relazioni tra di esse, ad esempio le persone che hanno lavorato insieme o le stazioni ferroviarie che hanno un collegamento diretto tra di loro.
I nodi sono detti anche vertici, punti o entità. I bordi sono detti anche linee, relazioni o collegamenti.
Reti dirette e indirette
Un arco in una rete può rappresentare una relazione unidirezionale, ad esempio un fan che segue una celebrità su un social network, o una relazione bidirezionale, ad esempio i colleghi. Se i bordi possono essere unidirezionali, la rete viene chiamata orientata. Se i bordi non hanno una direzione associata, la rete viene chiamata non diretta.
Bordi ponderati
I bordi possono avere pesi. Esempi di pesi in una rete possono essere la capacità di trasporto di un'autostrada o di un cavo.
Gradi
Il grado di un nodo è il numero di archi che vi collegano. Nel diagramma precedente, ad esempio, il nodo "Francia" ha un grado pari a 4.
Per i grafi diretti, il grado entrante è il numero di archi che arrivano nel nodo, e il grado uscente è il numero di archi che puntano dal nodo.
Proprietà di rete e nodo
Percorso più breve
Il percorso più breve è la distanza minima tra due nodi, tenendo conto dei collegamenti direzionali e, facoltativamente, i pesi dei bordi. Ad esempio, nel diagramma precedente, il percorso più breve tra i nodi Germania e Spagna è attraverso la Francia, per una distanza di percorso pari a 2.
Centralità
La centralità è un modo per misurare l'importanza di un nodo in una rete. Esistono diverse misure di centralità. La centralità del grado di un nodo si basa sulla frazione di nodi in una rete a cui il nodo è connesso direttamente. La centralità di intermediazione di un nodo è la frazione dei percorsi più brevi in una rete che passano attraverso il nodo.
Distribuzione dei gradi
La distribuzione del grado di una rete è il numero di nodi di ogni grado. Fornisce informazioni sulla struttura e sull'organizzazione della rete.
Diametro
Il diametro di una rete è il massimo dei percorsi più brevi tra due nodi. Il diametro equivale all'eccentricità massima dei nodi in una rete.
Densità
La densità di un grafico è il numero di archi nel grafico diviso per il numero totale di bordi possibili. Per un grafico non diretto, il numero totale di archi possibili è n(n-1)/2, dove n è il numero di nodi. Per un grafico diretto, ogni bordo ha due possibili direzioni, quindi il numero totale di bordi possibili è n(n-1).
Reti di piccole dimensioni
La maggior parte delle reti reali non è collegata in modo casuale e presenta invece una sorta di modelli e sottostruttura. Un esempio di tale modello nelle reti che coinvolgono le persone è il "fenomeno piccolo-mondo", in base al quale osserviamo sottogruppi strettamente collegati e una breve lunghezza media di percorso tra due nodi. Questi modelli sono molto comuni nella pratica e portano a problemi comuni nell'elaborazione dei gragrafi su larga scala, ad esempio occorrenze naturali di asimmetria dei dati da affrontare durante l'elaborazione di grafici di grandi dimensioni.
Notebook di esempio
Il notebook di esempio seguente usa il pacchetto NetworkX, integrato in Databricks Runtime per ML, per illustrare alcuni concetti di base dell'analisi di rete.