Il machine learning è quel ramo delle scienze informatiche di cui fanno parte metodi e algoritmi che hanno come obiettivo il rendere una macchina capace di imparare, senza che sia stata esplicitamente programmata per rispondere a determinati quesiti o per effettuare determinate operazioni.
I problemi affrontabili con il machine learning si possono suddividere in tre categorie principali:
- Apprendimento supervisionato: vengono forniti alla macchina un certo numero di esempi di input e dei rispettivi output ed essa deve individuare ed imparare le regole che li collegano per essere in grado di fornire gli output per nuovi input. In questa categoria ricadono problemi di classificazione e regressione, il cui obiettivo è assegnare nuovi input a classi già note. Gli input sono discreti nel caso della classificazione e continui nel caso della regressione.
- Apprendimento non supervisionato: viene fornita alla macchina solo una serie di input da cui essa deve estrarre pattern e strutture che li collegano. In questa categoria ricadono problemi di clusterizzazione, il cui obiettivo è raggruppare una serie di input in classi non note in precedenza: l’algoritmo dovrà perciò scoprire da sé i pattern ricorrenti.
- Apprendimento per rinforzo: la macchina interagisce con un ambiente esterno e dinamico in cui deve portare a termine un dato obiettivo. Ad ogni azione che essa effettua, il sistema restituisce un feedback positivo o negativo in relazione all’obiettivo da portare a termine: da tali feedback la macchina impara. L’apprendimento per rinforzo trova applicazioni in numerose rami dell’informatica e della statistica, come la teoria dei giochi o gli algoritmi genetici, ma anche in altri settori come l’economia.
Il machine learning, in conclusione, è un insieme di strumenti potenti e ancora in evoluzione, applicabili praticamente ad ogni ambito delle attività umane, utilizzabili per comprendere meglio i dati a nostra disposizione, estrapolandone informazioni nuove.
Insieme al machine learning introduciamo anche il concetto di analisi predittiva come insieme di tecniche derivanti principalmente da esso e dal data mining che insieme consentono, partendo da un insieme di dati esistenti, di estrapolare schemi per effettuare predizioni su comportamenti futuri nell’ambito da cui i dati provengono. Grazie all’analisi predittiva è possibile individuare frodi o guasti, valutare rischi, scegliere strategie di marketing. Le applicazioni sono molteplici, in ambiti che vanno dall’economia, al turismo, dalle telecomunicazioni alla salute.
Nell’analisi predittiva vengono usate numerose tecniche legate al machine learning, come gli algoritmi di classificazione e regressione, la clusterizzazione e le reti neurali che, tramite opportune metriche, consentono anche di valutare i risultati delle predizioni effettuate.
Per quanto si tratti di strumenti molto potenti, è importante comprendere che la bontà e la veridicità dei risultati prodotti è comunque strettamente legata alla bontà dei dati in input: si deve perciò sempre partire da una fase di analisi e bonifica dei dati, preliminare all’esecuzione dell’algoritmo scelto. La figura del data analyst è quindi strettamente necessaria, così come una conoscenza profonda dei dati e dell’ambito in cui ci troviamo ad operare.