Se lanalisi di grossi quantitativi di dati sta diventando sempre di pi una necessit, non solo nel campo del marketing, ma anche di settori come la medicina e la diagnostica, da alcuni anni ci si sta ponendo il problema di quali siano le metodologie migliori per trarre quanta pi informazione utile possibile dai grandi dataset che possono essere reperiti in vari modi su internet (ad esempio nel caso di analisi di social media) o fanno parte del patrimonio di unazienda.Viviamo infatti nellera dei cosiddetti Big Data. Questo termine, coniato attorno al 2001, nasce per indicare enormi dataset che possono essere analizzati per estrarre informazione finora difficilmente accessibile e difficilmente processabile da un solo computer, per quanto potente, ma per analizzare i quali necessario utilizzare pi computer connessi in qualche modo tra loro in maniera coordinata.Di conseguenza, anche dal lato dell’organizzazione dei dati sono nati dei framework particolari per la gestione di queste grosse quantit di dati, il pi recente dei quali Spark.Spark, come vedremo, pu essere utilizzato con molti linguaggi di programmazione, dei quali R il pi recente. Per questa ragione non tutte le possibili analisi dati possono venire implementate tramite i due pacchetti per la gestione di Spark in linguaggio R, che sono SparkR e sparklyr.Dopo una parte introduttiva sui Big Data e sui framework che sono stati nel corso degli ultimi anni per gestirli, ci occuperemo quindi di vari argomenti e implementazione di esempi di codice per ognuna di queste due librerie. In particolare vedremo come implementare i pi comuni algoritmi di machine learning: regressione, Support Vector Machines, Alberi di decisione, metodi Ensemble e Kmeans, oltre alla manipolazione dati e al calcolo delle statistiche di base

Corsi Data Science
Corso: Machine Learning con Python: il Corso Pratico
Fai un passo verso il futuro: AI, Machine Learning e Data Science.Sai cosa accomuna il successo dei pi grandi colossi del web come Google, Amazon