Analisi dati in R? potresti iniziare da qui

torturare datiSe i dati fossero una miniera d’oro, R sarebbe sicuramente lo strumento più adatto ad estrarre le pipite. R (la mente), insieme ad RStudio (il braccio), ha trasformato il modo di torturare i dati, comunicare coi dati, collaborare coi dati.

 

R e RStudio sono programmi gratuiti, con librerie stabili, continuamente sviluppate e in continua evoluzione.

Se poco tempo fa le metodologie di analisi dati erano un’esclusiva di statistici, informatici e pochi altri adesso le potenti metodologie sono accessibile a tutti*.

*Definizione di “tutti”: tutti quelli che hanno voglia di imparare. Tutti quelli che sanno affrontare i problemi per risolverli.

Non sono necessarie conoscenze specifiche per iniziare. Le conoscenze posso essere acquisite strada facendo. Step by step.

Il supporto della comunità di data scientist con documentazione di vario genere, video corsi, tutorial è illimitata. (nel senso che il materiale disponibile ed accessibile cresce di giorno in giorno in modo esponenziale).

Vi elenco qualche sito dove potrete trovare una marea di link a tutorial e video corsi.

Tutorials for learning R

100 free tutorial for learning R

How to get started with Data Science using R

Ma chi inizia ha bisogno di indicazioni più precise… meno materiale da consultare ma più specifico.

In questo post vorrei suggerire qualche buon libro per iniziare. I libri che ho scelto hanno contribuito alla mia formazione e alla mia professionalità. Tra la diverse tipologie di materiale, ho scelto di consigliare libri per due semplice ragione. La lettura di un libro è molto più veloce e, quando serve, si può operare in modalità copy & paste.

I libri che ho selezionato, nel loro insieme, offrono un’idea generale sulle tre tematiche fondamentali necessarie per effettuare un’analisi dati metodi/strategie/programmazione.

Iniziamo con il primo libro:

Process Improvement Using Data

Non è un libro di statistica ma di statistica applicata. Molto completo come contenuti ed è specifico per i processi produttivi. E’ scritto da un professore canadese, Kevin Dunn. All’interno potrete trovare anche riferimenti ad alcuni suoi video corsi.

Practical Data Science with R

Questo è il mio libro preferito di R. Ci sono molti contenuti applicativi ma anche consigli pratici. Machine Learning è l’ultimo passaggio di una serie di step relativi al processo di analisi dati. Qui troverai descritti bene tutti i passaggi del processo di analisi.

data science with r 

Infine, due free ebook di Hadley Wickham, docente universitario  e Chief Scientist di RStudio, ritenuto da molti il guru di R (compreso me):

Perché ho scelto R

La mia decisione non è stata basata da un reale confronto sulle funzionalità e possibilità di utilizzo rispetto ad altri linguaggi di programmazione.

Per un confronto sulle funzionalità vi lascio a questo interessante articolo:

R vs Python for Data Science: Summary of Modern Advances

La motivazione per cui ho scelto R è perchè mi sento più vicino ad R.

R è un linguaggio di programmazione più idoneo ai programmatori non professionisti, a chi di professione vuole fare l’analista.

Phyton, secondo me, è più per informatici (anche se non è solo per loro). Le sue caratteristiche, la sua filosofia e la sua logica è più idonea ai programmatori.

R infatti nasce e si sviluppa esclusivamente come programma di analisi dati, quindi la sua filosofia è quella di facilitare l’analisi sia per gli esperti che per i meno esperti.

Phyton è un linguaggio general purpose che nel corso degli ultimi anni, grazie al prezioso sviluppo di valide librerie e della sua naturale potenza è diventato uno dei linguaggi preferiti nella comunità di data scientist.

 

Come installare R e RSTUDIO?

Per installare l’ultima versione di R bisogna andare sulla pagina https://cran.r-project.org/ e seguire il link per il download come segnalato nell’immagine.

download R

Una volta installato il kernel di R, è momento di procedere con RStudio Desktop (Open Source Licence), un’ ambiente di sviluppo integrato.

Rstudio ti permetterà di gestire codice, grafici, tabelle e i risultati della tua analisi in R.

Spero che questo articolo possa aiutarvi ad entrare nel mondo dell’analisi dati in R.