Importer et nettoyer vos données

image 1

Dans ce billet, le laboratoire Blue DsX vous explique les étapes à suivre pour importer et modifier correctement vos données dans RStudio !

Après de longues heures de recherche sur Internet, vous trouvez enfin le jeu de données parfait (du moins, selon la description qui en était faite). Vous vous empressez de l’ouvrir dans RStudio et là, horreur : le nombre de variables ne correspond pas du tout au nombre de colonnes, la variable Pays est considérée mystérieusement comme une variable numérique, ou encore vous constatez des « trous » parmi les valeurs. Autant dire que votre dataframe n’est pas exploitable en état. On vous explique la démarche à suivre pour démarrer votre analyse dans les bonnes conditions !


Importer vos données

Pour importer vos données tapez read.csv2() dans la console RStudio (fenêtre du bas) puis appuyer sur la touche Entrée.

Pas très joli le résultat…

En effet, c’est pour cela qu’il est préférable de mettre votre tableau dans une variable provisoire comme suit : data2 <- read.csv2(« data1.csv »). Cliquez maintenant sur votre tableau dans l’onglet Environnement. Vous pouvez maintenant avoir un aperçu plus « flatteur » de vos données !

image 2

Astuce : Vous pouvez aussi importer votre tableau en cliquant sur l’onglet « Import Dataset » (Tools > Import Dataset > From Text File ou Import Dataset dans le fenêtre Environnement). Deux atouts à cela : vous pouvez pré visualiser votre tableau et en corriger son interprétation (pour les séparateurs de colonnes notamment).

image 3

Rien ne s’affiche ?

image 4

Un message d’erreur apparaît ? Soit vous avez commis une erreur de frappe, soit la directory de recherche n’est pas correctement indiquée. Vérifiez dans quel dossier RStudio recherche votre fichier avec getwd() ou affichez la liste des fichiers présents avec dir(). RStudio ne cherche pas au bon endroit ? Re dirigez-le en suivant le chemin : Session > Set Working Directory > Choose Directory (le même chemin est accessible dans la fenêtre en bas à droite). La commande read.csv2() permet maintenant d’afficher votre tableau dans la Console.

image 5


Il y a des trous !

Gérer les données manquantes

Bien souvent les dataframes ne sont pas complets et de nombreuses valeurs sont absentes. Dans le langage R, celles-ci sont codées NA (pour Not Available), mais vous pouvez voir apparaitre des « trous » » si le fichier à été créé sous Excel ou encore un point, s’il a été crée sous SAS. Pour éviter de mauvaises interprétations statistiques, indiquez à RStudio qu’elles sont les valeurs manquantes qu’il va rencontrer en rajoutant l’option na.strings= » »

data <- read.csv2(« subventionsassociations.csv »,na.string = » ») # on remplace les trous du dataframe par N/A

Vous pouvez inclure ou non les valeurs manquantes le long de vos calculs avec l’option na.omit() ou na.rm() suivi de l’argument TRUE ou FALSE

Exemple :

median(data2$Montants_indemnisations, na.rm=TRUE)  # ne tient pas compte des valeurs manquantes lors du calcul de la médiane d’une variable Montants_indemnisations.


Supprimer et modifier des données

Observation(s) sans aucune donnée, variable(s) avec trop d’inconnus ou inutiles? Supprimez une ligne avec data[-x,], une variable entière avec data[,-y] ou modifiez les valeurs d’une variable avec data[x,y] <- Nouvelle valeur

Exemple :

data3[2,10] <- 7111 #change la modalité de la dixième variable (colonne 10) sur la deuxième observation (ligne 2). Ici, on a remplacé la précédente valeur par le nombre 7111.


Découvrir vos données

Maintenant que votre dataframe est « nettoyé », il est temps de s’intéresser aux informations qu’il détient pour mieux appréhender les informations utiles.

Tapez ces instructions dans la Console :

dim() # Indique le nombre d’individu (lignes) et de variables (colonnes)image 6
ls() # affiche le nom des variables de notre tableau
str() # affiche la nature des variables
lenght() # Donne la longueur de la variable

Changer la nature d’une variable

Pour afficher les variables et leur nature, tapez str(). Attention, Rstudio possède sa propre nomenclature pour désigner les différents types de variables :

int : (pour integer) indique une variable quantitativeimage 7
num (pour numeric) indique une variable continue
factor indique une variable nominale
Ord.Factor indique une variable ordonnée


RStudio n’interprète pas toujours correctement le type des variables
.
Pour pouvoir poursuivre vos calculs, vous devez d’abord changer la nature de vos variables. Attention, les instructions ne sont pas les mêmes selon l’opération souhaitée !

Pour transformer une variable nominale en ordonnée 

ordered(nomdutableau$nomdelavariable)  + option levels

Pour transformer une variable nominale en variable quantitative

as.numeric(nomdutableau$nomdelavariable)

Pour transformer une variable quantitative en variable nominale 

as.factor(nomdutableau$nomdelavariable)

Changer le nom des colonnes

Pour renommer le nom des variables, utilisez la commande :

rename(nomdudataframe,c(anciennomdelavariable=«nouveaunom»)

Exemple :

rename(data2,c(Population=« Pop »)
Vérifier avec la commande  view()


La première étape de votre travail est maintenant achevée ! Vous voilà prêt à manipuler vos données dans de bonnes conditions ! Vous avez une question ? Laissez nous un commentaire, le Laboratoire se fera un plaisir d’y répondre.

Eva Laude

elqude

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s