Analyser et croiser ses données

ban3

Bonjour à tous!

En ce début de semaine, le laboratoire BlueDsX met à votre disposition un tutoriel complet, pour vous apprendre à croiser vous-même vos données et en déduire des informations pertinentes. Au programme, des grands classiques parmi les tests statistiques comme Fisher, Student, Wilcoxon et bien d’autres ! Vous apprendrez à :

  • Tester la corrélation et déterminer les forces de liaison entre  vos variables
  • Choisir des tests statistiques pertinents
  • Réaliser en un rien de temps une analyse descriptive globale de vos données

untitled_med_hr

Notes : Ce tutoriel nécessite l’installation du logiciel RStudio sur votre ordinateur. Vous pouvez le télécharger ici.

Cliquez ici pour commencer notre tutoriel sur l’analyse de données ! ATTENTION : si vous avez installé l’extension Adblock sur votre navigateur, désactivez le pour afficher correctement la page.

Eva Laude, laboratoire Blue DsX

Portail data : Quandl et son API

couv0-2 Quandl est un portail de données vous donnant accès gratuitement à plus de 5 millions de datasets de données financières, économiques ou sociales. Quandl vous propose aussi  une API  pour nourrir vos analyses de données et reporting. Simple d’utilisation, les APIs vous permettent d’automatiser le flux entrant de données de vos analyses pour que vos données financières soient automatiquement mises à jour dans votre logiciel de manipulation de données. Découvrez comment profiter de ces milliers de dataframes en suivant le guide !

Lire la suite

Créer son application Shiny

Shinytitre

Le laboratoire BlueDsX vous propose un cours en ligne sur comment construire, pas à pas, votre première application Shiny !

Mais au fait, c’est quoi Shiny?

Shiny est un package du langage R, intégré au logiciel RStudio.  Il permet la réalisation de présentations statistiques intéractives ou plus généralement d’applications web , grâce à l’insertion de modules (ou widgets) cliquables. Shiny propose de nombreuses fonctionnalités et un haut niveau de personnalisation : au niveau le plus avancé, vous pourrez même créer vos propres dashboards de données! Pour voir les nombreuses possibilités de création que vous propose Shiny, rendez-vous ici.

Lire la suite

[TUTO] Vos premiers pas sur RStudio

Image1Eva Laude, Data Scientist au laboratoire BlueDsX vous propose un tutoriel pour accompagner vos premiers pas dans le langage R, grâce au logiciel d’analyse de données RStudio.

Devenu un incontournable dans le monde des datasciences et couramment utilisé dans la communauté scientifique, Rstudio, en plus de proposer une interface agréable, possède une communauté dynamique notamment en termes de création de ressources utiles (packages R, librairies, scripts).

Vous serez amené au cours de ce tutoriel à taper par vous-même les instructions en R pour mieux en assimiler la logique et renforcer votre mémorisation des commandes. Vous avez la possibilité de télécharger les jeux de données utilisés dans le cours afin de reproduire les exemples.
Cette formation étant actuellement en cours de développement, certaines modifications, comme le contenu ou l’organisation des chapitres peuvent avoir lieu. Si vous avez des suggestions ou si vous remarquez des incohérences, n’hésitez pas à nous en faire part !

Maintenant, à vous de jouer !
Suivez simplement ce lien (plus de 45 planches à votre disposition)  : tutoRstudio

elqude

 

Importer et nettoyer vos données

image 1

Dans ce billet, le laboratoire Blue DsX vous explique les étapes à suivre pour importer et modifier correctement vos données dans RStudio !

Après de longues heures de recherche sur Internet, vous trouvez enfin le jeu de données parfait (du moins, selon la description qui en était faite). Vous vous empressez de l’ouvrir dans RStudio et là, horreur : le nombre de variables ne correspond pas du tout au nombre de colonnes, la variable Pays est considérée mystérieusement comme une variable numérique, ou encore vous constatez des « trous » parmi les valeurs. Autant dire que votre dataframe n’est pas exploitable en état. On vous explique la démarche à suivre pour démarrer votre analyse dans les bonnes conditions ! Lire la suite

Où trouver de l’Open Data ?

open data

Les données constituent la base de votre analyse statistique et la matière première du datascientist. Grâce aux différentes initiatives et projets visant à promouvoir le mouvement Open Data, de nombreux portails de publication de données ont vu le jour : le laboratoire BlueDsX vous donne ici plusieurs ressources utiles pour trouver des jeux de données qui soient à la fois :

  • pertinents et adaptés à votre sujet de recherche
  • de qualité : données récentes, , actualisées, avec peu de valeurs manquantes
  • de taille conséquente : des dataframes avec un nombre d’observations élevé

Par où commencer ?

Si vous cherchez des données c’est sans doute pour répondre à une problématique ou plus généralement une interrogation. Prendre le temps de réfléchir à la formulation de celle-ci est nécessaire pour mieux identifier les données requises pour réussir votre analyse et éviter, de fait,  de télécharger de nombreux dataframes inutiles. La question de départ est véritablement porteuse de sens et influe sur la manière de manipuler les données et de les interpréter. Lire la suite

Les data-sciences appliquées à la fraude

oomom

Le laboratoire BlueDsX du groupe Blue Soft vous invite à son prochain meetup afin d’échanger autour de divers sujets liés aux data-sciences. Pour cette occasion, nous serons accompagnés de deux de nos partenaires : l’Institut du Commerce et du Développement et DataIKU, la start-up data française du moment.

Au programme, des échanges autour :

  • de l’Open Data et du mouvement de libération des données
  • des Data-sciences appliquées à la recherche de manipulations et de fraudes,
  • de la multiplication des Datalabs

Lire la suite