Analyser et croiser ses données

ban3

Bonjour à tous!

En ce début de semaine, le laboratoire BlueDsX met à votre disposition un tutoriel complet, pour vous apprendre à croiser vous-même vos données et en déduire des informations pertinentes. Au programme, des grands classiques parmi les tests statistiques comme Fisher, Student, Wilcoxon et bien d’autres ! Vous apprendrez à :

  • Tester la corrélation et déterminer les forces de liaison entre  vos variables
  • Choisir des tests statistiques pertinents
  • Réaliser en un rien de temps une analyse descriptive globale de vos données

untitled_med_hr

Notes : Ce tutoriel nécessite l’installation du logiciel RStudio sur votre ordinateur. Vous pouvez le télécharger ici.

Cliquez ici pour commencer notre tutoriel sur l’analyse de données ! ATTENTION : si vous avez installé l’extension Adblock sur votre navigateur, désactivez le pour afficher correctement la page.

Eva Laude, laboratoire Blue DsX

Portail data : Quandl et son API

couv0-2 Quandl est un portail de données vous donnant accès gratuitement à plus de 5 millions de datasets de données financières, économiques ou sociales. Quandl vous propose aussi  une API  pour nourrir vos analyses de données et reporting. Simple d’utilisation, les APIs vous permettent d’automatiser le flux entrant de données de vos analyses pour que vos données financières soient automatiquement mises à jour dans votre logiciel de manipulation de données. Découvrez comment profiter de ces milliers de dataframes en suivant le guide !

Lire la suite

[TUTO] Vos premiers pas sur RStudio

Image1Eva Laude, Data Scientist au laboratoire BlueDsX vous propose un tutoriel pour accompagner vos premiers pas dans le langage R, grâce au logiciel d’analyse de données RStudio.

Devenu un incontournable dans le monde des datasciences et couramment utilisé dans la communauté scientifique, Rstudio, en plus de proposer une interface agréable, possède une communauté dynamique notamment en termes de création de ressources utiles (packages R, librairies, scripts).

Vous serez amené au cours de ce tutoriel à taper par vous-même les instructions en R pour mieux en assimiler la logique et renforcer votre mémorisation des commandes. Vous avez la possibilité de télécharger les jeux de données utilisés dans le cours afin de reproduire les exemples.
Cette formation étant actuellement en cours de développement, certaines modifications, comme le contenu ou l’organisation des chapitres peuvent avoir lieu. Si vous avez des suggestions ou si vous remarquez des incohérences, n’hésitez pas à nous en faire part !

Maintenant, à vous de jouer !
Suivez simplement ce lien (plus de 45 planches à votre disposition)  : tutoRstudio

elqude

 

Où trouver de l’Open Data ?

open data

Les données constituent la base de votre analyse statistique et la matière première du datascientist. Grâce aux différentes initiatives et projets visant à promouvoir le mouvement Open Data, de nombreux portails de publication de données ont vu le jour : le laboratoire BlueDsX vous donne ici plusieurs ressources utiles pour trouver des jeux de données qui soient à la fois :

  • pertinents et adaptés à votre sujet de recherche
  • de qualité : données récentes, , actualisées, avec peu de valeurs manquantes
  • de taille conséquente : des dataframes avec un nombre d’observations élevé

Par où commencer ?

Si vous cherchez des données c’est sans doute pour répondre à une problématique ou plus généralement une interrogation. Prendre le temps de réfléchir à la formulation de celle-ci est nécessaire pour mieux identifier les données requises pour réussir votre analyse et éviter, de fait,  de télécharger de nombreux dataframes inutiles. La question de départ est véritablement porteuse de sens et influe sur la manière de manipuler les données et de les interpréter. Lire la suite

Les data-sciences appliquées à la fraude

oomom

Le laboratoire BlueDsX du groupe Blue Soft vous invite à son prochain meetup afin d’échanger autour de divers sujets liés aux data-sciences. Pour cette occasion, nous serons accompagnés de deux de nos partenaires : l’Institut du Commerce et du Développement et DataIKU, la start-up data française du moment.

Au programme, des échanges autour :

  • de l’Open Data et du mouvement de libération des données
  • des Data-sciences appliquées à la recherche de manipulations et de fraudes,
  • de la multiplication des Datalabs

Lire la suite

Le laboratoire BlueDsX a déjà un an !

;kk;k;

Le moment est venu de faire un premier bilan de nos résultats de l’année passée au regard des actions et livrables attendus d’un laboratoire de recherche comme le nôtre.

Les résultats ont été obtenus grâce à des moyens maîtrisés et au travers d’une volonté d’optimisation, de réutilisation et de synergie entre les actions. Nous sommes fiers de l’adéquation obtenue entre les attendus d’un laboratoire comme BlueDsX et les livrables produits.

Reconnaissance académique

C’est le point le plus important pour un laboratoire : le standard pour un labo naissant est de produire un article académique tous les 2 ans. Cet  objectif est en cours d’être dépassé : un article dans une revue académique en prépublication et un ouvrage ; nous faisons mieux que certains laboratoires académiques publics de taille comparable.

Avancées scientifiques, techniques, méthodologiques (à jauger en proportion de l’effectif mobilisé)
Lire la suite