Langage R – Manipulation de données pour la Data Science

Vous apprendrez à filtrer, trier, regrouper, fusionner et résumer des données à l’aide des principaux packages R. Le parcours permet d’acquérir une maîtrise progressive des fonctions essentielles pour structurer et analyser les données efficacement.

Pourquoi devriez-vous y participer ?

Cette formation vous offre une introduction claire et structurée au langage R centré sur la manipulation de données. Elle couvre les formats de données les plus courants et les outils indispensables pour organiser vos données. Vous développerez des compétences directement applicables en contexte professionnel. Le contenu repose sur des packages reconnus (dplyr, tidyr…) pour rendre vos analyses plus efficaces.

À qui s'adresse la formation ?

Cette formation est destinée aux :

Prérequis

Des connaissances de base en statistiques et en manipulation de données sont recommandées.

Objectifs d’apprentissage

À l’issue de la formation, vous serez capable de :

Contenu de la formation

Langage R – Les fondamentaux de la programmation R pour la Data Science

1. Découverte de R

  • Présentation de R

  • Installation et ressources

  • Le système de packages

  • IDE RStudio et création d’un premier script

2. Bases du langage R

  • Variables et types

  • Formats de données :
    • Vecteurs
    • Matrices
    • DataFrame
    • Listes

  • Structures de contrôle :
    • Conditions (if ... else)
    • Boucles

  • Fonctions

  • Fonctions de type apply

3. R et la data

  • Importer des données :
    • Fichiers CSV
    • Excel, SQL, API

  • Analyses statistiques :
    • Variables numériques
    • Variables catégorielles
    • Autres méthodes

4. Restitution des résultats

  • Graphiques

  • Cartes

  • Reporting avec rmarkdown

  • Tableaux de bord web avec shiny

Langage R – Accédez à tous vos types de données

1. Rappels sur R et son environnement

  • Pourquoi R ?

  • Installation de l’environnement

  • Ressources liées à R

2. Données au format CSV

  • Accès aux données CSV

  • Mise en pratique – Data Visualisation : graphique en bâtons

3. Données au format Excel

  • Accès aux données Excel

  • Mise en pratique – Data Visualisation : nuage de points

4. Données issues d’une base SQL

  • Accès aux données d’une base SQL

  • Mise en pratique – Data Visualisation : nuage de mots

5. Données provenant d’une API

  • Accès aux données d’une API

  • Mise en pratique – Data Visualisation : graphique dynamique en bâtons (web)

6. Données issues d’une base NoSQL (MongoDB)

  • Accès aux données d’une base NoSQL

  • Mise en pratique – Data Visualisation : tableau dynamique (web)

Langage R – Manipulez vos données avec les packages dplyr et tidyr

1. Rappels sur l’accès aux données avec R

  • Données au format CSV

  • Autres formats : Excel, bases SQL, API…

2. Manipulation avec le package dplyr

  • Introduction à dplyr : syntaxe et opérateur « pipe » (%>%)

  • Manipulation des observations (lignes)

  • Manipulation des variables (colonnes)

  • Création de tableaux de données résumées

  • Jointures de données

3. Nettoyage de données avec le package tidyr

  • Remodelage des données

  • Compléter les valeurs manquantes

Approche pédagogique

Cette formation en ligne combine des modules théoriques avec des exercices pratiques tirés de cas concrets pour faciliter l’apprentissage. L’expérience est progressive et centrée sur la manipulation réelle des données.

Eligibilité CPF

💡 À noter : Cette formation est intégrée dans notre parcours certifiant, éligible au CPF.
RNCP37873BC02

Modalités

E-learning

Durée du programme

Cours : 5h à 7g

Horaires

9h - 12h30 / 13h30 - 17h

Validation

Par le formateur
Il n’y a pas d’évènements à venir.

Pourquoi devriez-vous y participer ?

À qui s'adresse la formation ?

Cette formation est destinée aux :

Prérequis

Objectifs d’apprentissage

À l’issue de la formation, vous serez capable de :

Programme de la formation

La formation se déroule sur quatre jours :

Approche pédagogique

Examen de certification PECB

L’examen dure 3 heures et couvre les domaines suivants :