Épreuve Écrite – Spécialité : Statistiques et Analyse de Données
⏳ Durée : 3 heures
Contenu : 2 Questions rédactionnelles (10 points) + QCM techniques (10 points)
✅ Partie I – Questions rédactionnelles (10 points)
🔹 Question 1 – Analyse descriptive (5 points)
Vous recevez des données relatives au nombre d’incidents enregistrés mensuellement dans plusieurs établissements pénitentiaires sur une période de 5 ans. Expliquez comment vous réaliseriez une analyse descriptive de ces données, et quelles représentations graphiques ou statistiques vous utiliseriez.
Éléments attendus :
- Statistiques de tendance centrale (moyenne, médiane, mode).
- Mesures de dispersion (écart-type, variance, amplitude).
- Représentations : histogrammes, boxplots, courbe d’évolution temporelle.
- Détection des valeurs aberrantes.
- Comparaisons inter-prison ou inter-région.
🔹 Question 2 – Analyse prédictive et aide à la décision (5 points)
Dans le but de prévenir les incidents futurs, la DGAPR souhaite mettre en place un système d’analyse prédictive. Quelles étapes suivriez-vous pour créer un modèle de prédiction fiable ? Quels types de données seraient nécessaires ?
Réponse attendue :
- Étapes : collecte des données, nettoyage, traitement des valeurs manquantes, sélection de variables, modélisation (régression, arbres de décision, etc.), validation croisée, interprétation.
- Données : historiques des incidents, nombre de détenus, conditions de détention, climat social, personnel disponible, etc.
- Outils possibles : Python (pandas, scikit-learn), R, Excel.
✅ Partie II – QCM Techniques (10 points)
Cochez la ou les bonnes réponses. Une ou plusieurs peuvent être correctes.
- La moyenne est sensible :
☐ Aux valeurs extrêmes
☐ À la taille de l’échantillon
☐ Aux données manquantes
☐ À la médiane - L’écart-type mesure :
☐ La dispersion des données
☐ Le lien entre deux variables
☐ La tendance centrale
☐ L’erreur de prédiction - La corrélation linéaire entre deux variables X et Y :
☐ Est toujours comprise entre -1 et 1
☐ Peut démontrer une causalité
☐ Peut être positive, négative ou nulle
☐ Se calcule avec la moyenne des deux variables - En régression linéaire simple, le coefficient de détermination (R²) exprime :
☐ Le pourcentage de la variance de Y expliqué par X
☐ Le niveau de dispersion de X
☐ La probabilité d’erreur
☐ La covariance de X et Y - Dans un test d’hypothèse, la p-value :
☐ Permet de rejeter ou non l’hypothèse nulle
☐ Est acceptée si elle est > 0.05
☐ Représente le risque d’erreur de type I
☐ Est toujours égale à α
🧮 Barème proposé :
- Partie I : 10 points (2 questions × 5 pts)
- Partie II : 10 points (2 pts par QCM bien répondu)
📚 Conseils de préparation :
- Maîtriser :
- Statistiques descriptives et inférentielles
- Tests (t-test, Khi², ANOVA)
- Régression linéaire/multiple
- Visualisation des données
- Outils : Excel, R, Python (pandas, matplotlib, seaborn)
- Interprétation des résultats pour la prise de décision