Créations de notebooks d'analyse de la pipeline et améliorations de celle-ci
dans cette PR les aboutissements de la première partie du stage. voici un récapitulatif des fichiers :
- dgfip_auto : permet d'obtenir les csv des taux marginaux d'impôt sur le revenu, des décompositions des revenus déclarés et des impôts afin de les comparer aux données de la DGFIP.
- fonctions_noe : contient des fonctions fréquemment utilisées pour la division en quantiles notamment.
- statistiques_impot : un peu obsolète à cause de dgfip_auto. Fait la même chose mais avec des prints.
- distributions_v2 : Analyse la distribution du montant total des variables par quantiles (distribution, nombre de foyers par quantiles, erreur avec POTE). Comparaison entre les données 2022 les données en prod. Sources de revenus en fonction du RFR.
- ERFS_menages : étude de la base de données des ménages de l'ERFS, comparaison avec les données POTE. Sources de revenus ménages et proportions. Détail sur les hauts revenus. Tentative d'ACP non concluante.
- imputation_lignes_dedoublees : Première approche pour tenter de mieux représenter les top 1%, dupliquer les lignes de la base donnée. Première partie imputation (division + simulation), deuxième partie analyse des résultats (comparaison avec POTE et l'ERFS sans division).
- imputation_poids_lisses : Deuxième approche pour tenter de mieux représenter les top 1%, lisser tous les poids entre w et 2w (w valeur du poids variable). Essai également en ne lissant que les poids pour le top 1%. Première partie imputation (lissage + simulation), deuxième partie analyse des résultats (comparaison avec POTE, l'ERFS de référence, l'ERFS dupliqué).
- test_aléatoire : voir l'effet de l'aléatoire sur les distributions en enlevant la seed. Comparaison avec 10 simulations et POTE sur les distributions. Les erreurs calculées sont disponibles sur nextcloud > stage Noé.
- test_monte_carlo : modification de monte_carlo_computer pour avoir une répartition dans les quantiles similaire à celle dans POTE;
- intervalle_confiance : permet de calculer et tracer les intervalles de confiance pour chaque quantile, sous hypothèse que le théorème central limite puisse être appliqué (normalement oui puisque tirage par Monte-Carlo).
Edited by Noé Karageorgiou