Skip to content
Snippets Groups Projects

Ajout de la partie Data Scientist

Merged Sasha LANIECE requested to merge texte_simulateurs into master
@@ -14,7 +14,7 @@
@@ -14,7 +14,7 @@
<main class="flex items-center justify-center fond">
<main class="flex items-center justify-center fond">
<div class="bg-white max-w-screen-md ">
<div class="bg-white max-w-screen-md ">
<div class="p-10 text-base">
<div class="p-10 text-base">
<h1 class="font-serif font-bold pt-7 pb-10 text-3xl text-gray-700">
<h1 class="font-serif font-bold pt-7 pb-10 text-3xl text-gray-700">
Comment fonctionnent les simulateurs LexImpact ?
Comment fonctionnent les simulateurs LexImpact ?
</h1>
</h1>
<h2 class="text-xl text-gray-700 font-bold pb-3">
<h2 class="text-xl text-gray-700 font-bold pb-3">
@@ -34,7 +34,7 @@
@@ -34,7 +34,7 @@
href={new URL("dotations", $session.baseUrl).toString()}
href={new URL("dotations", $session.baseUrl).toString()}
rel="external">dotations aux communes</a
rel="external">dotations aux communes</a
>. Au travers de ces deux interfaces, l’utilisateur peut estimer, en
>. Au travers de ces deux interfaces, l’utilisateur peut estimer, en
moins d’une minute, l’impact sur des cas types qu’il aura configurés, ou
moins d’une minute, l’impact sur des cas-types qu’il aura configurés, ou
bien sur le budget de l’État et plus généralement sur la population
bien sur le budget de l’État et plus généralement sur la population
française.
française.
</p>
</p>
@@ -47,7 +47,7 @@
@@ -47,7 +47,7 @@
Le simulateur permettra, pour le prochain projet de loi de financement de
Le simulateur permettra, pour le prochain projet de loi de financement de
la sécurité sociale, d’estimer l’effet d’une réforme paramétrique sur des
la sécurité sociale, d’estimer l’effet d’une réforme paramétrique sur des
dispositions relatives aux cotisations sociales, patronales et salariales,
dispositions relatives aux cotisations sociales, patronales et salariales,
à la CSG, la CRDS et aux exonérations, sur des cas types de salariés du secteur
à la CSG, la CRDS et aux exonérations, sur des cas-types de salariés du secteur
privé. Il sera aussi possible d’estimer les conséquences de modifications
privé. Il sera aussi possible d’estimer les conséquences de modifications
relatives à la CSG sur le budget de l’État et de la sécurité sociale.
relatives à la CSG sur le budget de l’État et de la sécurité sociale.
</p>
</p>
@@ -108,7 +108,7 @@
@@ -108,7 +108,7 @@
</p>
</p>
<ul class="list-inside list-disc">
<ul class="list-inside list-disc">
<li class="leading-normal pb-2">
<li class="leading-normal pb-2">
des cas types de salariés du secteur privé ;
des cas-types de salariés du secteur privé ;
</li>
</li>
<li class="leading-normal pb-2">
<li class="leading-normal pb-2">
les recettes de l'État et de la Sécurité sociale concernant la CSG
les recettes de l'État et de la Sécurité sociale concernant la CSG
@@ -120,7 +120,7 @@
@@ -120,7 +120,7 @@
<div class="flex items-center pb-3 pt-10 ">
<div class="flex items-center pb-3 pt-10 ">
<h3 class="text-xl text-gray-700 font-light">
<h3 class="text-xl text-gray-700 font-light">
Des impacts sur cas type
Des impacts sur cas-types
</h3>
</h3>
<div class="mx-2">
<div class="mx-2">
<PictoFemme />
<PictoFemme />
@@ -129,14 +129,14 @@
@@ -129,14 +129,14 @@
</div>
</div>
<p class="leading-normal pb-3 text-justify">
<p class="leading-normal pb-3 text-justify">
Les simulateurs LexImpact permettent de configurer des cas types pour
Les simulateurs LexImpact permettent de configurer des cas-types pour
ensuite visualiser les impacts de la loi ou d'une réforme paramétrique
ensuite visualiser les impacts de la loi ou d'une réforme paramétrique
sur ces derniers. Un cas type est un cas simplifié d'une situation
sur ces derniers. Un cas-type est un cas simplifié d'une situation
individuelle, par exemple : <span class="italic"
individuelle, par exemple : <span class="italic"
>"un foyer composé de deux adultes et d'un enfant, gagnant un certain
>"un foyer composé de deux adultes et d'un enfant, gagnant un certain
salaire par mois".</span
salaire par mois".</span
>
>
En configurant plusieurs cas types sur les simulateurs LexImpact, l'utilisateur
En configurant plusieurs cas-types sur les simulateurs LexImpact, l'utilisateur
peut alors se représenter, de façon simplifiée, les impacts sur différents
peut alors se représenter, de façon simplifiée, les impacts sur différents
types de population.
types de population.
</p>
</p>
@@ -146,7 +146,7 @@
@@ -146,7 +146,7 @@
Des situations simplifiées à mettre en perspective
Des situations simplifiées à mettre en perspective
</h4>
</h4>
<p class=" leading-normal pb-3 text-justify">
<p class=" leading-normal pb-3 text-justify">
Les estimations sur cas types sont plus précises que les estimations
Les estimations sur cas-types sont plus précises que les estimations
d'impacts globaux sur la population française, qui eux, dépendent des
d'impacts globaux sur la population française, qui eux, dépendent des
données disponibles. En revanche, du fait de leur caractère simplifié,
données disponibles. En revanche, du fait de leur caractère simplifié,
ils sont à mettre en perspective avec la réalité du terrain :
ils sont à mettre en perspective avec la réalité du terrain :
@@ -169,17 +169,17 @@
@@ -169,17 +169,17 @@
</li>
</li>
<li class="leading-normal pb-2 text-justify">
<li class="leading-normal pb-2 text-justify">
Deuxièmement, il n'est pas possible de tirer d'une estimation
Deuxièmement, il n'est pas possible de tirer d'une estimation
concernant un cas type, des conclusions sur une situation
concernant un cas-type, des conclusions sur une situation
individuelle précise. Il faudrait pour cela entrer l'ensemble des
individuelle précise. Il faudrait pour cela entrer l'ensemble des
paramètres ayant une influence sur le dispositif à évaluer
paramètres ayant une influence sur le dispositif à évaluer
concernant une personne réelle, à l'instar des déclarations de
concernant une personne réelle, à l'instar des déclarations de
revenus, les simulateurs LexImpact n'ont pas cette vocation.
revenus, et les simulateurs LexImpact n'ont pas cette vocation.
</li>
</li>
</ul>
</ul>
</div>
</div>
<p class="leading-normal pb-3 pt-3 text-justify">
<p class="leading-normal pb-3 pt-3 text-justify">
Dans le cadre des dotations aux communes, le simulateur ne permet pas de
Dans le cadre des dotations aux communes, le simulateur ne permet pas de
créer un cas type de commune puisque l'ensemble des communes sont
créer un cas-type de commune puisque l'ensemble des communes sont
accessibles par le biais de la barre de recherche. La possibilité de
accessibles par le biais de la barre de recherche. La possibilité de
rechercher les communes et de les afficher permet d'effectuer des
rechercher les communes et de les afficher permet d'effectuer des
comparaisons.
comparaisons.
@@ -192,7 +192,7 @@
@@ -192,7 +192,7 @@
</div>
</div>
</div>
</div>
<p class="leading-normal pb-3 text-justify">
<p class="leading-normal pb-3 text-justify">
En plus des impacts sur cas types, LexImpact permet d'estimer les effets
En plus des impacts sur cas-types, LexImpact permet d'estimer les effets
globaux (sans être comportementaux) d'une modification de la loi. Pour
globaux (sans être comportementaux) d'une modification de la loi. Pour
cela, les simulateurs s'appuient sur <span class="font-bold"
cela, les simulateurs s'appuient sur <span class="font-bold"
>des données représentatives de la population française :</span
>des données représentatives de la population française :</span
@@ -255,14 +255,13 @@
@@ -255,14 +255,13 @@
<p class="pb-3 font-bold">
<p class="pb-3 font-bold">
Simulateur des cotisations & prestations sociales :
Simulateur des cotisations & prestations sociales :
</p>
</p>
<TextUnderconstructionMessage />
</div>
</div>
</div>
</div>
<div class="bg-gray-100 p-4 text-sm">
<div class="bg-gray-100 p-4 text-sm">
<h4 class="text-base font-bold pb-2">
<h4 class="text-base font-bold pb-2">
La précision des impacts globaux dépend de la qualité et de la
La précision des impacts globaux dépend de la qualité et de la
fraicheur des données
fraîcheur des données
</h4>
</h4>
<p class="leading-normal pb-3 text-justify">
<p class="leading-normal pb-3 text-justify">
@@ -290,7 +289,7 @@
@@ -290,7 +289,7 @@
</p>
</p>
<ul class="list-inside list-disc pl-4 ">
<ul class="list-inside list-disc pl-4 ">
<li class="leading-normal pb-2 text-justify">
<li class="leading-normal pb-2 text-justify">
En amont, <span class="font-bold">les fournisseurs de donnée</span>.
En amont, <span class="font-bold">les fournisseurs de données</span>.
Qu'il s'agisse de données publiques, ou de données protégées, cet
Qu'il s'agisse de données publiques, ou de données protégées, cet
écosystème est indispensable pour permettre d'estimer les impacts
écosystème est indispensable pour permettre d'estimer les impacts
d'une réforme sur la population française et sur le budget de l'État
d'une réforme sur la population française et sur le budget de l'État
@@ -301,7 +300,7 @@
@@ -301,7 +300,7 @@
LexImpact échange régulièrement avec des <span class="font-bold"
LexImpact échange régulièrement avec des <span class="font-bold"
>experts techniques et métiers</span
>experts techniques et métiers</span
>
>
dont le domaine de compétence est reconnu. L'ensemble de ces contributions
dont le domaine de compétences est reconnu. L'ensemble de ces contributions
est visible dans
est visible dans
<a
<a
href="https://git.leximpact.dev/"
href="https://git.leximpact.dev/"
@@ -339,22 +338,98 @@
@@ -339,22 +338,98 @@
>
>
* Le calcul d’impact sur des cas spécifiques est possible uniquement
* Le calcul d’impact sur des cas spécifiques est possible uniquement
pour des entités dont les données sont entièrements publiques.
pour des entités dont les données sont entièrements publiques.
Actuellement seul le simulateur “Dotations aux communes” est concerné
Actuellement, seul le simulateur “Dotations aux communes” est concerné
avec les cas spécifiques des communes de France. Cela n’est pas possible
par les cas spécifiques des communes de France. Cela n’est pas possible
pour les entreprises et les foyers fiscaux, dont les données sont
pour les entreprises et les foyers fiscaux, dont les données sont
protégées.
protégées.
</p>
</p>
</div>
</div>
<div class="p-10 text-base ">
<div class="p-10 text-base ">
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
Le traitement des données
Le traitement des données
</h3>
</h3>
<TextUnderconstructionMessage />
<p class="leading-normal pb-5 text-justify">
 
Les données exhaustives sur la population qui sont utilisées pour les
 
calculs sur le budget de l'Etat sont protégées par le Secret
 
Statistique, et ne peuvent pas être sorties du CASD. Or, afin de
 
permettre à nos utilisateurs de faire eux-mêmes des simulations, il faut
 
que ces données soient accessibles depuis le simulateur en ligne pour
 
effectuer les calculs: il faut donc des données accessibles. De plus,
 
pour offrir une réponse quasi-immédiate, il faut limiter le temps de
 
calcul, et donc les données manipulées, par exemple en supprimant les
 
calculs dont l'impact sur le résultat final est négligeable.
 
</p>
 
<p class="leading-normal pb-5 text-justify">
 
C'est pourquoi LexImpact utilise un modèle simplifié, c'est-à-dire un
 
échantillonnage des données qui représente le plus fidèlement toute la
 
population, et ce, pour tous les dispositifs que nous vous permettons
 
d'amender. La base de données ERFS-FPR, échantillonnée spécifiquement
 
par l'INSEE afin de permettre par la suite de recalculer précisément des
 
informations sur l'ensemble de la population. Cependant elle ne contient
 
pas toutes les données dont nous avons besoin, afin d'obtenir notre
 
modèle final, plusieurs étapes sont donc nécessaires :
 
</p>
 
<ul class="list-inside list-disc pl-4 ">
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Sélection&nbsp;:</span> nous sélectionnons
 
dans la base exhaustive POTE les données minimales nécessaires pour
 
faire nos différents calculs.
 
<span class="italic"
 
>Par exemple, pour la CSG sur les revenus du capital, nous avons
 
besoin, pour chaque foyer fiscal, des valeurs entrant dans le calcul
 
de l'assiette de CSG du capital, comme les revenus fonciers.
 
Cependant une simplification doit être faite pour limiter le temps
 
de calcul, en omettant par exemple les produits sur gains financiers
 
taxables à 50%, qui représentent moins de 0.0002% de l'assiette de
 
la CSG sur les revenus du capital.</span
 
>
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Extraction&nbsp;:</span> les données sélectionnées
 
sont ensuite extraites du CASD en les agrégeant (par exemple en centiles)
 
afin de respecter le Secret Statistique. La finesse de la distribution
 
est ensuite un compromis entre la précision sur la population et le temps
 
de calcul.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Intégration&nbsp;:</span> ces données sont ensuite
 
réparties dans la base de données ERFS-FPR de l'INSEE pour l'améliorer.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Mise à jour&nbsp;:</span> la base ERFS-FPR étant
 
plus ancienne que la base POTE, elle est mise à jour, avec notamment l'augmentation
 
du nombre de foyers fiscaux et l'inflation de certaines variables.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Anonymisation&nbsp;:</span> afin de garantir un
 
niveau supplémentaire de sécurité, un léger bruitage gaussien est appliqué
 
sur toute la base.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Calibration&nbsp;:</span> enfin, au vu de l'ensemble
 
des hypothèses de calcul faites lors de la génération de notre base, nous
 
vérifions sa pertinence en effectuant plusieurs calculs et en comparant
 
nos résultats aux chiffres officiels. La base est ainsi re-calibrée jusqu'à
 
l'obtention de résultats pertinents pour tous les types de calculs.
 
</li>
 
</ul>
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
Le moteur de calcul
Le moteur de calcul
</h3>
</h3>
<TextUnderconstructionMessage />
<p class="leading-normal pb-5 text-justify">
 
LexImpact, comme de nombreux organismes publics (tels que l’IPP ou la
 
DGFiP), utilise le calculateur OpenFisca. Cet outil est un calculateur
 
qui applique la loi: si on lui entre une situation donnée, il peut
 
calculer l’impôt d’une personne, ou les taxes d’une entreprise.
 
</p>
 
<p class="leading-normal pb-5 text-justify">
 
Logiciel open-source et collaboratif, OpenFisca a été créé en 2011 au
 
sein de France Stratégie en partenariat avec l’Institut d’économie
 
publique (IDEP) afin de permettre une plus grande transparence de la
 
législation fiscale et sociale et une meilleure appréhension de celle-ci
 
par les citoyens. Aujourd'hui, il est hébergé par Etalab, et est
 
développé, mis à jour et vérifié par des contributeurs du monde entier.
 
</p>
<h2 class="text-xl text-gray-700 font-bold pb-3 pt-10">
<h2 class="text-xl text-gray-700 font-bold pb-3 pt-10">
3. Fiabilité des résultats
3. Fiabilité des résultats
@@ -362,8 +437,67 @@
@@ -362,8 +437,67 @@
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
Méthodologie de vérification des résultats
Méthodologie de vérification des résultats
</h3>
</h3>
<TextUnderconstructionMessage />
<p class="leading-normal pb-5 text-justify">
 
Plusieurs mécanismes sont en place pour s'assurer de la qualité des
 
résultats :
 
</p>
 
<ul class="list-inside list-disc pl-4 ">
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold"
 
>Mise au point des algorithmes sur des petits jeux de données&nbsp;:</span
 
>
 
Pour mettre au point les algorithmes nous générons manuellement des jeux
 
de données de test
 
<i>idéaux</i> pour confirmer que l'algorithme produit bien le résultat
 
attendu par la théorie.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold"
 
>Tests avec des données que l'on connait déjà :
 
</span>
 
Ensuite nous demandons à l'algorithme de produire des données que nous
 
connaissons déjà. Nous pouvons ainsi mesurer l'écart entre les résultats
 
obtenus et la réalité.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold"
 
>Contrôles des résultats vis à vis d'agregats :
 
</span>
 
Pour les données dont nous n'avons pas de détails disponibles nous avons
 
parfois accès à la somme total. Par exemple, en août 2021, la dernière
 
enquête ERFS-FPR de l'INSEE disponible concerne 2018, mais l'INSEE publie
 
le montant global des
 
<a
 
class="font-bold underline hover:text-le-bleu"
 
href="https://www.insee.fr/fr/statistiques/2381416#tableau-figure1"
 
>
 
recettes de l'impôt en 2020</a
 
>. Nous pouvons utiliser ce chiffre pour vérifier si la somme de nos
 
simulations pour 2020 s'en rapproche. Et même l'utiliser pour corriger
 
nos données.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold"
 
>Contrôle des résultats de simulations unitaires :
 
</span>
 
Pour vérifier que les simulations sont correctes nous réalisons également
 
des tests manuels sur des cas particuliers. On peut ainsi confronter nos
 
résultats à d'autres simulateurs. Ou encore à des simulations réalisées
 
avec le même simulateur sur les jeux de données complets auxquels nous
 
avons accès mais que nous ne pouvons pas utiliser dans le simulateur en
 
ligne.
 
</li>
 
<li class="leading-normal pb-2 text-justify">
 
<span class="font-bold">Tests automatiques : </span>
 
Nous utilisons un systéme dit <i>d'intégration continue</i>. C'est à
 
dire qu'après chaque modifications de l'application des tests
 
automatisées sont automatiquement exécutés sur l'ensemble de
 
l'application. Cela permet de s'assurer que nous n'introduisons pas de
 
bugs lors des évolutions. Cela limite les tests manuels à réaliser et
 
nous permet de livrer plus rapidement des nouveautés.
 
</li>
 
</ul>
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
<h3 class="pb-3 pt-5 text-xl text-gray-700 font-light">
Une marge d'erreur incompressible
Une marge d'erreur incompressible
</h3>
</h3>
@@ -380,23 +514,29 @@
@@ -380,23 +514,29 @@
<li class="leading-normal pb-2 text-justify">
<li class="leading-normal pb-2 text-justify">
<span class="font-bold"
<span class="font-bold"
>La mise à jour du moteur de calcul&nbsp;:</span
>La mise à jour du moteur de calcul&nbsp;:</span
> Les simulateurs LexImpact s'appuie sur un calculateur. Celui-ci est codé
>
en python, et ces formules reflètent la loi existante. La législation,
Les simulateurs LexImpact s'appuient sur un calculateur. Celui-ci est
en matière fiscale et de sécurité sociale, évoluant au moins tous les ans,
codé en langage
il est nécessaire de mettre à jour ce moteur de calcul, en recodant des
<a
formules et des paramètres. Cette mise à jour ne débute qu'après publication
class="font-bold underline hover:text-le-bleu"
de la loi au Journal officiel, et nécessite un temps plus ou moins long.
href="https://fr.wikipedia.org/wiki/Python_(langage)">Python</a
LexImpact s'appuie sur le moteur de calcul OpenFisca et, malgré les nombreuses
>, et ses formules reflètent la loi existante. La législation, en
contributions, la mise à jour est progressive étant donné le périmètre
matière fiscale et de sécurité sociale, évoluant au moins tous les
du modèle. Le service LexImpact commence par les dispositifs qui pèsent
ans, il est nécessaire de mettre à jour ce moteur de calcul, en
le plus lourd dans les calculs, jusqu'à obtenir des résultats cohérents,
recodant des formules et des paramètres. Cette mise à jour ne débute
mais un petit écart non significatif peut subsister.
qu'après publication de la loi au Journal officiel, et nécessite un
 
temps plus ou moins long. LexImpact s'appuie sur le moteur de calcul
 
OpenFisca et, malgré les nombreuses contributions, la mise à jour est
 
progressive étant donné le large périmètre du modèle. Le service
 
LexImpact commence par les dispositifs qui pèsent le plus lourd dans
 
les calculs, jusqu'à obtenir des résultats cohérents, mais un petit
 
écart non significatif peut subsister.
</li>
</li>
<li class="leading-normal pb-2 text-justify">
<li class="leading-normal pb-2 text-justify">
<span class="font-bold">La simplification d'une situation&nbsp;:</span
<span class="font-bold">La simplification d'une situation&nbsp;:</span
>
>
Que ce soit pour le calcul des cas types ou pour le calcul d'impacts sur
Que ce soit pour le calcul des cas-types ou pour le calcul d'impacts sur
la population française, les paramètres définissant l'entité pour laquelle
la population française, les paramètres définissant l'entité pour laquelle
l'impact est calculé sont toujours simplifiés. Dans le cas d'impacts globaux,
l'impact est calculé sont toujours simplifiés. Dans le cas d'impacts globaux,
les données sont parfois simplement inexistantes ; pour les cas types,
les données sont parfois simplement inexistantes ; pour les cas types,
Loading