(Et pour voir les départements les plus accueillants, c'est ici: https://gist.github.com/cerisara/928ad03cf15c77dda8897c2cf49ef27d )
Last active
December 16, 2019 20:01
-
-
Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
durée de vie moyenne des personnes décédées par date de naissance en France
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
""" | |
preprocessing: | |
zcat insee_deces.csv.gz | cut -d',' -f4,8 | sed 's/,/ /g;s/-/ /g' | awk '{print $1,$4-$1}' | sort -n > tt | |
grep -v '-' tt > ttt | |
j'ai aussi enleve quelques lignes non numeriques a la main dans ttt (header des cols...) | |
""" | |
f = open("ttt","r") | |
dprev,m,n=0,0,0 | |
for l in f: | |
s=l.strip().split(" ") | |
d=s[0] | |
if not d==dprev and n>0: | |
mm = float(m)/float(n) | |
print("%s %f" % (dprev,mm)) | |
n,m=0,0 | |
dprev=d | |
a=int(s[1]) | |
if a>=0 and a<=150: | |
m+=a | |
n+=1 | |
f.close() | |
# et affichage avec gnuplot |
bravo pour cette première réutilisation.
En revanche, là on regarde l'espérance de vie des personnes décédées. Il faudrait partir des données sur le nombre de naissance par an pour pouvoir faire des analyses de survie et évaluer la durée de vie à partir d'un modèle de survie ou de durée. (https://fr.wikipedia.org/wiki/Analyse_de_survie)
Tout-à-fait d'accord ! Cette courbe n'est pas très utile d'un point de vue sociologique ;-)
Mais elle est surtout utile pour localiser les biais éventuels dans les données - par ex., l'année 1970 et les suivantes...
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
j'ai vu des commentaires indiquant que l'année 1970 était assez incomplete. problème de remontée de l'info ou de la saisie informatique.