Skip to content

Instantly share code, notes, and snippets.

@cerisara
Last active December 16, 2019 20:01
Show Gist options
  • Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
durée de vie moyenne des personnes décédées par date de naissance en France
"""
preprocessing:
zcat insee_deces.csv.gz | cut -d',' -f4,8 | sed 's/,/ /g;s/-/ /g' | awk '{print $1,$4-$1}' | sort -n > tt
grep -v '-' tt > ttt
j'ai aussi enleve quelques lignes non numeriques a la main dans ttt (header des cols...)
"""
f = open("ttt","r")
dprev,m,n=0,0,0
for l in f:
s=l.strip().split(" ")
d=s[0]
if not d==dprev and n>0:
mm = float(m)/float(n)
print("%s %f" % (dprev,mm))
n,m=0,0
dprev=d
a=int(s[1])
if a>=0 and a<=150:
m+=a
n+=1
f.close()
# et affichage avec gnuplot
@pachevalier
Copy link

bravo pour cette première réutilisation.

En revanche, là on regarde l'espérance de vie des personnes décédées. Il faudrait partir des données sur le nombre de naissance par an pour pouvoir faire des analyses de survie et évaluer la durée de vie à partir d'un modèle de survie ou de durée. (https://fr.wikipedia.org/wiki/Analyse_de_survie)

@cerisara
Copy link
Author

Tout-à-fait d'accord ! Cette courbe n'est pas très utile d'un point de vue sociologique ;-)
Mais elle est surtout utile pour localiser les biais éventuels dans les données - par ex., l'année 1970 et les suivantes...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment