Skip to content

Instantly share code, notes, and snippets.

@cerisara
Last active December 16, 2019 20:01
Show Gist options
  • Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
durée de vie moyenne des personnes décédées par date de naissance en France
"""
preprocessing:
zcat insee_deces.csv.gz | cut -d',' -f4,8 | sed 's/,/ /g;s/-/ /g' | awk '{print $1,$4-$1}' | sort -n > tt
grep -v '-' tt > ttt
j'ai aussi enleve quelques lignes non numeriques a la main dans ttt (header des cols...)
"""
f = open("ttt","r")
dprev,m,n=0,0,0
for l in f:
s=l.strip().split(" ")
d=s[0]
if not d==dprev and n>0:
mm = float(m)/float(n)
print("%s %f" % (dprev,mm))
n,m=0,0
dprev=d
a=int(s[1])
if a>=0 and a<=150:
m+=a
n+=1
f.close()
# et affichage avec gnuplot
@cerisara
Copy link
Author

Tout-à-fait d'accord ! Cette courbe n'est pas très utile d'un point de vue sociologique ;-)
Mais elle est surtout utile pour localiser les biais éventuels dans les données - par ex., l'année 1970 et les suivantes...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment