(Et pour voir les départements les plus accueillants, c'est ici: https://gist.github.com/cerisara/928ad03cf15c77dda8897c2cf49ef27d )
-
-
Save cerisara/d8a9378d65356fc1aeba744c681d64ae to your computer and use it in GitHub Desktop.
""" | |
preprocessing: | |
zcat insee_deces.csv.gz | cut -d',' -f4,8 | sed 's/,/ /g;s/-/ /g' | awk '{print $1,$4-$1}' | sort -n > tt | |
grep -v '-' tt > ttt | |
j'ai aussi enleve quelques lignes non numeriques a la main dans ttt (header des cols...) | |
""" | |
f = open("ttt","r") | |
dprev,m,n=0,0,0 | |
for l in f: | |
s=l.strip().split(" ") | |
d=s[0] | |
if not d==dprev and n>0: | |
mm = float(m)/float(n) | |
print("%s %f" % (dprev,mm)) | |
n,m=0,0 | |
dprev=d | |
a=int(s[1]) | |
if a>=0 and a<=150: | |
m+=a | |
n+=1 | |
f.close() | |
# et affichage avec gnuplot |
Oui, c'est vrai, ajouter un intervalle. Et utiliser une fenêtre glissante aussi... En fait, la chose interessante que l'on pourrait peut-etre deduire d'une analyse sur ces données est de déterminer si les données sont biaisées ou pas ? ;-)
Et que se passe-t-il en 1970 ? Pourquoi la pente est un peu différente avant et après 1970 ?
j'ai vu des commentaires indiquant que l'année 1970 était assez incomplete. problème de remontée de l'info ou de la saisie informatique.
bravo pour cette première réutilisation.
En revanche, là on regarde l'espérance de vie des personnes décédées. Il faudrait partir des données sur le nombre de naissance par an pour pouvoir faire des analyses de survie et évaluer la durée de vie à partir d'un modèle de survie ou de durée. (https://fr.wikipedia.org/wiki/Analyse_de_survie)
Tout-à-fait d'accord ! Cette courbe n'est pas très utile d'un point de vue sociologique ;-)
Mais elle est surtout utile pour localiser les biais éventuels dans les données - par ex., l'année 1970 et les suivantes...
bonjour, excellente initiative ; pour rendre l'information plus pertinente, il faudrait peut-etre tenir compte du nombre d’occurrences par années.