Valexandre/Création texte automatique

## Création texte automatique
##%######################################################%##
#                                                          #
####           On veut présenter des valeurs            ####
####          absolues et des évolutions dans           ####
####            chaque commune et les mettre            ####
####   en perspective avec une valeur départementale.   ####
#                                                          #
##%######################################################%##

#Au Kremlin-Bicêtre, la population VERBE AU PASSE COMPOSE, passant de XXX à YYYY tandis qu'elle VERBE A L'IMPARFAIT dans le reste du Val de Marne, autour de ZZZZ.

#On s'assure d'avoir les bons noms de communes et de départements en toutes circonstances, dataset créé à partir de ça : https://www.insee.fr/fr/information/4316069

TouslesLibellesDesVilles <-read_csv("C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/COMMUNE/TouslesLibellesDesVilles.txt")
colnames(TouslesLibellesDesVilles)[1] <- "CODGEO"
TouslesLibellesDesDepartements <-read_csv(  "C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/COMMUNE/TouslesLibellesDesDepartements.txt")
head(TouslesLibellesDesDepartements)
head(TouslesLibellesDesVilles)

#On charge les librairies
library(tidyverse)
library(readr)
library(readxl)
library(glue)

# On charge les fonctions utiles
options(scipen=999)
`%!in%` = function(x, y)  ! (x %in% y)
Majuscule = function(x) (paste0(toupper(substr(x, 1, 1)), substr(x, 2, nchar(x))))
MajMin = function(x) (paste0(toupper(substr(x, 1, 1)), tolower(substr(x, 2, nchar(x)))))
Virg=function(x) (gsub("\\.",",",x))
Milliers=function(x) (formatC(round(x,0), format="f", big.mark = " ", digits=0))


# On charge les données
EvolutionPopulation_2016_2006 <- read_csv("C:/Users/valexandre/Documents/DonneesMaVille/FINALDATA/EvolutionPopulation-2016-2006.csv", locale = locale(encoding = "ISO-8859-1"))
EvolutionPopulation_2016_2006<-EvolutionPopulation_2016_2006[c(1:3,5)]
head(EvolutionPopulation_2016_2006)
EvolutionPopulation_2016_2006$EvolPopBrute<-EvolutionPopulation_2016_2006$P16_POP-EvolutionPopulation_2016_2006$P06_POP

# On charge le jeu de données des expressions
Lexique <-read_csv("C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/Lexique - Evolution.csv")
Lexique$valeurmin<-as.numeric(gsub(",",".",Lexique$valeurmin))
Lexique$valeurmax<-as.numeric(gsub(",",".",Lexique$valeurmax))

head(Lexique[,1:5])

#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.

# On joint les noms de la ville et du departement au jeu de données

Texte<-EvolutionPopulation_2016_2006%>%mutate(dep=substr(CODGEO,1,2))%>%
  left_join(TouslesLibellesDesDepartements)%>%left_join(TouslesLibellesDesVilles)
head(Texte)

# On calcule les valeurs deps
EvolDep<-EvolutionPopulation_2016_2006%>%mutate(dep=substr(CODGEO,1,2))%>%group_by(dep)%>%
  summarise(P16_POPDep=sum(P16_POP,na.rm=T),
            P06_POPDep=sum(P06_POP,na.rm=T))%>%
  mutate(TxEvolDep=(P16_POPDep-P06_POPDep)/P06_POPDep*100,
         EvolPopBruteDep=(P16_POPDep-P06_POPDep))

#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.

# On fait une première jointure sur la situaiton de la population de la ville.
# une évolution en % dont le sujet est un féminin singulier (et on enlève les formulations à bases de valeur, pas adaptées)
Texte_1J<-merge(Texte, Lexique %>%
                  filter(utilisation == "evolution")%>%
                  filter(!grepl("valeur",texte))%>%
                  filter(`singouplur(S/P)`=="S")%>%
                  filter(`genre(M/F/N)`=="N" |`genre(M/F/N)`=="F"))%>%
  filter(EvolPop2006_16 >= valeurmin, EvolPop2006_16 <= valeurmax) %>%
  rename(texteevoville=texte)%>%
  select(colnames(Texte)[1:5],texteevoville,everything())%>%
  arrange(CODGEO)

head(Texte_1J)
#On passe de 35675 lignes à 174644 lignes, avec une ligne pour chaque possibilité de verbe.

# On joint ensuite les évols départements
Texte_2J<-Texte_1J%>%left_join(EvolDep)

#On va créer deux phrases types et ensuite on choisira au hasard parmi l'un de ces deux templates, pour l'une des lignes possibles.

#On pourrait faire la même pour le département, mais on va se contenter de 3 cas: augmentait, baissait, stagnait

#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.
colnames(Texte_2J)

GabaritsTextes<-Texte_2J%>%
  mutate(Template1=case_when(TxEvolDep<= -2 ~
                               glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle baissait dans le reste {DuDep}."),
                             TxEvolDep>= 2 ~
                               glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle augmentait dans le reste {DuDep}."),
                             TRUE~
                               glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle stagnait dans le reste {DuDep}.")),

         Template2=case_when(TxEvolDep<= -2 ~
                               glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population baisser de {Virg(abs(round(TxEvolDep,1)))}%."),
                             TxEvolDep>= 2 ~
                               glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population augmenter de {Virg(round(TxEvolDep,1))}%."),
                             TRUE~
                               glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population stagner ({Milliers(P16_POPDep)} habitants en 2016).")))


EnsemblesDesTextes<-rbind(GabaritsTextes%>%select(CODGEO,Template1),
                          GabaritsTextes%>%select(CODGEO,Template2)%>%rename(Template1=Template2))
# On a donc 326 922 textes possibles.
# On va en sélectionner 1, au hasard
EnsemblesDesTextes$Chosen <- 0

#On assigne un 1, au hasard pour l'ensemble des possibilités
EnsemblesDesTextes[-tapply(-seq_along(EnsemblesDesTextes$Template1),EnsemblesDesTextes$CODGEO,sample,size = 1), ]$Chosen <- 1

TexteSelectionne<-EnsemblesDesTextes %>% arrange(CODGEO)

#On ne garde que celle sélectionnée
TexteSelectionne <- TexteSelectionne %>% filter(Chosen == 1)%>%select(-Chosen)

#Aperçu
TexteSelectionne[1:10,2]


# L'intéret : une meilleure lisibilité pour les lecteurs.
# Un apport plus sérieux : exemple :
TexteSelectionne$Template1[TexteSelectionne$CODGEO=="91692"]
TexteSelectionne$Template1[TexteSelectionne$CODGEO=="94043"]


write.csv(TexteSelectionne%>%arrange(CODGEO),"Exemple.csv",row.names = F,fileEncoding = "UTF-8")
	##%######################################################%##
	# #
	#### On veut présenter des valeurs ####
	#### absolues et des évolutions dans ####
	#### chaque commune et les mettre ####
	#### en perspective avec une valeur départementale. ####
	# #
	##%######################################################%##

	#Au Kremlin-Bicêtre, la population VERBE AU PASSE COMPOSE, passant de XXX à YYYY tandis qu'elle VERBE A L'IMPARFAIT dans le reste du Val de Marne, autour de ZZZZ.

	#On s'assure d'avoir les bons noms de communes et de départements en toutes circonstances, dataset créé à partir de ça : https://www.insee.fr/fr/information/4316069

	TouslesLibellesDesVilles <-read_csv("C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/COMMUNE/TouslesLibellesDesVilles.txt")
	colnames(TouslesLibellesDesVilles)[1] <- "CODGEO"
	TouslesLibellesDesDepartements <-read_csv( "C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/COMMUNE/TouslesLibellesDesDepartements.txt")
	head(TouslesLibellesDesDepartements)
	head(TouslesLibellesDesVilles)

	#On charge les librairies
	library(tidyverse)
	library(readr)
	library(readxl)
	library(glue)

	# On charge les fonctions utiles
	options(scipen=999)
	`%!in%` = function(x, y) ! (x %in% y)
	Majuscule = function(x) (paste0(toupper(substr(x, 1, 1)), substr(x, 2, nchar(x))))
	MajMin = function(x) (paste0(toupper(substr(x, 1, 1)), tolower(substr(x, 2, nchar(x)))))
	Virg=function(x) (gsub("\\.",",",x))
	Milliers=function(x) (formatC(round(x,0), format="f", big.mark = " ", digits=0))


	# On charge les données
	EvolutionPopulation_2016_2006 <- read_csv("C:/Users/valexandre/Documents/DonneesMaVille/FINALDATA/EvolutionPopulation-2016-2006.csv", locale = locale(encoding = "ISO-8859-1"))
	EvolutionPopulation_2016_2006<-EvolutionPopulation_2016_2006[c(1:3,5)]
	head(EvolutionPopulation_2016_2006)
	EvolutionPopulation_2016_2006$EvolPopBrute<-EvolutionPopulation_2016_2006$P16_POP-EvolutionPopulation_2016_2006$P06_POP

	# On charge le jeu de données des expressions
	Lexique <-read_csv("C:/Users/valexandre/OneDrive - Groupe Les Echos/EXT/DonneesSources/Lexique - Evolution.csv")
	Lexique$valeurmin<-as.numeric(gsub(",",".",Lexique$valeurmin))
	Lexique$valeurmax<-as.numeric(gsub(",",".",Lexique$valeurmax))

	head(Lexique[,1:5])

	#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.

	# On joint les noms de la ville et du departement au jeu de données

	Texte<-EvolutionPopulation_2016_2006%>%mutate(dep=substr(CODGEO,1,2))%>%
	left_join(TouslesLibellesDesDepartements)%>%left_join(TouslesLibellesDesVilles)
	head(Texte)

	# On calcule les valeurs deps
	EvolDep<-EvolutionPopulation_2016_2006%>%mutate(dep=substr(CODGEO,1,2))%>%group_by(dep)%>%
	summarise(P16_POPDep=sum(P16_POP,na.rm=T),
	P06_POPDep=sum(P06_POP,na.rm=T))%>%
	mutate(TxEvolDep=(P16_POPDep-P06_POPDep)/P06_POPDep*100,
	EvolPopBruteDep=(P16_POPDep-P06_POPDep))

	#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.

	# On fait une première jointure sur la situaiton de la population de la ville.
	# une évolution en % dont le sujet est un féminin singulier (et on enlève les formulations à bases de valeur, pas adaptées)
	Texte_1J<-merge(Texte, Lexique %>%
	filter(utilisation == "evolution")%>%
	filter(!grepl("valeur",texte))%>%
	filter(`singouplur(S/P)`=="S")%>%
	filter(`genre(M/F/N)`=="N" \|`genre(M/F/N)`=="F"))%>%
	filter(EvolPop2006_16 >= valeurmin, EvolPop2006_16 <= valeurmax) %>%
	rename(texteevoville=texte)%>%
	select(colnames(Texte)[1:5],texteevoville,everything())%>%
	arrange(CODGEO)

	head(Texte_1J)
	#On passe de 35675 lignes à 174644 lignes, avec une ligne pour chaque possibilité de verbe.

	# On joint ensuite les évols départements
	Texte_2J<-Texte_1J%>%left_join(EvolDep)

	#On va créer deux phrases types et ensuite on choisira au hasard parmi l'un de ces deux templates, pour l'une des lignes possibles.

	#On pourrait faire la même pour le département, mais on va se contenter de 3 cas: augmentait, baissait, stagnait

	#Au Kremlin-Bicêtre, la population a plus que doublé, passant de XXX à YYYY tandis qu'elle stagnait dans le reste du Val de Marne, autour de ZZZZ.
	colnames(Texte_2J)

	GabaritsTextes<-Texte_2J%>%
	mutate(Template1=case_when(TxEvolDep<= -2 ~
	glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle baissait dans le reste {DuDep}."),
	TxEvolDep>= 2 ~
	glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle augmentait dans le reste {DuDep}."),
	TRUE~
	glue("{Majuscule(ALaVille)}, la population {texteevoville}, passant de {Milliers(P06_POP)} à {Milliers(P16_POP)}, tandis qu'elle stagnait dans le reste {DuDep}.")),

	Template2=case_when(TxEvolDep<= -2 ~
	glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population baisser de {Virg(abs(round(TxEvolDep,1)))}%."),
	TxEvolDep>= 2 ~
	glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population augmenter de {Virg(round(TxEvolDep,1))}%."),
	TRUE~
	glue("La population {DeLaVille} {texteevoville} entre 2006 et 2016 : elle est passée de {Milliers(P06_POP)} à {Milliers(P16_POP)} habitants, soit une évolution de {Virg(round(EvolPop2006_16,1))}%. Dans le même temps, {BonNomDeDep} voyait sa population stagner ({Milliers(P16_POPDep)} habitants en 2016).")))


	EnsemblesDesTextes<-rbind(GabaritsTextes%>%select(CODGEO,Template1),
	GabaritsTextes%>%select(CODGEO,Template2)%>%rename(Template1=Template2))
	# On a donc 326 922 textes possibles.
	# On va en sélectionner 1, au hasard
	EnsemblesDesTextes$Chosen <- 0

	#On assigne un 1, au hasard pour l'ensemble des possibilités
	EnsemblesDesTextes[-tapply(-seq_along(EnsemblesDesTextes$Template1),EnsemblesDesTextes$CODGEO,sample,size = 1), ]$Chosen <- 1

	TexteSelectionne<-EnsemblesDesTextes %>% arrange(CODGEO)

	#On ne garde que celle sélectionnée
	TexteSelectionne <- TexteSelectionne %>% filter(Chosen == 1)%>%select(-Chosen)

	#Aperçu
	TexteSelectionne[1:10,2]


	# L'intéret : une meilleure lisibilité pour les lecteurs.
	# Un apport plus sérieux : exemple :
	TexteSelectionne$Template1[TexteSelectionne$CODGEO=="91692"]
	TexteSelectionne$Template1[TexteSelectionne$CODGEO=="94043"]


	write.csv(TexteSelectionne%>%arrange(CODGEO),"Exemple.csv",row.names = F,fileEncoding = "UTF-8")