Skip to content

Instantly share code, notes, and snippets.

@andreasvc
Last active February 6, 2018 21:59
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 1 You must be signed in to fork a gist
  • Save andreasvc/e3e93f9596c871c0949fee04cb557250 to your computer and use it in GitHub Desktop.
Save andreasvc/e3e93f9596c871c0949fee04cb557250 to your computer and use it in GitHub Desktop.
Word lists for extraction of physical descriptions

Word lists for extraction of physical descriptions

These are XPath macros used in our DSH paper on physical descriptions of appearance.

English translation of macro names

  • uiterlijkN = looksN
  • uiterlijkA = looksA
  • persoon = person
  • kleding = clothing
  • statiefWW = stativeVERB

Reference

Corina Koolen, Andreas van Cranenburgh (2017). Blue eyes and porcelain cheeks: Computational extraction of physical descriptions from Dutch chick lit and literary novels. Digital Scholarship in the Humanities. To Appear.

uiterlijkN = """ (@root='aangezicht' or @root='aanschijn' or @root='aanzicht' or @root='aanzien' or @root='achterste' or @root='achtersteven'
or @root='achterwerk' or @root='arm' or @root='arm_DIM' or @root='baard' or @root='baard_DIM' or @root='bakkes' or @root='balg' or @root='been'
or @root='been_DIM' or @root='beenweefsel' or @root='beharing' or @root='bek' or @root='bek_DIM' or @root='bibs' or @root='bil' or @root='bips'
or @root='borst' or @root='borst_DIM' or @root='bot' or @root='buik' or @root='buik_DIM' or @root='coiffure' or @root='coupe'
or @root='embonpoint' or @root='facie' or @root='fieselefacie' or @root='fieselemie' or @root='frisuur' or @root='fysiognomie' or @root='fysionomie'
or @root='gehoororgaan' or @root='gelaat' or @root='gezicht' or @root='gezichtje' or @root='haar' or @root='haardos' or @root='haardracht'
or @root='haarkrul' or @root='haarstijl' or @root='haar_DIM' or @root='heup' or @root='hol' or @root='hoofdhaar' or @root='huid' or @root='huid_DIM'
or @root='jukbeen' or @root='kaak' or @root='kaakbeen' or @root='kaakbeent_DIM' or @root='kaak_DIM' or @root='kaaklijn' or @root='kaaksbeen'
or @root='kakebeen' or @root='kakement' or @root='kap' or @root='kap_DIM' or @root='kapsel' or @root='kijkers' or @root='kin' or @root='kinnebak'
or @root='kin_DIM' or @root='knie' or @root='knie_DIM' or @root='knook' or @root='kont' or @root='kont_DIM' or @root='korst_DIM' or @root='krul' or @root='krul_DIM' or @root='kuif'
or @root="kuif_DIM" or @root='kuil_DIM' or @root='lichaam' or @root='lichaam_DIM' or @ root='lijf' or @root='lijf_DIM' or @root='lip' or @root='lip_DIM' or @root='lokken' or @root='maag' or @root='mem'
or @root='memmen' or @root='moel' or @root='mond' or @root='mond_DIM' or @root='muil' or @root='neus' or @root='neus_DIM' or @root='neusstuk'
or @root='oog' or @root='ooghaar' or @root='oog_DIM'
or @root='oogwimper' or @root='oor' or @root='oor_DIM' or @root='pens' or @root='pinkhaar' or @root='ponem' or @root='poot' or @root='porem'
or @root='pram' or @root='pruik' or @root='reukorgaan' or @root='rimpel' or @root='rimpeltje' or @root='schraal' or @root='schoonheidsvlek_DIM'
or @root='smoel' or @root='smoelwerk'
or @root='snoet' or @root='snor' or @root='snorbaard' or @root='snorrebaard' or @root='snorrenbaard' or @root='snorretje' or @root='snotkoker'
or @root='snufferd' or @root='stelt' or @root='taille' or @root='tand' or @root='tand_DIM' or @root='tiet' or @root='tiet_DIM' or @root='toet'
or @root='toet_DIM' or @root='trekken' or @root='tronen' or @root='tronie' or @root='uiterlijk' or @root='uitloop' or @root='vel'
or @root='voorhoofd' or @root='voorhoofd_DIM' or @root='vrouwenborst' or @root='wallen' or @root='wangbeen' or @root='wenkbrauw'
or @root='wenkbrauw_DIM' or @root='wimper' or @root='wimper_DIM' or @root='zitvlak' or @root='streep_DIM' or @root='gelaatskleur'
or @root='huidskleur' or @root='huidvlek' or @root='huidkleur' or @root='kleur' or @root='kleurtje' or @root='lens' or @root='matheid'
or @root='onderdeur' or @root='pastelkleur' or @root='pasteltint' or @root='pigment' or @root='schakering' or @root='teint' or @root='wirwar'
) and @pos="noun" """
uiterlijkA = """ @pos="adj" and (@root='aangenaam' or @root='aantrekkelijk' or @root='aanzienlijk'
or @root='aardig' or @root='adult' or @root='afgeleefd' or @root='afgemat' or @root='afgepeigerd' or @root='antiek' or @root='antraciet' or @root='aquamarijn'
or @root='asachtig' or @root='asgrauw' or @root='azuren' or @root='azuur' or @root='bedekt' or @root='behoorlijk' or @root='beige' or @root='bekoorlijk'
or @root='benig' or @root='berlijns-blauw' or @root='best' or @root='bevallig' or @root='blank' or @root='blauw' or @root='bleek'
or @root='blind' or @root='bloedkoralen' or @root='blond' or @root='blozend' or @root='bont' or @root='bontgekleurd' or @root='bordeaux' or @root='breedgebouwd'
or @root='briljant' or @root='bronskleurig' or @root='bronzen' or @root='broodmager' or @root='bruin' or @root='buikig' or @root='caleidoscopisch'
or @root='chamois' or @root='charmant' or @root='chromaatgeel' or @root='chromaatgroen' or @root='cinnaber' or @root='compact' or @root='corpulent'
or @root='crème' or @root='degelijk' or @root='diamanten' or @root='diep' or @root='dik' or @root='dof' or @root='dol' or @root='donker' or @root='donkerbruin'
or @root='doodsbleek' or @root='dun' or @root='ecru' or @root='effen' or @root='eigentijds' or @root='fel' or @root='fijn'
or @root='fiks' or @root='fit' or @root='flets' or @root='fleurig' or @root='flink' or @root='flinkgebouwd' or @root='fluorescent' or @root='fluorescerend'
or @root='fors' or @root='forsgebouwd' or @root='fris' or @root='fuchsia' or @root='fuchsine' or @root='gedateerd' or @root='geel' or @root='geelbruin'
or @root='geheel' or @root='gekleurd' or @root='gematteerd' or @root='gepareld' or @root='gespierd' or @root='getaand'
or @root='gezet' or @root='gezwollen' or @root='glansloos' or @root='goud' or @root='goudbruin' or @root='gouden' or @root='goudkleurig'
or @root='grasgroen' or @root='grauw' or @root='grauwbruin' or @root='grijs' or @root='grijsbruin' or @root='grijsgroen' or @root='grijsharig'
or @root='grijswit' or @root='groen' or @root='groenbruin' or @root='groengeel' or @root='grofgebouwd' or @root='groot' or @root='gulden' or @root='hard'
or @root='hardblauw' or @root='heel' or @root='heerlijk' or @root='heet' or @root='hel' or @root='helblauw' or @root='helder' or @root='hemelsblauw'
or @root='heterogeen' or @root='honinggeel' or @root='hoog' or @root='hups' or @root='ijzeren'
or @root='ijzersterk' or @root='indigo' or @root='inkt' or @root='ivoor' or @root='jong' or @root='kaal' or @root='kaalhoofdig'
or @root='karmijn' or @root='karmozijn' or @root='kastanjebruin' or @root='kastanjekleurig' or @root='keihard' or @root='klassiek' or @root='klein'
or @root='kleurig' or @root='knalblauw' or @root='knap' or @root='knokig' or @root='kobalt' or @root='koperachtig'
or @root='koperen' or @root='koperkleurig' or @root='koraalrood' or @root='koralen' or @root='kort' or @root='koud' or @root='krachtig' or @root='krijtwit'
or @root='lam' or @root='lang' or @root='lazuren' or @root='lazuur' or @root='lekker' or @root='lelijk' or @root='leuk' or @root='licht'
or @root='lichtblond' or @root='lichtbruin' or @root='lichtgebouwd' or @root='lichtgekleurd' or @root='lieftallig' or @root='lijkbleek'
or @root='lijkkleur' or @root='lijkwit' or @root='lijvig' or @root='lomp' or @root='luchtig' or @root='luimig' or @root='mager' or @root='mat'
or @root='matig' or @root='mauve' or @root='modern' or @root='monochroom' or @root='mooi' or @root='muisgrijs' or @root='net'
or @root='neutraal' or @root='nieuw' or @root='nieuwerwets' or @root='oker' or @root='olijfachtig' or @root='olijfgroen' or @root='omvangrijk'
or @root='onaanzienlijk' or @root='ondoorzichtig' or @root='onesthetisch' or @root='ongebleekt' or @root='onooglijk' or @root='onzacht'
or @root='onzuiver' or @root='oranje' or @root='oranjerood' or @root='oud' or @root='oudbakken' or @root='ouderwets' or @root='paarlen' or @root='paars'
or @root='parelen' or @root='parelgrijs' or @root='parelvormig' or @root='pastel'
or @root='perzik' or @root='pips' or @root='plezant' or @root='plomp' or @root='poederachtig' or @root='polychroom'
or @root='potig' or @root='prettig' or @root='psychedelisch' or @root='puik' or @root='purper' or @root='purperblauw' or @root='reebruin' or @root='reseda'
or @root='robuust' or @root='roestbruin' or @root='roestig' or @root='roestkleurig' or @root='romig' or @root='rood' or @root='roodbruin' or @root='roodharig'
or @root='roodwangig' or @root='roomkleurig' or @root='roomwit' or @root='rosharig' or @root='rossig' or @root='roze' or @root='rozenrood' or @root='rozerood'
or @root='rozig' or @root='ruig' or @root='ruw' or @root='saffier' or @root='saffierblauw' or @root='saffieren' or @root='saffraangeel'
or @root='scharlaken' or @root='schel' or @root='schilderachtig' or @root='schimmelkleurig' or @root='schoon'
or @root='sepia' or @root='slank' or @root='slap' or @root='smaragd' or @root='spichtig' or @root='sportief' or @root='sprekend' or @root='sprietig'
or @root='staalhard' or @root='steenhard' or @root='steenkolenzwart' or @root='steenkoolzwart' or @root='steil' or @root='stemmig' or @root='sterk'
or @root='stevig' or @root='stijf' or @root='strak' or @root='strogeel' or @root='taankleurig' or @root='tache de beauté'
or @root='teer' or @root='tekenachtig' or @root='tenger' or @root='tint' or @root='topaas' or @root='turkoois' or @root='turquoise'
or @root='ultramarijn' or @root='vaal' or @root='vaalbruin' or @root='vaalgeel' or @root='vaalgrijs' or @root='vaalwit' or @root='valig'
or @root='veelkleurig' or @root='verdord' or @root='vermiljoen' or @root='verouderd' or @root='verschoten' or @root='verzorgd' or @root='vet'
or @root='vierkant' or @root='vijftigjarig' or @root='violet' or @root='vlasblond' or @root='vlek' or @root='vlinderachtig' or @root='vlot' or @root='vol'
or @root='volumineus' or @root='volwassen' or @root='vormloos' or @root='vuilwit' or @root='warm' or @root='wasachtig' or @root='wasbleek'
or @root='waterachtig' or @root='waterig' or @root='wild' or @root='wit' or @root='woest' or @root='wuft' or @root='zacht'
or @root='zeegroen' or @root='zilverachtig' or @root='zilveren' or @root='zilverkleurig' or @root='zilverwit' or @root='zwaar' or @root='zwaargebouwd'
or @root='zwaargeschapen' or @root='zwaarlijvig' or @root='zwart'
) """
persoon = """ (@root='boy' or @root='broger' or @root='chick' or @root='dame' or @root='dienares' or @root='dienstbode' or @root='dienstmeid' or
@root='dienstmeisje' or @root='ding' or @root='echtgenoot' or @root='echtgenote' or @root='eega' or @root='figuur' or @root='gade' or @root='gemaal'
or @root='gemalin' or @root='goof' or @root='gozer' or @root='griet' or @root='heer' or @root='joch' or @root='jong' or @root='jongedame'
or @root='jongejuffrouw' or @root='jongen' or @root='jongetje' or @root='juf' or @root='juffrouw' or @root='kerel' or @root='kind' or @root='knaap'
or @root='knul' or @root='koter' or @root='maagd' or @root='man' or @root='manlief' or @root='mannetje' or @root='mannie' or @root='manspersoon'
or @root='meid' or @root='meisje' or @root='meiske' or @root='meneer' or @root='mens' or @root='mevrouw' or @root='mijnheer' or @root='mop'
or @root='moppie' or @root='niese' or @root='persoon' or @root='pief' or @root='pik' or @root='tante' or @root='troel' or @root='vent'
or @root='vrouw' or @root='Vrouwe' or @root='wijf' or @root='zoon' or @root='zoonlief') """
kleding = """ (@root='sjaal' or @root='tas' or @root='billentikker'
or @root='bloes' or @root='bloesje' or @root='blouse' or @word='espadrilles' or @root='frak'
or @root='halskraag' or @root='hemd' or @root='hemd_DIM' or @root='hoed' or @root='hoed_DIM' or @root='hoofddeksel' or @root='hoofddeksel_DIM'
or @root='jacquet' or @root='japon' or @root='jas' or @root='jasje' or @root='jurk' or @root='jurk_DIM' or @root='kledij'
or @root='kleding' or @root='kleren' or @root='kraag' or @root='kraag_DIM' or @root='laars' or @root='laars_DIM' or @root='lijf_DIM' or @root='manchet'
or @root='mouw' or @root='mouw_DIM' or @root='onderhemd' or @root='overhemd' or @root='overjas' or @root='pandjesjas' or @root='pijpen'
or @root='rok' or @root='rokjas' or @root='rok_DIM' or @root='schoen' or @root='schoen_DIM' or @root='schuimkraag' or @root='slipjas' or @root='sok'
or @root='sok_DIM' or @root='trui' or @root='trui_DIM' or @root='vest' or @root='vest_DIM' or @root='ketting' or @root='ketting_DIM' or @root='parelketting' or @root='parelsnoer' or @root='oorbel' or @root='shawl' or @root='sjaal_DIM' or @root='tas_DIM'
) """
statiefww = """ (@root='heb' or @root='zijn' or @root='lijk' or @sense='heb-aan' or @root='draag' or @sense='er-zie_uit' ) and @pos='verb' """ kijkers = """ (@root='kijk' or @root='zie' ) and @pos='verb' """
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment