Skip to content

Instantly share code, notes, and snippets.

@nvanderperren
Created February 11, 2021 16:49
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save nvanderperren/fbb851fd4d2d69032ae03c8910d0d38d to your computer and use it in GitHub Desktop.
Save nvanderperren/fbb851fd4d2d69032ae03c8910d0d38d to your computer and use it in GitHub Desktop.
configuration file for archiving a facebook page with Browsertrix and snscrape
# configuratiebestand voor gebruik browsertrix in combinatie met snscrape
crawls:
- name: facebookpagina # wijzig dit in een naam voor de crawl, bv. 20201202_facebook_meeomoo
crawl_type: single-page
num_browsers: 1
coll: facebookpagina # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 3)
mode: record # website wordt opgenomen
behavior_max_time: 15 # time limit om infinite crawl te vermijden
cache: default
seed_urls:
# wijzig in onderstaande URL's facebook-page door de naam van de pagina
# de eerste URL is de belangrijkste. de rest kan je verwijderen indien je die gegevens niet belangrijk vindt
- https://www.facebook.com/facebook-page # hoofdpagina fb pagina
- https://www.facebook.com/facebook-page/about/?ref_page=internal # de "about"-pagina
- https://www.facebook.com/facebook-page/photos/?ref_page=internal # overzichtspagina's met foto's
- https://www.facebook.com/facebook-page/reviews/?ref_page=internal # overzichtspagina met recensies
- https://www.facebook.com/facebook-page/videos/?ref_page=internal # overzichtspagina met video's
- https://www.facebook.com/facebook-page/community/?ref_page=internal # pagina met posts waarin het account getagged werd
- https://www.facebook.com/facebook-page/events/?ref_page=internal # overzichtspagina met evenementen
# voeg hieronder de URL's verkregen via snscrape toe
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment