Skip to content

Instantly share code, notes, and snippets.

@nvanderperren
Created February 11, 2021 16:03
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save nvanderperren/ea569de70fe1f831e09b1877b28e2012 to your computer and use it in GitHub Desktop.
Save nvanderperren/ea569de70fe1f831e09b1877b28e2012 to your computer and use it in GitHub Desktop.
configuration file for archiving a facebook profile with Browsertrix
crawls:
- name: facebookuser # wijzig dit in een naam voor de crawl, bv. 20201202_facebook_meeomoo
crawl_type: single-page
num_browsers: 1
coll: facebookuser # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 2)
mode: record # website wordt opgenomen
seed_urls:
# wijzig in onderstaande URL's facebook-user door de naam van de pagina
# de eerste URL is de belangrijkste. de rest kan je verwijderen indien je die gegevens niet belangrijk vindt
- https://www.facebook.com/facebook-user # hoofdpagina fb pagina
- https://www.facebook.com/facebook-user/about # de "about"-pagina
- https://www.facebook.com/facebook-user/friends # vrienden van de gebruiker
- https://www.facebook.com/facebook-user/photos # overzichtspagina's met foto's
- https://www.facebook.com/facebook-user/videos # overzichtspagina met video's
- https://www.facebook.com/facebook-user/map # pagina met posts waarin het account getagged werd
- https://www.facebook.com/facebook-user/sports
- https://www.facebook.com/facebook-user/music
- https://www.facebook.com/facebook-user/movies
- https://www.facebook.com/facebook-user/tv
- https://www.facebook.com/facebook-user/books
- https://www.facebook.com/facebook-user/games
- https://www.facebook.com/facebook-user/likes # welke pagina's vindt de gebruiker allemaal tof op facebook
- https://www.facebook.com/facebook-user/events # evenementen die gebruiker bijgewoond heeft
- https://www.facebook.com/facebook-user/reviews # reviews die gebruiker geschreven heeft
behavior_max_time: 600 # time limit om infinite crawl te vermijden
cache: default
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment