-
-
Save nvanderperren/ea569de70fe1f831e09b1877b28e2012 to your computer and use it in GitHub Desktop.
configuration file for archiving a facebook profile with Browsertrix
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
crawls: | |
- name: facebookuser # wijzig dit in een naam voor de crawl, bv. 20201202_facebook_meeomoo | |
crawl_type: single-page | |
num_browsers: 1 | |
coll: facebookuser # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 2) | |
mode: record # website wordt opgenomen | |
seed_urls: | |
# wijzig in onderstaande URL's facebook-user door de naam van de pagina | |
# de eerste URL is de belangrijkste. de rest kan je verwijderen indien je die gegevens niet belangrijk vindt | |
- https://www.facebook.com/facebook-user # hoofdpagina fb pagina | |
- https://www.facebook.com/facebook-user/about # de "about"-pagina | |
- https://www.facebook.com/facebook-user/friends # vrienden van de gebruiker | |
- https://www.facebook.com/facebook-user/photos # overzichtspagina's met foto's | |
- https://www.facebook.com/facebook-user/videos # overzichtspagina met video's | |
- https://www.facebook.com/facebook-user/map # pagina met posts waarin het account getagged werd | |
- https://www.facebook.com/facebook-user/sports | |
- https://www.facebook.com/facebook-user/music | |
- https://www.facebook.com/facebook-user/movies | |
- https://www.facebook.com/facebook-user/tv | |
- https://www.facebook.com/facebook-user/books | |
- https://www.facebook.com/facebook-user/games | |
- https://www.facebook.com/facebook-user/likes # welke pagina's vindt de gebruiker allemaal tof op facebook | |
- https://www.facebook.com/facebook-user/events # evenementen die gebruiker bijgewoond heeft | |
- https://www.facebook.com/facebook-user/reviews # reviews die gebruiker geschreven heeft | |
behavior_max_time: 600 # time limit om infinite crawl te vermijden | |
cache: default |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment