Skip to content

Instantly share code, notes, and snippets.

@nvanderperren
Created February 11, 2021 16:51
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save nvanderperren/0c1a6f6fb5f8e81728bce1fe0768bb5c to your computer and use it in GitHub Desktop.
Save nvanderperren/0c1a6f6fb5f8e81728bce1fe0768bb5c to your computer and use it in GitHub Desktop.
configuration file for archiving a Twitter account with Browsertrix and snscrape
# configuratiebestand voor gebruik browsertrix in combinatie met snscrape
crawls:
- name: twitter # wijzig dit in een naam voor de crawl, bv. 20201202_twitter_meemoo_be
crawl_type: single-page
num_browsers: 1
coll: twitter # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 3)
mode: record # website wordt opgenomen
behavior_max_time: 15 # time limit om infinite crawl te vermijden
cache: default
seed_urls:
# wijzig in onderstaande URL's twitter-user door de juiste naam van de twitter gebruiker
- https://twitter.com/twitter-user # Twitter timeline
- https://twitter.com/twitter-user/with_replies # pagina met ook alle replies
- https://twitter.com/twitter-user/media # alle opgeladen media door gebruiker
- https://twitter.com/twitter-user/likes # alle berichten die leuk gevonden werden door gebruiker
- https://twitter.com/twitter-user/following # alle gebruikers die door de gebruiker gevolgd wordt
- https://twitter.com/twitter-user/followers # alle gebruikers die de gebruiker volgen
# voeg hieronder de URL's verkregen via snscrape toe
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment