Skip to content

Instantly share code, notes, and snippets.

@nvanderperren
Created February 11, 2021 16:53
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save nvanderperren/fcc0550f295e8731547e6780c8ab20da to your computer and use it in GitHub Desktop.
Save nvanderperren/fcc0550f295e8731547e6780c8ab20da to your computer and use it in GitHub Desktop.
configuration file for archiving a public Instagram account with Browsertrix and snscrape
# configuratiebestand voor gebruik browsertrix in combinatie met snscrape
crawls:
- name: instagram # wijzig dit in een naam voor de crawl, bv. 20201202_instagram_vlaparl
crawl_type: single-page
num_browsers: 1
coll: instagram # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 3)
mode: record # website wordt opgenomen
behavior_max_time: 15 # time limit om infinite crawl te vermijden
cache: default
seed_urls:
# wijzig in onderstaande URL's instagram-user door de juiste naam van de instagram gebruiker
- https://www.instagram.com/instagram-user/ # overzichtspagina
- https://www.instagram.com/instagram-user/channel/ # indien de gebruiker filmpjes heeft
- https://www.instagram.com/instagram-user/tagged/ # als de gebruiker getagged geweest is in andere posts
# voeg hieronder de URL's verkregen via snscrape toe
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment