Skip to content

Instantly share code, notes, and snippets.

@nvanderperren
Created February 11, 2021 16:04
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save nvanderperren/ee7d12446d334648849e2c7bf22b43c8 to your computer and use it in GitHub Desktop.
Save nvanderperren/ee7d12446d334648849e2c7bf22b43c8 to your computer and use it in GitHub Desktop.
configuration file for archiving an instagram profile with Browsertrix
crawls:
- name: instagram # wijzig dit in een naam voor de crawl, bv. 20201202_instagram_vlaparl
crawl_type: single-page
num_browsers: 1
coll: instagram # browsertrix werkt met collecties. geef dit dezelfde naam als bij name (lijn 2)
mode: record # website wordt opgenomen
seed_urls:
# wijzig in onderstaande URL's instagram-user door de juiste naam van de instagram gebruiker
- https://www.instagram.com/instagram-user/ # overzichtspagina
- https://www.instagram.com/instagram-user/channel/ # indien de gebruiker filmpjes heeft
- https://www.instagram.com/instagram-user/tagged/ # als de gebruiker getagged geweest is in andere posts
behavior_max_time: 600 # time limit om infinite crawl te vermijden
cache: default
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment