SandyRogers/fetch_paginated_mgnify_data.py

## fetch_paginated_mgnify_data.py
# Using common libraries.
#
# Dependencies:
# pandas jsonapi-client
# Install them from the command line, with e.g.
# $ pip install pandas jsonapi-client

from jsonapi_client import Session
import pandas as pd

# See https://www.ebi.ac.uk/metagenomics/api/docs/ for endpoints and API documentation.
endpoint = 'super-studies'

with Session("https://www.ebi.ac.uk/metagenomics/api/v1") as mgnify:
    resources = map(lambda r: r.json, mgnify.iterate(endpoint))
    resources = pd.json_normalize(resources)
    resources.to_csv(f"{endpoint}.csv")

## fetch_paginated_mgnify_data_no_deps.py
# Using Python 3 standard library only, with no extra python packages needed:

import urllib.request
import json
import csv

# See https://www.ebi.ac.uk/metagenomics/api/docs/ for endpoints and API documentation
# including attributes you may want as CSV columns.
endpoint = 'super-studies'
attribute_columns = ["super-study-id", "title", "description"]

def get_page(url):
    next_url = url
    while next_url:
        with urllib.request.urlopen(next_url) as page:
            response = json.loads(page.read().decode())
            data = response['data']
            yield data
            next_url = response['links']['next']

with open(f"{endpoint}.csv", "w") as csv_file:
    c = csv.writer(csv_file)
    c.writerow(attribute_columns)
    for page in get_page(f"https://www.ebi.ac.uk/metagenomics/api/v1/{endpoint}"):
        for resource in page:
            c.writerow([resource['attributes'].get(col) for col in attribute_columns])

## fetch_paginated_mgnify_data_with_filters.py
# Using common libraries.
#
# Dependencies:
# pandas jsonapi-client
# Install them from the command line, with e.g.
# $ pip install pandas jsonapi-client

# This example includes a Filter.
# You can explore the Filters available for each endpoint using the interactive API browser:
# https://www.ebi.ac.uk/metagenomics/api/v1
#
# If you don't use any Filters, endpoints with many pages of data (like /samples) might fail.

from jsonapi_client import Session, Filter
import pandas as pd

class MGnifyFilter(Filter):
    def format_filter_query(self, **kwargs: 'FilterKeywords') -> str:
        """
        The MGnify API uses a slimmer syntax for filters than the JSON:API default.
        Filter keywords are not wrapped in by the word "filter", like, filter[foo]=bar,
        but are instead plain, like foo=bar.
        """
        def jsonify_key(key):
            return key.replace('__', '.').replace('_', '-')
        return '&'.join(f'{jsonify_key(key)}={value}'
                        for key, value in kwargs.items())


endpoint = 'samples'

filters = {
    'lineage': 'root:Engineered:Bioremediation'
}

with Session("https://www.ebi.ac.uk/metagenomics/api/v1/") as mgnify:
    resources = map(lambda r: r.json, mgnify.iterate(endpoint, MGnifyFilter(**filters)))
    resources = pd.json_normalize(resources)
    resources.to_csv(f"{endpoint}.csv")
	# Using common libraries.
	#
	# Dependencies:
	# pandas jsonapi-client
	# Install them from the command line, with e.g.
	# $ pip install pandas jsonapi-client

	from jsonapi_client import Session
	import pandas as pd

	# See https://www.ebi.ac.uk/metagenomics/api/docs/ for endpoints and API documentation.
	endpoint = 'super-studies'

	with Session("https://www.ebi.ac.uk/metagenomics/api/v1") as mgnify:
	resources = map(lambda r: r.json, mgnify.iterate(endpoint))
	resources = pd.json_normalize(resources)
	resources.to_csv(f"{endpoint}.csv")
	# Using Python 3 standard library only, with no extra python packages needed:

	import urllib.request
	import json
	import csv

	# See https://www.ebi.ac.uk/metagenomics/api/docs/ for endpoints and API documentation
	# including attributes you may want as CSV columns.
	endpoint = 'super-studies'
	attribute_columns = ["super-study-id", "title", "description"]

	def get_page(url):
	next_url = url
	while next_url:
	with urllib.request.urlopen(next_url) as page:
	response = json.loads(page.read().decode())
	data = response['data']
	yield data
	next_url = response['links']['next']

	with open(f"{endpoint}.csv", "w") as csv_file:
	c = csv.writer(csv_file)
	c.writerow(attribute_columns)
	for page in get_page(f"https://www.ebi.ac.uk/metagenomics/api/v1/{endpoint}"):
	for resource in page:
	c.writerow([resource['attributes'].get(col) for col in attribute_columns])