Fabrice Jossinet fjossinet

## gist:9909294
{
 "metadata": {
  "name": "PyRNA Cookbook"
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {

## gist:9909238
{
 "metadata": {
  "name": "Create and manipulate tertiary structures"
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {

## gist:9035788
{
 "metadata": {
  "name": "Create and manipulate secondary structures."
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {

## gist:9033572
{
 "metadata": {
  "name": "Create and manipulate molecules."
 },
 "nbformat": 3,
 "nbformat_minor": 0,
 "worksheets": [
  {
   "cells": [
    {

## taxid_2_gbids.py
#!/usr/bin/env python

import xml.etree.ElementTree as ET
import sys, urllib, urllib2

eutils_base_url = "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/"

def get_ids(taxid):
    accession_numbers =[]
    retstart = 0

## gist:2942223
#!/bin/bash

query=$1

genome_ids=$(wget -qO - "http://www.ncbi.nlm.nih.gov/genome/genomes/167?&subset=complete&limit=refseq" | grep 'title="chromosome">Chr' | sed -E 's/.+(NC_.+|NZ_.+)/\1/' | cut -d \< -f 1)

for genome_id in $genome_ids
do
   wget -qO - "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=$genome_id&rettype=gb&retmode=xml" > genome.xml
   gene_ids=$(xmllint --xpath "//GBFeature[GBFeature_key[.='CDS'] and GBFeature_quals/GBQualifier[GBQualifier_name[.='product'] and GBQualifier_value[contains(.,\"$query\")]]]" genome.xml | grep "GI:" | sed -E 's/.+GI:(.+)<.+/\1/')

## gist:2941281
wget -r ftp://anonymous:anonymous@ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/CHR_I/

## gist:2941262
wget -qO - "http://rfam.sanger.ac.uk/family/browse" | grep ">RF" | tr -d ' ' | cut -d \> -f 2 | cut -d \< -f 1

## gist:2941217
wget -qO - "http://www.ncbi.nlm.nih.gov/genome/genomes/167?&subset=complete&limit=refseq" | grep 'title="chromosome">Chr' | sed -E 's/.+(NC_.+|NZ_.+)/\1/' | cut -d \< -f 1

## ids.txt
cat gene_ids.txt | xargs -I % wget -qO %.fasta "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=%&rettype=fasta"
	{
	"metadata": {
	"name": "PyRNA Cookbook"
	},
	"nbformat": 3,
	"nbformat_minor": 0,
	"worksheets": [
	{
	"cells": [
	{
	{
	"metadata": {
	"name": "Create and manipulate tertiary structures"
	},
	"nbformat": 3,
	"nbformat_minor": 0,
	"worksheets": [
	{
	"cells": [
	{
	{
	"metadata": {
	"name": "Create and manipulate secondary structures."
	},
	"nbformat": 3,
	"nbformat_minor": 0,
	"worksheets": [
	{
	"cells": [
	{
	{
	"metadata": {
	"name": "Create and manipulate molecules."
	},
	"nbformat": 3,
	"nbformat_minor": 0,
	"worksheets": [
	{
	"cells": [
	{
	#!/usr/bin/env python

	import xml.etree.ElementTree as ET
	import sys, urllib, urllib2

	eutils_base_url = "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/"

	def get_ids(taxid):
	accession_numbers =[]
	retstart = 0
	#!/bin/bash

	query=$1

	genome_ids=$(wget -qO - "http://www.ncbi.nlm.nih.gov/genome/genomes/167?&subset=complete&limit=refseq" \| grep 'title="chromosome">Chr' \| sed -E 's/.+(NC_.+\|NZ_.+)/\1/' \| cut -d \< -f 1)

	for genome_id in $genome_ids
	do
	wget -qO - "http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=$genome_id&rettype=gb&retmode=xml" > genome.xml
	gene_ids=$(xmllint --xpath "//GBFeature[GBFeature_key[.='CDS'] and GBFeature_quals/GBQualifier[GBQualifier_name[.='product'] and GBQualifier_value[contains(.,\"$query\")]]]" genome.xml \| grep "GI:" \| sed -E 's/.+GI:(.+)<.+/\1/')