standage/simple-subseq.pl

## simple-subseq.pl
#!/usr/bin/env perl
use strict;
use Bio::SeqIO;

my $usage = "perl $0 seqs.fasta < coords.csv > subseqs.fasta # coords.csv file is 3 comma-delimited values: seqid, start, and end";
my $seqfile = shift(@ARGV) or die("Usage: $usage");

# Load sequences into memory
my %seqs;
my $seqinput = Bio::SeqIO->new( "-file" => $seqfile, "-format" => "Fasta" );
while(my $seq = $seqinput->next_seq)
{
  $seqs{ $seq->id } = $seq;
}

# Read in coordinates, write output
my $seqoutput = Bio::SeqIO->new( "-fh" => \*STDOUT, "-format" => "Fasta" );
my $gene_count = 1;
while(my $line = <STDIN>)
{
  chomp($line);
  next if($line =~ m/^$/);
  my($seqid, $start, $end) = split(/,/, $line);
  my $seq = $seqs{ $seqid } or die("error: could not find sequence '$seqid' $!");
  my $subseq = Bio::PrimarySeq->new( "-id"   => "gene$gene_count",
                                     "-desc" => "$seqid:$start-$end",
                                     "-seq"  => $seq->subseq($start, $end) );
  $seqoutput->write_seq($subseq);
  $gene_count++;
}
	#!/usr/bin/env perl
	use strict;
	use Bio::SeqIO;

	my $usage = "perl $0 seqs.fasta < coords.csv > subseqs.fasta # coords.csv file is 3 comma-delimited values: seqid, start, and end";
	my $seqfile = shift(@ARGV) or die("Usage: $usage");

	# Load sequences into memory
	my %seqs;
	my $seqinput = Bio::SeqIO->new( "-file" => $seqfile, "-format" => "Fasta" );
	while(my $seq = $seqinput->next_seq)
	{
	$seqs{ $seq->id } = $seq;
	}

	# Read in coordinates, write output
	my $seqoutput = Bio::SeqIO->new( "-fh" => \*STDOUT, "-format" => "Fasta" );
	my $gene_count = 1;
	while(my $line = <STDIN>)
	{
	chomp($line);
	next if($line =~ m/^$/);
	my($seqid, $start, $end) = split(/,/, $line);
	my $seq = $seqs{ $seqid } or die("error: could not find sequence '$seqid' $!");
	my $subseq = Bio::PrimarySeq->new( "-id" => "gene$gene_count",
	"-desc" => "$seqid:$start-$end",
	"-seq" => $seq->subseq($start, $end) );
	$seqoutput->write_seq($subseq);
	$gene_count++;
	}