shenwei356/filter spades assembly result according to coverage.md

## filter spades assembly result according to coverage.md

      
    Raw
  

              filter spades assembly result according to coverage.md
            
          
    Filtering Spades assembly result according to coverage information in sequence header

Sample sequence

$ cat contigs.fasta 
>NODE_1_length_869844_cov_1135.34
ACTGNacgtn 
>NODE_2_length_576386_cov_975.882
acgtn

Steps


Converting FASTA to tabular format using SeqKit (http://bioinf.shenwei.me/seqkit/)

Note that seqkit fx2tab converts FASTA to 3-column tabular format,
with sequence in the 2nd column and quality in 3rd column.
    $ seqkit fx2tab contigs.fasta 
    NODE_1_length_869844_cov_1135.34        ACTGNacgtn
    NODE_2_length_576386_cov_975.882        acgtn


Retrieving coverage as new column using csvtk (http://bioinf.shenwei.me/csvtk/)
 $ seqkit fx2tab contigs.fasta | csvtk mutate -H -t -f 1 -p "cov_(.+)" 
 NODE_1_length_869844_cov_1135.34        ACTGNacgtn              1135.34
 NODE_2_length_576386_cov_975.882        acgtn           975.882


Filtering by coverage (4th column) using csvtk or awk
 # seqkit fx2tab contigs.fasta | csvtk mutate -H -t -f 1 -p "cov_(.+)" | awk -F "\t" '$4>=1000'
 $ seqkit fx2tab contigs.fasta | csvtk mutate -H -t -f 1 -p "cov_(.+)" | csvtk filter2 -H -t -f "$4>=1000" 
 NODE_1_length_869844_cov_1135.34        ACTGNacgtn              1135.34


Converting tabular format back to FASTA format
 $ seqkit fx2tab contigs.fasta | csvtk mutate -H -t -f 1 -p "cov_(.+)" | awk -F "\t" '$4>=1000' | seqkit tab2fx
 >NODE_1_length_869844_cov_1135.34
 ACTGNacgtn