Skip to content

Instantly share code, notes, and snippets.

@stepwise-ai-dev
Created August 11, 2023 20:25
Show Gist options
  • Save stepwise-ai-dev/bbd782f3d09afaca6219b2c3a176bb42 to your computer and use it in GitHub Desktop.
Save stepwise-ai-dev/bbd782f3d09afaca6219b2c3a176bb42 to your computer and use it in GitHub Desktop.
$ conda activate myenv
$ RUST_BACKTRACE=full tokenise_bio -i /data/fasta/G1_R1_001.fasta /data/fasta/G1_R2_001.fasta -t '/data/generated/tokeniser_smFASTA_200kb.json'
COMMAND LINE ARGUMENTS FOR REPRODUCIBILITY:
/home/ec2-user/mambaforge/envs/myenv/bin/tokenise_bio -i /data/backup_fasta/GFX0331130_SA_L001_R1_001.fasta /data/backup_fasta/GFX0331130_SA_L001_R2_001.fasta -t /data/generated/tokeniser_smFASTA_200kb.json
[00:00:00] Pre-processing sequences ███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 0 / 0
[00:00:00] Suffix array seeds ███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 1937 / 1937
[00:00:04] EM training ███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 12 / 12
Sample input sequence: AACCGGTT
Sample tokenised: [12298, 267]
Token::k-mer map: 12298 :: AACC
Token::k-mer map: 267 :: GGTT
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment