Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save stefan1wan/9349392e7a0c799ad3cb3b7cc3b3f5ef to your computer and use it in GitHub Desktop.
Save stefan1wan/9349392e7a0c799ad3cb3b7cc3b3f5ef to your computer and use it in GitHub Desktop.

序列拼接答疑

说明

  • 我们会整理同学们做PJ遇到的问题,然后统一放在这里,请大家先看这里的答疑。
  • 如果大家有新问题,请直接在评论区讨论或发邮件给助教,我们会更新这里的答疑列表
  • 同时欢迎大家在下面讨论

答疑列表

  1. 关于评测标准,题目里说道 “当前评测系统排名的第一关键字为NGA50,第二关键字为Genome fraction,你可以理解为在这五个指标中这两个相对重要,但并不代表最终评判你的答案时不会参考其他指标。” 。但我在评测的时候,发现可以以增大misassemblies为代价让前两个关键字的结果变得更优,但依上述标准这并不一定会让结果更优。 请问在这几个指标之间有没有更详尽的占比(或者是公式等)好让我们更好的来评判我们的结果?

先看NGA50和Genome fraction这两个指标,但其他指标比大多数人差会适当扣分,比其他人好会适当减分,目前没有更详尽的公式。

2.输出每两行一个拼接好的片段,具体两行分别要输出什么的内容,是跟输入一样的名称+片段吗?如果是的话输出的名称应该是什么,片段的正反或者互补有影响吗,还是说要把正反互补都要输出一次?

片段的正反和互补是有影响的,如果你能够区分的话,可以都提交测试一下;名称随意;每次输出的文件就是用小片段拼好的大片段

3.对于数据,以data1的数据表述为例:参考基因组为五个物种,每个物种genome长度为10,000。短序列平均复制次数34x,长序列平均复制次数5x。其中平均复制次数是什么含义,‘x’表示次数吗?以及5个物种长度为10000,是要一共输出5个拼好的片段,每个拼好的片段长度为10000吗?这样的话输出的顺序是否有影响?

“平均复制次数“是测序的机器在测序前对整个基因的复制次数,x表示次数。输出的顺序没有影响。输出的片段长度也不一定是10000,但如果算法设计良好,拼好的大片段的长度应该在10000左右。

4.对于输入的描述:相同行数的序列成对,互为反向互补方向(paired-end),但short_1.fasta中不一定全是原始方向。其中相同行数的序列成对是指什么,一行不是只有一个序列吗?描述中没有提到的short_2.fasta文件中全都是原始方向吗?

意思是“short_1.fasta”的第10行和“short_2.fasta”的第10行互为反向互补链;“short_1.fasta”的第20行和“short_2.fasta”的第20行互为反向互补链, 但是“short_1.fasta”的第10行和“short_2.fasta”的第20行有在一条DNA链上的可能。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment