mikisvaz/gist:a65cb99bbf0d7a61f0d41f4e0ca02540

## gistfile1.txt
  extension :bam
  dep HTS, :BAM_rescore,
    :fastq1 => :placeholder, :fastq2 => :placeholder, :reference => :placeholder,
    :sample_name => :placeholder,
    :platform_unit => :placeholder,
    :read_group_name => :placeholder,
    :sequencing_center => "CNAG",
    :platform => 'Illuimna',
    :library_name => 'LN',
    :interval_list => Bellmunt.interval_list do |jobname,options|


    sample_name = jobname


    options[:sample_name] = sample_name.gsub('_', '.')


    options[:reference] = Bellmunt.reference
    sample_fastqs = []
    Bellmunt.path.glob("*.fastq.gz").each do |file|
      basename = File.basename(file)
      sample_fastqs << file if basename.split("_")[2] == sample_name
    end


    case sample_fastqs.length
    when 2
      machine, lane, sample = File.basename(sample_fastqs.first).split("_")
      options[:read_group_name] = [machine, lane] * "."
      options[:platform_unit] = [machine, lane, sample] * "."
      options[:fastq1] = sample_fastqs.sort.first
      options[:fastq2] = sample_fastqs.sort.last
      {:inputs => options, :jobname => jobname}
    when 4
      sample_runs = {}
      sample_fastqs.each do |file|
        machine, lane, sample = File.basename(file).split("_")
        sample_runs[[machine,lane]*"."] ||= []
        sample_runs[[machine,lane]*"."] << file
      end
      jobs = []
      num = 1
      sample_runs.each do |run_code,files|
        run_options = {}
        run_options[:read_group_name] = run_code + "." + sample_name
        run_options[:platform_unit] = run_code
        run_options[:fastq1] = files.sort.first
        run_options[:fastq2] = files.sort.last
        jobs << {:task => :BAM, :inputs => options.merge(run_options), :jobname => jobname + "_multiplex_" + num.to_s}
        num += 1
      end
      jobs
    else
      raise "Number of fastq is not 2 or 4: #{Misc.fingerprint sample_fastqs}"
    end
  end
  dep HTS, :BAM_multiplex, :compute => :ignore, :reference => Bellmunt.reference, :bam_files => :placeholder do |jobname,options,dependencies|
    if dependencies.flatten.length > 1
      {:jobname => jobname, :inputs => options.merge(:bam_files => dependencies.flatten.collect{|dep| dep.path})}
    else
      []
    end
  end
  dep_task :BAM, HTS, :BAM_rescore do |jobname,options, dependencies|
    if (mutiplex = dependencies.flatten.select{|dep| dep.task_name == :BAM_multiplex}.first)
      {:inputs => options.merge("HTS#BAM_duplicates" =>  mutiplex), :jobname => jobname + '_multiplexed'}
    else
      []
    end
  end
	extension :bam
	dep HTS, :BAM_rescore,
	:fastq1 => :placeholder, :fastq2 => :placeholder, :reference => :placeholder,
	:sample_name => :placeholder,
	:platform_unit => :placeholder,
	:read_group_name => :placeholder,
	:sequencing_center => "CNAG",
	:platform => 'Illuimna',
	:library_name => 'LN',
	:interval_list => Bellmunt.interval_list do \|jobname,options\|


	sample_name = jobname


	options[:sample_name] = sample_name.gsub('_', '.')


	options[:reference] = Bellmunt.reference
	sample_fastqs = []
	Bellmunt.path.glob("*.fastq.gz").each do \|file\|
	basename = File.basename(file)
	sample_fastqs << file if basename.split("_")[2] == sample_name
	end


	case sample_fastqs.length
	when 2
	machine, lane, sample = File.basename(sample_fastqs.first).split("_")
	options[:read_group_name] = [machine, lane] * "."
	options[:platform_unit] = [machine, lane, sample] * "."
	options[:fastq1] = sample_fastqs.sort.first
	options[:fastq2] = sample_fastqs.sort.last
	{:inputs => options, :jobname => jobname}
	when 4
	sample_runs = {}
	sample_fastqs.each do \|file\|
	machine, lane, sample = File.basename(file).split("_")
	sample_runs[[machine,lane]*"."] \|\|= []
	sample_runs[[machine,lane]*"."] << file
	end
	jobs = []
	num = 1
	sample_runs.each do \|run_code,files\|
	run_options = {}
	run_options[:read_group_name] = run_code + "." + sample_name
	run_options[:platform_unit] = run_code
	run_options[:fastq1] = files.sort.first
	run_options[:fastq2] = files.sort.last
	jobs << {:task => :BAM, :inputs => options.merge(run_options), :jobname => jobname + "_multiplex_" + num.to_s}
	num += 1
	end
	jobs
	else
	raise "Number of fastq is not 2 or 4: #{Misc.fingerprint sample_fastqs}"
	end
	end
	dep HTS, :BAM_multiplex, :compute => :ignore, :reference => Bellmunt.reference, :bam_files => :placeholder do \|jobname,options,dependencies\|
	if dependencies.flatten.length > 1
	{:jobname => jobname, :inputs => options.merge(:bam_files => dependencies.flatten.collect{\|dep\| dep.path})}
	else
	[]
	end
	end
	dep_task :BAM, HTS, :BAM_rescore do \|jobname,options, dependencies\|
	if (mutiplex = dependencies.flatten.select{\|dep\| dep.task_name == :BAM_multiplex}.first)
	{:inputs => options.merge("HTS#BAM_duplicates" => mutiplex), :jobname => jobname + '_multiplexed'}
	else
	[]
	end
	end