kokitsuyuzaki kokitsuyuzaki

## conda_docker.md

      
              1 file
            
          
              0 forks
            
          
              1 comment
            
          
              4 stars
            
          
                kokitsuyuzaki
                / conda_docker.md
            
            
              Created
              December 1, 2020 01:20
            
              
                Anacondaか、Dockerか
              
          
    この記事はWorkflow Advent Calendar 2020の二日目の記事です。
自分は最近Snakemakeでワークフローを書いている。それまではシェルスクリプト → make → Rakeという風に、色々なやり方でワークフローを書いてきてたが、環境構築・再現性や分散処理の対応がしやすいSnakemakeに現在のところは落ち着いている。Snakemakeでコードの再現性に関わる技術はAnacondaとDocker（Singularity）である。ここでは、両方の技術は一長一短であり、両技術共に痒いところに手が届かない状況があるという話しをする。なお、自分はデータ解析を生業としており、データを前処理、解析、可視化しては、使うパッケージを適宜加えたり、減らしたりする探索的データ解析（EDA）の過程でSnakemakeを使っているため、事前に処理が決まっていて、あとはワークフロー化するだけの人とは状況がかなり違っている可能性があるので注意されたし。
Anacondaのメリット

Snakemake内でのAnacondaの使い方は簡単で、Snakemakeを実行する上で必要なSnakefileの中で、実行するruleにcondaタグを追加する。condaタグの中では、conda環境を構築する上で必要な共有ライブラリやらR,Pythonのパッケージやらを記述する。
https://snakemake.readthedocs.io/en/stable/snakefiles/deployment.html#integrated-package-management
あとは、snakemakeコマンドを実行する際に、--use-condaオプションを加えるだけで良い。

  
## bestpractice10x.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              1 star
            
          
                kokitsuyuzaki
                / bestpractice10x.md
            
            
              Last active
              January 27, 2022 19:35
            
              
                Best Practices for OnlinePCA.jl against 1.3M Mouse Brain Data
              
          
    Best Practices for OnlinePCA.jl against 1.3M Mouse Brain Data

In this manuscript, we will explain how to perform OnlinePCA.jl against 1.3 million (1.3M) single cell dataset of ( https://community.10xgenomics.com/t5/10x-Blog/Our-1-3-million-single-cell-dataset-is-ready-to-download/ba-p/276 ), which is the largest single-cell RNA-Seq (scRNA-Seq) dataset at this time.
Step.1 : Prepare the dataset

Current version of OnlinePCA.jl assumes the input data to be CSV format for universal application to wide variety of research region.
Since the 1.3M data is saved as a HDF5 format which is 10X Genomics defined, we will firstly convert the HDF5 to CSV (c.f. Saving the HDF5 file of 10X Genomics as CSV format).
We know there is some attempt to unify such ultra-large scRNA-Seq data such as beachmat, Loom (LoomExperiment, Loompy), TENxGenomics, scanpy, Seurat, and 10X-HDF5, ...etc.
According to user's

  
## CellQC.png

      
              6 files
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                kokitsuyuzaki
                / CellQC.png
            
            
              Last active
              October 30, 2018 13:16
            
              
                Best Practices for OnlinePCA.jl against 1.3M Mouse Brain Data
              
          
## 10xh52csv.md

      
              1 file
            
          
              0 forks
            
          
              2 comments
            
          
              2 stars
            
          
                kokitsuyuzaki
                / 10xh52csv.md
            
            
              Last active
              January 15, 2022 17:42
            
              
                Saving the HDF5 file of 10X Genomics as CSV format
              
          
    Converting the HDF5 file of 10X Genomics as CSV format

In this manuscript, we will explain how to extract gene × cell matrix from the HDF5 file provided by 10X Genomics and saving the data as CSV format.
Step.1 : Download the HDF5 file from the website of 10X Genomics

Firstly, we download the HDF5 file from 10X Genomics site.
The data is stored at Amazon AWS and easily downloaded by wget commant like below.


## Level1_3_R.markdown

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              2 stars
            
          
                kokitsuyuzaki
                / Level1_3_R.markdown
            
            
              Last active
              October 8, 2016 06:19
            
              
                細胞工学別冊 次世代シーケンサー Dry解析超入門 Level1 [3] Rの使い方で利用したソースコード（改訂版、2016/10/5）
              
          
    Level1_3_R.markdown


次世代シークエンサーDRY解析教本（細胞工学別冊）の「Level1 [3] Rの使い方」で利用したソースコード
目次


はじめに
演習① : 準備
演習② : Rの基本操作
演習③ : データの前処理


## MeSH.markdown

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                kokitsuyuzaki
                / MeSH.markdown
            
            
              Last active
              December 1, 2015 13:58
            
          
    MeSH ORA Frameworkの使い方

このgistの内容は、Bioconductorのmeshrパッケージのvignette（パッケージの使用方法が記されたドキュメント）を和訳したものです。
1. イントロ

このgistでは以下のMeSHに関連したパッケージの使い方を説明します。

MeSH.db : MeSHの情報を提供するパッケージ
MeSH.AOR.db : MeSHの祖先-子孫関係の情報を提供するパッケージ
MeSH.PCR.db : MeSHの親子関係の情報を提供するパッケージ


## BMC.markdown

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                kokitsuyuzaki
                / BMC.markdown
            
            
              Created
              July 4, 2014 09:08
            
              
                BMC 関連の論文に共通した投稿規定
              
          
    BMC 関連の論文に共通した投稿規定

=======

  
## BMC_Bioinformatics.markdown

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                kokitsuyuzaki
                / BMC_Bioinformatics.markdown
            
            
              Last active
              August 29, 2015 14:03
            
              
                BMC Bioinformaticsの投稿規定の和訳
              
          
    BMC Bioinformaticsの投稿規定

=======

  
## PLINK-JP.markdown

      
              1 file
            
          
              0 forks
            
          
              1 comment
            
          
              3 stars
            
          
                kokitsuyuzaki
                / PLINK-JP.markdown
            
            
              Last active
              October 4, 2023 07:30
            
              
                GWAS研究で利用されるソフトウェア"PLINK"のチュートリアルを大雑把に要約したもの
              
          
    Hapmapに登録された89のアジア人(中国人45人、日本人44人)における83534SNPsの解析


PLINK Web site : http://pngu.mgh.harvard.edu/~purcell/plink/
PLINK Tutorial : http://pngu.mgh.harvard.edu/~purcell/plink/tutorial.shtml

=======
あらかじめ準備しておく事


コンソール画面でRとlinuxコマンドが使える環境(more、sort、headとか)
PLINKのダウンロード、インストール（PLINK Web siteから)
hapmap1.zipのダウンロード（PLINK Tutorialから)