-
Notifications
You must be signed in to change notification settings - Fork 0
DRA
Kodama Yuichi edited this page Feb 3, 2017
·
15 revisions
- 大半は xsd によるチェック - xsd チェック結果はメッセージが分かりにくい
-
Experiment と Run タブに入力内容が分かれている が XML としては一単位
→ 次期ウェブ登録システムでは 1 Experiment - 1 Run の制約を導入しメタデータ入力を1タブにまとめる - Analysis が付属する場合がある
→ 現行では BioProject (Study) 直結しかできないが、次期システムでは BioProject/BioSample/Experiment/Run を参照できるように拡張する - DRA ではメタデータがオブジェクトに分かれているので選択・作成されたオブジェクトが過不足なく参照されているかチェックしている
- データファイルの存在と md5 チェック
- bam はリファレンス配列の INSDC/RefSeq accession.version、fasta での指定、@SQ リファレンス長と一致チェック
- SRA toolkit による metadata Spot descriptor とデータファイルの検証処理
- center name → アカウント情報 institution で置換し DRA による略号管理をやめる
- lab name → アカウント情報 lab/faculty/department で置換する
- Hold until 公開予定日、今日~2年後まで
- name 登録者の名前、アカウント情報から
- mail address 登録者のメールアドレス、アカウント情報から
- Alias* → BioProject/BioSample とあわせ表面は Name に名称変更、アカウント単位でユニーク
- Title*
- BioSample Used* - 選択した BioSample のなかから、自アカウント取得+外部参照可能リスト
- Library Name* - 必須化予定
- Library Source* - CV
- Library Selection* - CV
- Library Strategy* - CV
- Library Construction Protocol
- Instrument* - CV
- Spot Type* - single or paired
- Nominal Length - paired のとき必須、上限値導入検討 (DRASearch で type 上限値を超えるとエラーになる、勘違い防止)
- Nominal Sdev
- Spot Length* - bam, latf-load では任意、運用検討中
- Alias* → BioProject/BioSample とあわせ表面は Name に名称変更、アカウント単位でユニーク
- Title* → Experiment title をコピー
- Experiment referenced 選択された Experiment のなかから
- filename*
- filetype* → CV
- md5sum* → 32桁英数字
データファイル指定
- bam: 1 bam and/or 1 対応表 and/or fasta /Run
- PacBio RS II: 1 bas, 3 bax/Run
- SOLiD: csfasta + csqual
揃っていないと SRA toolkit でエラー
〇 以外の組み合わせでエラー
- 要するに fastq と bam 関係は一般的な形式なので全プラットフォームで OK
- sff は LS454 と ION_TORRENT だけ
- PacBio_HDF5 は PACBIO_SMRT だけ
- Instrument model の一個上の Platform で判断
| Platform | generic_fastq | fastq | bam | tab | reference_fasta | sff | PacBio_HDF5 |
|---|---|---|---|---|---|---|---|
| 454 | 〇 | 〇 | 〇 | 〇 | 〇 | 〇 | |
| Illumina | 〇 | 〇 | 〇 | 〇 | 〇 | ||
| Helicos HeliScope | 〇 | 〇 | 〇 | 〇 | 〇 | ||
| SOLiD | 〇 | 〇 | 〇 | 〇 | 〇 | ||
| Nanopore | 〇 | 〇 | 〇 | 〇 | 〇 | ||
| PacBio | 〇 | 〇 | 〇 | 〇 | 〇 | 〇 | |
| Ion Torrent | 〇 | 〇 | 〇 | 〇 | 〇 | 〇 | |
| AB Genetic Analyzer | 〇 | 〇 | 〇 | 〇 | 〇 | ||
| Complete Genomics | 〇 | 〇 | 〇 | 〇 | 〇 |
以下は運用ルールとして受付停止しているので filetype エラーにする
SOLID native は2017年5月末で受付停止とアナウンスする
- 454_native
- 454_native_seq
- 454_native_qual
- Helicos_native
- Illumina_native
- Illumina_native_seq
- Illumina_native_prb
- Illumina_native_int
- Illumina_native_qseq
- Illumina_native_scarf
- SOLiD_native
- SOLiD_native_csfasta
- SOLiD_native_qual
- CompleteGenomics_native
- CompleteGenomics_native_MAP
- CompleteGenomics_native_ASM
- CompleteGenomics_native_LIB
- cram
- bam_header
Study 直結のみ
次期システムでは BioProject/BioSample/Experiment/Run を参照できるように拡張
- Alias* → BioProject/BioSample とあわせ表面は Name に名称変更
- Title*
- Description*
- Analysis type* - CV
- filename*
- filetype* → CV
- md5sum* → 32桁英数字