Skip to content
Kodama Yuichi edited this page Feb 3, 2017 · 15 revisions

DRA

  • 大半は xsd によるチェック - xsd チェック結果はメッセージが分かりにくい
  • Experiment と Run タブに入力内容が分かれている が XML としては一単位
    → 次期ウェブ登録システムでは 1 Experiment - 1 Run の制約を導入しメタデータ入力を1タブにまとめる
  • Analysis が付属する場合がある
    → 現行では BioProject (Study) 直結しかできないが、次期システムでは BioProject/BioSample/Experiment/Run を参照できるように拡張する
  • DRA ではメタデータがオブジェクトに分かれているので選択・作成されたオブジェクトが過不足なく参照されているかチェックしている
  • データファイルの存在と md5 チェック
  • bam はリファレンス配列の INSDC/RefSeq accession.version、fasta での指定、@SQ リファレンス長と一致チェック
  • SRA toolkit による metadata Spot descriptor とデータファイルの検証処理

Submission

Submission metadata

  • center name → アカウント情報 institution で置換し DRA による略号管理をやめる
  • lab name → アカウント情報 lab/faculty/department で置換する
  • Hold until 公開予定日、今日~2年後まで
  • name 登録者の名前、アカウント情報から
  • mail address 登録者のメールアドレス、アカウント情報から

Experiment

Experiment metadata

  • Alias* → BioProject/BioSample とあわせ表面は Name に名称変更、アカウント単位でユニーク
  • Title*
  • BioSample Used* - 選択した BioSample のなかから、自アカウント取得+外部参照可能リスト
  • Library Name* - 必須化予定
  • Library Source* - CV
  • Library Selection* - CV
  • Library Strategy* - CV
  • Library Construction Protocol
  • Instrument* - CV
  • Spot Type* - single or paired
  • Nominal Length - paired のとき必須、上限値導入検討 (DRASearch で type 上限値を超えるとエラーになる、勘違い防止)  
  • Nominal Sdev
  • Spot Length* - bam, latf-load では任意、運用検討中

Run

Run metadata

  • Alias* → BioProject/BioSample とあわせ表面は Name に名称変更、アカウント単位でユニーク
  • Title* → Experiment title をコピー
  • Experiment referenced 選択された Experiment のなかから  
  • filename*
  • filetype* → CV
  • md5sum* → 32桁英数字

データファイル指定

  • bam: 1 bam and/or 1 対応表 and/or fasta /Run
  • PacBio RS II: 1 bas, 3 bax/Run
  • SOLiD: csfasta + csqual
    揃っていないと SRA toolkit でエラー

Experiment Platform と Run filetype の組み合わせチェックルール

〇 以外の組み合わせでエラー

Platform generic_fastq fastq bam tab reference_fasta sff PacBio_HDF5
454
Illumina
Helicos HeliScope
SOLiD
Nanopore
PacBio
Ion Torrent
AB Genetic Analyzer
Complete Genomics

以下は運用ルールとして受付停止しているので filetype エラーにする
SOLID native は2017年5月末で受付停止とアナウンスする

  • 454_native
  • 454_native_seq
  • 454_native_qual
  • Helicos_native
  • Illumina_native
  • Illumina_native_seq
  • Illumina_native_prb
  • Illumina_native_int
  • Illumina_native_qseq
  • Illumina_native_scarf
  • SOLiD_native
  • SOLiD_native_csfasta
  • SOLiD_native_qual
  • CompleteGenomics_native
  • CompleteGenomics_native_MAP
  • CompleteGenomics_native_ASM
  • CompleteGenomics_native_LIB
  • cram
  • bam_header

Analysis

Analysis metadata

Study 直結のみ
次期システムでは BioProject/BioSample/Experiment/Run を参照できるように拡張

  • Alias* → BioProject/BioSample とあわせ表面は Name に名称変更
  • Title*
  • Description*
  • Analysis type* - CV
  • filename*
  • filetype* → CV
  • md5sum* → 32桁英数字

submission/validation api

Clone this wiki locally