Bioinfomatics Data Skills

发表于 2016-10-08 分类于 tools

Bioinfomatics Data Skills Cheatsheets

原文日期: 2016-10-08
来源: https://github.com/wlz0726/wlz0726.github.io

代码应该是：

问自己三个问题：

永远不要假设数据是高质量的！

应该通过探索性数据分析 (EDA) 来证明数据质量。EDA 不复杂也不耗时，但能让你的研究更稳健。

不要手动处理数据，所有操作都应该是可重复的。

# ✅ 好
../data/stats/qual.txt

# ❌ 坏
/home/vinceb/projects/zmays-snps/data/stats/qual.txt

在每个项目的主目录中包含：

echo dog-{gone,bowl,bark}
# 输出：dog-gone dog-bowl dog-bark

mkdir -p zmays-snps/{data/seqs,scripts,analysis}

touch seqs/zmays{A,B,C}_R{1,2}.fastq

最佳实践：尽可能限制通配符范围

# ✅ 好
zmaysB_R?.fastq

# ❌ 坏
zmaysB*

1 2	# ✅ 好：file-0021.txt # ❌ 坏：file-21.txt

1	program1 input.txt \| tee intermediate-file.txt \| program2 > results.txt

这里，program1 的输出既写入 intermediate-file.txt，又直接传递给 program2。

此文档为 GitHub 博客自动归档