Commit 391c7791 authored by Pierre LINDENBAUM's avatar Pierre LINDENBAUM
Browse files

cont

parents 888d1ee1 70fc1b27
# TP Next Generation Sequencing 2019
# TP Next Generation Sequencing 2020
Au cours de cette séance de TP nous allons chercher les mutations de-novo d'un enfant dont l'exome ainsi que celui de ses deux parents ont été séquencés par la technologie Illumina. Il vous faudra :
......@@ -16,6 +16,43 @@ Certains outils ont besoin de place; le cas échéant, faites de la place, videz
Le TP peut être long pour les débutants: concentrez vous sur la production du fichier VCF final, et cherchez à répondre aux questions de détails plus tard.
## workflow
![workflow.png](workflow.png "workflow")
## Petit rappel sur la structure d'un Makefile
> Les Makefiles sont des fichiers, généralement appelés **Makefile**, utilisés par le programme make pour exécuter un ensemble d'actions
Un Makefile est un fichier constitué de plusieurs règles de la forme :
```
cible1 : dependance1 dependance2 dependance3 dependanceN
commande1
commande2
cible2 cible3 : dependance1 dependance2 dependance3 dependanceN
commande1
commande2
cible4:
commande1
commande2
```
Chaque commande est prefixé par une tabulation.
Lorsque l'ensemble des dépendances est analysé et si la cible ne correspond pas à un fichier existant ou si un fichier dépendance est plus récent que la régle, les différentes commandes sont exécutées.
Raccourcis:
* `$@` : nom de la cible courante
* `$^` : toutes les dependance
* `$<` : la premiere dependance
## Recupération des données FASTQ
Les donnees sont telechargeable a l'URL suivante:
......@@ -102,6 +139,9 @@ $ wget -O chrM.fa.gz "http://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes
```
* Pour les autres, telechargez les séquences fa.gz **chr22** et **chrM** de la version **hg19/GRCh37** du genome humain.
```
......@@ -118,6 +158,9 @@ $ gunzip chr22.fa.gz chrM.fa.gz
```
* Quelle est la taille du chromosome 22 ? Quelle est la taille du chrM ?
```
......@@ -143,8 +186,20 @@ A l'aide de `cat`, concatenez ces deux fichiers dans un fichier que vous nommere
$ cat chr22.fa chrM.fa > ref.fa
```
Par exemple dans un Makefile ça donnera:
## TP septembre 2020
```
ref.fa: chr22.fa chrM.fa
cat $^ > $@
chr22.fa chrM.fa:
wget -O $@.fa.gz "http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/$@.fa.gz"
gunzip $@.fa.gz
```
## Mapper les Fastq sur le genome de reference
A priori tous les outils ont été installés. Pas besoin d'installer samtools, bwa etc... comme décrit ci-dessous. En revanche vous devez indiquer au `bash` où se trouvent les outils en faisant:
......@@ -468,8 +523,11 @@ Pour l'instant les reads ne sont pas triés sur la position génomique (chrom/st
Usage: samtools sort [options...] [in.bam]
Options:
-l INT Set compression level, from 0 (uncompressed) to 9 (best)
-u Output uncompressed data (equivalent to -l 0)
-m INT Set maximum memory per thread; suffix K/M/G recognized [768M]
-n Sort by read name
-M Use minimiser for clustering unaligned/unplaced reads
-K INT Kmer size to use for minimiser [20]
-n Sort by read name (not compatible with samtools index command)
-t TAG Sort by value of TAG. Uses position as secondary index (or read name if -n is set)
-o FILE Write final output to FILE rather than standard output
-T PREFIX Write temporary files to PREFIX.nnnn.bam
......@@ -488,6 +546,7 @@ Options:
Number of additional threads to use [0]
--verbosity INT
Set level of verbosity
```
......@@ -670,21 +729,23 @@ et créez le fichier **father.bam**
Le calling des mutation se fait à l'aide de
* `samtools mpileup` qui va générer les bases trouvées à toutes les positions pour les 3 bams. Cet outil génére un fichier binaire de variants (BCF).
* `bcftools mpileup` qui va générer les bases trouvées à toutes les positions pour les 3 bams. Cet outil génére un fichier binaire de variants (BCF).
* `bcftools view` va transformer le **BCF** (binaire) en format *VCF* (*Variant Call Format*).
### Synopsis:
```
$ samtools mpileup -g --output-tags DP --fasta-ref ref.fa --output mutations.bcf file1.bam file2.bam ... fileN.bam
$ bcftools mpileup --output-type b --fasta-ref ref.fa --output mutations.bcf -a 'INFO/AD' -a 'FORMAT/DP' file1.bam file2.bam ... fileN.bam
```
* `--output-tags DP` ajouter l'information du nombre de reads sous chaque mutation.
* `-a FORMAT/DP` ajouter l'information du nombre de reads sous chaque mutation.
* `-a FORMAT/AD` ajouter l'information du nombre de reads REF/ ALT sous chaque mutation.
puis:
```
$ bcftools call --multiallelic-caller --variants-only --output-type z -o result.vcf.gz --format-fields GQ,GP mutations.bcf
$ bcftools call --ploidy GRCh37 -f GQ --multiallelic-caller --variants-only --output-type z -o result.vcf.gz --format-fields GQ,GP mutations.bcf
```
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment