* Dans les short-reads R1 de l'enfant, extrayez la premiere base de la séquence d'ADN, quelle est la proportion de ces bases (nombre de A , nombre de T, nombre de G, etc... ?).
@@ -295,29 +288,29 @@ l'option `-R` permet de créer un **READ-GROUP** pour associer les reads a un é
la sortie standard de cette commande est un fichier 'texte' **SAM**.
Mappez les reads de l'enfant `child.R1.aa.fq.gz` et `child.R2.aa.fq.gz` avec cette commande et redirigez la sortie standard vers un fichier `child_unsorted.aa.sam`
Mappez les reads de l'enfant `child.R1.fq.gz` et `child.R2.fq.gz` avec cette commande et redirigez la sortie standard vers un fichier `child_unsorted.sam`
```
bwa mem -R '@RG\tID:child-aa\tSM:child' ref.fa DATA/child.R1.aa.fq.gz DATA/child.R2.aa.fq.gz > child_unsorted.aa.sam
bwa mem -R '@RG\tID:child-aa\tSM:child' ref.fa DATA/child.R1.fq.gz DATA/child.R2.fq.gz > child_unsorted.sam
```
* que renvoie la commande
```
file child_unsorted.aa.sam
file child_unsorted.sam
```
* Combien y-a-t-il de lignes dans ce fichier sam ?
* Retrouvez la ligne `@RG` du 'read-group' dans l'en-tête, vérifiez que tous les reads dans ce fichier portent une reférence à ce read groupe dans la colonne de méta-données.
* Combien y-a-t-il d'alignements ? Comparez au nombre de reads dans les fichiers child.R1.aa.fq.gz et child.R2.aa.fq.gz
* Combien y-a-t-il d'alignements ? Comparez au nombre de reads dans les fichiers child.R1.fq.gz et child.R2.fq.gz
* La deuxième colonne contient le SAM FLAG: des méta-informations sur le mapping des reads. Quel est le SAM Flag trouvé le plus souvent ? Cherchez sa signification dans http://broadinstitute.github.io/picard/explain-flags.html ?
pour permettre aux algorithmes d'aller plus vite, nous utilisons samtools pour convertir le fichier en format texte/SAM `child.aa.sam` en format binaire/BAM `child_unsorted.aa.bam`
pour permettre aux algorithmes d'aller plus vite, nous utilisons samtools pour convertir le fichier en format texte/SAM `child.sam` en format binaire/BAM `child_unsorted.bam`
* que renvoie la commande `file child_unsorted.aa.bam` ?
* que renvoie la commande `file child_unsorted.bam` ?
* affichez les options de `samtools view` avec
```
...
...
@@ -382,22 +375,22 @@ samtools view
* affichez le corps du BAM
```
samtools view child_unsorted.aa.bam
samtools view child_unsorted.bam
```
* affichez l'en-tete du BAM avec
```
samtools view -H child_unsorted.aa.bam
samtools view -H child_unsorted.bam
```
* affichez le bam complet avec
```
samtools view -h child_unsorted.aa.bam
samtools view -h child_unsorted.bam
```
* en vous aidant de http://broadinstitute.github.io/picard/explain-flags.html et de l'option `-f (flag)` de samtools view, comptez les reads qui étaient à l'origine dans le fichier child.R1.aa.fq.gz (a.k.a 'first in pair')
* en vous aidant de http://broadinstitute.github.io/picard/explain-flags.html et de l'option `-f (flag)` de samtools view, comptez les reads qui étaient à l'origine dans le fichier child.R1.fq.gz (a.k.a 'first in pair')
* En utilisant 'samtools view', vérifiez que le fichier est trié en regardant la première ligne de son en-tête qui doit contenir le mot `coordinate`.
```
samtools view -H child_sorted.aa.bam
samtools view -H child.bam
```
* En utilisant 'samtools view', Verifiez que le fichier est trié en observant la position croissante CHROM/POS des reads dans le fichier BAM.
```
samtools view child_sorted.aa.bam | cut -f 3,4
samtools view child.bam | cut -f 3,4
```
## Mapping de la deuxième paire child.R1.ab.fq.gz et child.R2.ab.fq.gz
de la même manière que vous aviez mappé les fichiers child.R1.aa.fq.gz et child.R2.aa.fq.gz, mappez les fichiers **child.R1.ab.fq.gz** et **child.R2.ab.fq.gz** de manière à produire un fichier BAM **child_sorted.ab.bam**
Note: Dans un environnement parallélisé (cluster...), le mapping de **child_sorted.aa.bam** et **child_sorted.ab.bam** pourrait être fait en parallele...
## Fusion des BAM pour le même échantillon.
Maintenant que nous avons **child_sorted.aa.bam** et **child_sorted.ab.bam**, nous pouvons les fusionner en un seul fichier BAM **child.bam** pour cela on utilise la command `samtools merge`
mergez les fichiers **child_sorted.aa.bam** et **child_sorted.ab.bam** pour produire **child.bam**. A l'aide de `samtools view`, vérifiez que le fichier est toujours trié et que le nombre d'alignements total est conservé.