Demultiplexing
Le pipeline fonctionne uniquement avec des séquences déjà démultiplexées. Les données du projet EcoVitiSol ne le sont pas (on a un fastq forward, un reverse, et un fichier de métadonnées avec les barcode). Qiime2 propose, via cutadapt, un demultiplexing des séquences. Il faut pour cela importer les données en tant que données multiplexées (via le type EMPPairedEndSequences) par exemple. Le problème est double :
- les données peuvent visiblement être formatées de plusieurs façons différentes, et un pré-traitement sera de toute façon nécessaire.
- le contrôle qualité via multiqc exige d'avoir les fastq démultiplexés, et non pas sous la forme d'un artifact QZA
Pour le moment, on se contente avec EcoVitiSol de faire le demultiplexage hors du pipeline avec cutadapt
cutadapt --no-indels -g file:barcodes_forward.fasta -G file:barcodes_reverse.fasta -o ../fastq_demultiplexed/{name1}-{name2}_R1.fastq.gz -p ../fastq_demultiplexed/{name1}-{name2}_R2.fastq.gz GnS-EcoVitiSol-16S-B_S1_L001_R1_001.fastq.gz GnS-EcoVitiSol-16S-B_S1_L001_R2_001.fastq.gz