microSysMics issueshttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues2021-10-01T12:37:20Zhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/40The 'build_report' package was not installed in a way that PackageLoader unde...2021-10-01T12:37:20ZPhilippe BORDRONThe 'build_report' package was not installed in a way that PackageLoader understandsThe command `snakemake build_report` produces following error:
```
Traceback (most recent call last):
File "/path/to/microSysMics/scripts/build_report/build_report.py", line 184, in <module>
build_html_report()
File "/path/to/mi...The command `snakemake build_report` produces following error:
```
Traceback (most recent call last):
File "/path/to/microSysMics/scripts/build_report/build_report.py", line 184, in <module>
build_html_report()
File "/path/to/microSysMics/scripts/build_report/build_report.py", line 143, in build_html_report
env = Environment(loader=PackageLoader('build_report', '../'))
File "/CONDAS/users/bordron-p-1/microSysMics/lib/python3.9/site-packages/jinja2/loaders.py", line 309, in __init__
raise ValueError(
ValueError: The 'build_report' package was not installed in a way that PackageLoader understands.
```
It appends with `jinja2` >= 3Philippe BORDRONPhilippe BORDRONhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/39evolution_nbreads.py failed if ids are integer2021-09-10T14:28:48ZPhilippe BORDRONevolution_nbreads.py failed if ids are integerWhen sample ids are integer, I get this error:
```
Traceback (most recent call last):
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/scripts/microSysMics/scripts/evolution_nbreads.py", line 80, in <module>
nb_reads_b...When sample ids are integer, I get this error:
```
Traceback (most recent call last):
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/scripts/microSysMics/scripts/evolution_nbreads.py", line 80, in <module>
nb_reads_boxplot = sns.boxplot(x="processing_step", y="nb_reads", ax = ax, data=stats_plot)
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/envs/microSysMics/lib/python3.9/site-packages/seaborn/_decorators.py", line 46, in inner_f
return f(**kwargs)
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/envs/microSysMics/lib/python3.9/site-packages/seaborn/categorical.py", line 2240, in boxplot
plotter = _BoxPlotter(x, y, hue, data, order, hue_order,
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/envs/microSysMics/lib/python3.9/site-packages/seaborn/categorical.py", line 407, in __init__
self.establish_colors(color, palette, saturation)
File "/LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/envs/microSysMics/lib/python3.9/site-packages/seaborn/categorical.py", line 319, in establish_colors
lum = min(light_vals) * .6
ValueError: min() arg is an empty sequence
(microSysMics) [bordron-p-1@js4jb5j microSysMics]$ python scripts/evolution_nbreads.py /LAB-DATA/BiRD/shares/mibiogate/DOPEC/anosain_vs_dopec/output ../../input/config.json
No reference based filtering found for this run.
```
The cause is that pandas assign best possible type, even for dataframe index, and qiime2's outputs has multiple metadata rows (like the one starting with `#q2:types`).
One solution is to force index to be string. Another one is to ignore 2nd row of qiime's output (we must be sure that it is always the case).https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/38Heatmap tables d'abondance2021-01-19T11:04:37ZErwan DELAGEHeatmap tables d'abondanceDes heatmaps avec clustering et possibilité de trier par catégorie, à chaque rang taxo, seraient intéressantes.
Choix normalisation TSS, CLR, weighted CLR.Des heatmaps avec clustering et possibilité de trier par catégorie, à chaque rang taxo, seraient intéressantes.
Choix normalisation TSS, CLR, weighted CLR.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/37Nouvelles étapes à éventuellement considérer2021-01-06T15:12:43ZErwan DELAGENouvelles étapes à éventuellement considérerUtiliser les échantillons témoins pour traiter la contamination : Microdecon, DecontamR
Réduction du nombre d'ASV (meilleure estimation de l'alpha diversité): lulu, dbotu3Utiliser les échantillons témoins pour traiter la contamination : Microdecon, DecontamR
Réduction du nombre d'ASV (meilleure estimation de l'alpha diversité): lulu, dbotu3https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/36Filtrer les échantillons outliers2021-02-17T17:02:56ZErwan DELAGEFiltrer les échantillons outliersTrouver un moyen élégant de pouvoir supprimer les échantillons outliers et relancer les analyses secondaires sans avoir à relancer le pipeline depuis le début ou à avoir à modifier à la mano la table d'abondance QZA et le fichier context...Trouver un moyen élégant de pouvoir supprimer les échantillons outliers et relancer les analyses secondaires sans avoir à relancer le pipeline depuis le début ou à avoir à modifier à la mano la table d'abondance QZA et le fichier contextuel.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/35Adapters trimming2021-01-19T11:02:26ZErwan DELAGEAdapters trimmingLes adapters Illumina sont parfois présents dans les reads. Utiliser cutadapt avec l'option --p-adapter permet de les supprimer. Si on combine la suppression d'adapters avec la suppressions des primers de PCR, cutadapt conserve les séque...Les adapters Illumina sont parfois présents dans les reads. Utiliser cutadapt avec l'option --p-adapter permet de les supprimer. Si on combine la suppression d'adapters avec la suppressions des primers de PCR, cutadapt conserve les séquences où le primer de PCR n'est pas trouvé mais l'adapter si. Ce comportement n'est pas souhaité.
Une décomposition en deux étapes est nécessaire. Trouver le moyen le plus élégant de le traiter.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/34Demultiplexing2020-06-11T08:33:39ZErwan DELAGEDemultiplexingLe pipeline fonctionne uniquement avec des séquences déjà démultiplexées. Les données du projet EcoVitiSol ne le sont pas (on a un fastq forward, un reverse, et un fichier de métadonnées avec les barcode).
Qiime2 propose, via cutadapt, u...Le pipeline fonctionne uniquement avec des séquences déjà démultiplexées. Les données du projet EcoVitiSol ne le sont pas (on a un fastq forward, un reverse, et un fichier de métadonnées avec les barcode).
Qiime2 propose, via cutadapt, un demultiplexing des séquences. Il faut pour cela importer les données en tant que données multiplexées (via le type EMPPairedEndSequences) par exemple. Le problème est double :
- les données peuvent visiblement être formatées de plusieurs façons différentes, et un pré-traitement sera de toute façon nécessaire.
- le contrôle qualité via multiqc exige d'avoir les fastq démultiplexés, et non pas sous la forme d'un artifact QZA
Pour le moment, on se contente avec EcoVitiSol de faire le demultiplexage hors du pipeline avec cutadapt
~~~
cutadapt --no-indels -g file:barcodes_forward.fasta -G file:barcodes_reverse.fasta -o ../fastq_demultiplexed/{name1}-{name2}_R1.fastq.gz -p ../fastq_demultiplexed/{name1}-{name2}_R2.fastq.gz GnS-EcoVitiSol-16S-B_S1_L001_R1_001.fastq.gz GnS-EcoVitiSol-16S-B_S1_L001_R2_001.fastq.gz
~~~https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/33Paramètres de trim automatique avec Figaro2020-05-19T14:41:06ZErwan DELAGEParamètres de trim automatique avec FigaroPhilippe a trouvé cet outil : https://github.com/Zymo-Research/figaro#figaroPhilippe a trouvé cet outil : https://github.com/Zymo-Research/figaro#figarohttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/32Add beta diversity significance test2020-06-08T09:11:13ZErwan DELAGEAdd beta diversity significance testPERMANOVA, ANOSIM : see beta diversity significance pluginPERMANOVA, ANOSIM : see beta diversity significance pluginhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/31Boxplot abondance relative2020-05-18T19:42:45ZErwan DELAGEBoxplot abondance relativeIntégrer des boxplot d'abondance relative (TSS + log10) sur les TOP n taxons (en terme d'abondance médiane)
TOP n ou taxons dont l'abondance médiane est supérieure à un certain seuilIntégrer des boxplot d'abondance relative (TSS + log10) sur les TOP n taxons (en terme d'abondance médiane)
TOP n ou taxons dont l'abondance médiane est supérieure à un certain seuilhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/30Rapport HTML2021-03-17T09:42:43ZErwan DELAGERapport HTML- Gérer les cas d'erreurs (fichiers manquants)
- Donner plus d'explications sur chaque outil
- Améliorer la partie technique
- Gérer deblur/dada2
etc etc...- Gérer les cas d'erreurs (fichiers manquants)
- Donner plus d'explications sur chaque outil
- Améliorer la partie technique
- Gérer deblur/dada2
etc etc...https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/29Ajout de métriques de diversité dans l'alpha group significance2020-03-27T10:28:45ZErwan DELAGEAjout de métriques de diversité dans l'alpha group significanceObserved OTUS, faith pdObserved OTUS, faith pdhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/28Erreur git2020-05-18T19:37:20ZErwan DELAGEErreur gitSur BiRD, depuis peu, j'obtiens aléatoirement des erreurs liées à git.
En relançant les jobs, ils passent. Problème d'accès concurrent ???? Variables d'env non transmises ???
Aucune modification n'a été effectuée sur cette partie du ...Sur BiRD, depuis peu, j'obtiens aléatoirement des erreurs liées à git.
En relançant les jobs, ils passent. Problème d'accès concurrent ???? Variables d'env non transmises ???
Aucune modification n'a été effectuée sur cette partie du code.
-------
ImportError in line 9 of /sandbox/users/delage-e-1/microSysMics/Snakefile:
Failed to initialize: Bad git executable.
The git executable must be specified in one of the following ways:
- be included in your $PATH
- be set via $GIT_PYTHON_GIT_EXECUTABLE
- explicitly set via git.refresh()
All git commands will error until this is rectified.
This initial warning can be silenced or aggravated in the future by setting the
$GIT_PYTHON_REFRESH environment variable. Use one of the following values:
- quiet|q|silence|s|none|n|0: for no warning or exception
- warn|w|warning|1: for a printed warning
- error|e|raise|r|2: for a raised exception
Example:
export GIT_PYTHON_REFRESH=quiet
File "/sandbox/users/delage-e-1/microSysMics/Snakefile", line 9, in <module>
File "/sandbox/users/delage-e-1/miniconda3/envs/microSysMics/lib/python3.7/site-packages/git/__init__.py", line 85, in <module>https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/27Automatiser l'alpha rarefaction2020-03-21T13:54:59ZErwan DELAGEAutomatiser l'alpha rarefactionLes courbes d'alpha rarefaction pourraient être calculées automatiquement après l'inférence de la table d'abondance en se basant sur la profondeur de séquençage médiane plutôt que de laisser la possibilité à l'utilisateur de choisir par ...Les courbes d'alpha rarefaction pourraient être calculées automatiquement après l'inférence de la table d'abondance en se basant sur la profondeur de séquençage médiane plutôt que de laisser la possibilité à l'utilisateur de choisir par lui même. On aurait ainsi une information supplémentaire pour choisir le seuil de rarefaction directement avec la construction de la table.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/26Export csv des métriques de diversité.2020-03-21T13:54:24ZErwan DELAGEExport csv des métriques de diversité.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/25Filtre sur table d'abondance2021-02-17T17:02:56ZErwan DELAGEFiltre sur table d'abondanceAjouter la possibilité de filtrer les échantillons/ASV après l'inférence de la table.Ajouter la possibilité de filtrer les échantillons/ASV après l'inférence de la table.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/24Pre-filtering sur base de données - dada22021-02-17T17:01:54ZErwan DELAGEPre-filtering sur base de données - dada2Avec certaines expériences (biopsie), le nombre de cellules hôtes présentes dans l'échantillon est important et la contamination en ADN hôte peut représenter une proportion non négligeable des séquences totales. Deblur implémente par déf...Avec certaines expériences (biopsie), le nombre de cellules hôtes présentes dans l'échantillon est important et la contamination en ADN hôte peut représenter une proportion non négligeable des séquences totales. Deblur implémente par défaut un filtre positif sur la base de données greengenes à 88% pour exclure ces séquences. Ce n'est pas le cas avec dada2. Bien que nous puissions filtrer ces ASV a posteriori suite à l'assignation taxonomique, il serait plus approprié de filtrer a priori les fichiers de séquence pour ne pas perturber la phase de denoising.
sortmerrna est un outil qui semble fournir ce service.Philippe BORDRONPhilippe BORDRONhttps://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/23Deblur p-min-reads et lancement parallèle2020-03-10T18:46:14ZErwan DELAGEDeblur p-min-reads et lancement parallèleLe paramètre "p-min-reads" de deblur a un impact différent selon que le run est lancé en mode "parallel" ou en mode "pooled". En mode "parallel", il faudrait obtenir les mêmes résultats qu'en "pooled" par défaut. Pour cela, il faudrait f...Le paramètre "p-min-reads" de deblur a un impact différent selon que le run est lancé en mode "parallel" ou en mode "pooled". En mode "parallel", il faudrait obtenir les mêmes résultats qu'en "pooled" par défaut. Pour cela, il faudrait fixer l'option "p-min-reads" à 1 et filtrer la matrice réassemblée pour ne conserver que les ASV ayant une abondance globale >= 10 (valeur par défaut).https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/22OSError: [Errno 7] Argument list too long2020-03-21T12:20:31ZErwan DELAGEOSError: [Errno 7] Argument list too longPour les tâches qui effectuent le merging des tables et des séquences (après deblur), si la liste des arguments est trop longue on tombe sur cette erreur. En lançant la commande en qlogin, le problème n'apparait pas.Pour les tâches qui effectuent le merging des tables et des séquences (après deblur), si la liste des arguments est trop longue on tombe sur cette erreur. En lançant la commande en qlogin, le problème n'apparait pas.https://univ-nantes.io/bird_pipeline_registry/microSysMics/-/issues/21Python code et cluster2019-08-21T12:41:38ZErwan DELAGEPython code et clusterSur le cluster, le code python du Snakefile placé hors des règles est exécuté pour chaque tâche. Du coup, on se retrouve avec un fichier de log énorme. Améliorer ce fonctionnement.Sur le cluster, le code python du Snakefile placé hors des règles est exécuté pour chaque tâche. Du coup, on se retrouve avec un fichier de log énorme. Améliorer ce fonctionnement.