Mostra el registre complet de l'element
Soriano Salvador, Beatriz
Llorens Candela, Carlos (dir.); Arnau Llombart, Vicente (dir.); Pérez Sánchez, Jaume (dir.) Departament d'Informàtica |
|
Aquest document és un/a tesi, creat/da en: 2023 | |
Con el incremento de datos generados mediante el uso de las tecnologías de secuenciación, es necesario el diseño de protocolos y herramientas que permitan el análisis y la integración de los mismos con el objetivo de entender y comprender los sistemas biológicos que forman parte de cada estudio en particular. Estas herramientas, además, es preferible que sean intuitivas y de fácil manejo para los usuarios, de manera que puedan ser utilizadas por cualquier investigador y no solamente por aquellos que sean expertos o tengan un conocimiento más avanzado en el campo de la bioinformática.
En esta tesis se presentan una serie de herramientas destinadas al análisis de datos procedentes de secuenciación para dar soporte a los estudios llevados a cabo en colaboración con distintas instituciones como son el Instituto de Acuicultura Torre de la Sal (IATS-CSIC), el Instituto de Recursos Naturales ...
[Llegir més ...]
[-]
Con el incremento de datos generados mediante el uso de las tecnologías de secuenciación, es necesario el diseño de protocolos y herramientas que permitan el análisis y la integración de los mismos con el objetivo de entender y comprender los sistemas biológicos que forman parte de cada estudio en particular. Estas herramientas, además, es preferible que sean intuitivas y de fácil manejo para los usuarios, de manera que puedan ser utilizadas por cualquier investigador y no solamente por aquellos que sean expertos o tengan un conocimiento más avanzado en el campo de la bioinformática.
En esta tesis se presentan una serie de herramientas destinadas al análisis de datos procedentes de secuenciación para dar soporte a los estudios llevados a cabo en colaboración con distintas instituciones como son el Instituto de Acuicultura Torre de la Sal (IATS-CSIC), el Instituto de Recursos Naturales y Agrobiología de Salamanca (IRNASA), la Fundación Jiménez Díaz, el Museo Nacional de Ciencias Naturales de CSIC y el Hospital General Universitario de Valencia.
En primer lugar, se desarrolló e implementó un flujo de trabajo para el ensamblaje de novo y anotación de genomas eucariotas ricos en duplicaciones, el cual se incluyó en la herramienta DeNovoSeq. Este protocolo fue testado ensamblando de novo y anotando el genoma de Sparus aurata (dorada) a partir de datos de secuenciación aportados por el IATS-CSIC. Como resultado, este protocolo no solo permitió la obtención de un borrador de alta calidad del genoma de la dorada y con un tamaño (1,24 Gb) más próximo al esperado según el análisis de k-mer realizado, sino que permitió establecer una hipótesis sobre el origen de la mayor parte de las expansiones sufridas por el genoma de esta especie, sugiriendo que estas derivan de las actividades de los elementos genéticos móviles y de la respuesta inmunitaria como procesos para la adaptabilidad de la especie.
En segundo lugar, se rediseñó y adaptó un pipeline, llamado VQS-haplotyper, a partir de un pipeline creado por Mercedes Guerrero-Murillo y Josep Gregori i Font, y basado en el paquete de R llamada QSutils, para la identificación y cuantificación de cuasiespecies en muestras procedentes de pacientes infectados por un virus concreto. En este caso, se utilizaron muestras de pacientes infectados por el virus SARS-CoV-2 proporcionadas por la Fundación Jiménez Díaz. La modificación del pipeline original nos permitió obtener los cambios de nucleótidos y deleciones que caracterizaban los haplotipos presentes en las muestras para una abundancia relativa mínima de 0,5% y 0,1%, obteniendo un total de 105 y 1.154 mutaciones y/o deleciones, respectivamente. De esta manera, VQS-haplotyper es capaz de detectar pequeños cambios en la secuencia de un virus que pueden influir en las características del mismo.
En tercer lugar, se desarrollaron e implementaron dos protocolos para el análisis de datos RNA-seq, incluyendo el análisis de enriquecimiento de términos GO y rutas metabólicas, uno a partir de datos procedentes de secuenciación de novo, es decir, sin genoma de referencia disponible, y otro a partir de datos procedentes de resecuenciación, es decir, con genoma de referencia disponible. Estos dos protocolos se implementaron para dar soporte a diversos estudios utilizando muestras de las siguientes especies: Ornithodoros erraticus y Ornithorodos moubata, proporcionadas por el IRNASA; Anisakis pegreffii, Anisakis simplex s.s. y sus híbridos, proporcionadas por el Museo Nacional de Ciencias Naturales de CSIC; Homo sapiens, proporcionadas por el Hospital General Universitario de Valencia. Complementariamente al protocolo para el análisis RNA-seq sin genoma de referencia disponible, ha sido necesario desarrollar un protocolo para el ensamblaje de novo de transcriptomas consenso contra el que, posteriormente, se mapeen las lecturas. Ambas implementaciones han permitido conocer las diferencias entre distintas condiciones de estudio o entre distintas especies. Con ello, es posible establecer potenciales antígenos que puedan ser diana para posibles terapias o vacunas, dilucidar posibles relaciones y diferencias entre distintas especies o descubrir biomarcadores de, por ejemplo, cáncer.
Por último, en colaboración con el IATS-CSIC, desarrollamos SAMBA (Structure-Learning of Aquaculture Microbiomes Using a Bayesian-Network Approach), una implementación informática de un modelo de red bayesiano para investigar cómo se relacionan entre sí los pan-microbiomas de los peces y todas las demás variables de un sistema acuícola concreto. SAMBA se basa en un modelo entrenable de red bayesiana que aprende la estructura de red de un sistema de acuicultura utilizando información de distintas variables bióticas y abióticas de importancia en la piscicultura, con especial atención a los datos microbianos proporcionados por la secuenciación de amplicones 16S. SAMBA acepta variables tanto cualitativas como cuantitativas y trata de forma convincente las diferencias en la composición microbiana derivadas de la variación técnica o biológica entre microbiomas de distintos especímenes. Para ello, SAMBA contiene una variedad de herramientas para preanalizar los datos y elegir una distribución para construir y entrenar el modelo de red bayesiana. Una vez creado y validado el modelo, el usuario puede interrogarlo y obtener información sobre el sistema modelizado en dos modos diferentes: “Report” y “Prediction”. En el modo “Report”, SAMBA informa de cómo el pan-microbioma y todas las demás variables que intervienen en el sistema de acuicultura modelizado se influyen mutuamente y cuáles son las probabilidades de cada relación. En el modo “Prediction”, la aplicación predice cómo cambiarían probablemente la diversidad y el perfil funcional del pan-microbioma en función de cualquier cambio realizado en otras variables. Finalmente, SAMBA implementa un completo editor gráfico de redes que permite navegar, editar y exportar los resultados. El funcionamiento de SAMBA ha sido testado y validado utilizando estándares de comunidades microbianas y comunidades de microbiota intestinal de doradas de piscifactoría (Sparus aurata) procedentes de diferentes ensayos de alimentación, arrojando un valor de precisión en todos los casos superior al 0,62.
En definitiva, esta tesis ha contribuido no solamente con el desarrollo de protocolos y herramientas que permiten y facilitan el análisis y la integración de diferentes datos NGS, sino que, además, ha contribuido con nuevo conocimiento biológico en diversos campos de estudio.With the increase in data generated through the use of sequencing technologies, there is a need to design protocols and tools that allow the analysis and integration of these data in order to understand and comprehend the biological systems that are part of each particular study. These tools, moreover, should preferably be intuitive and user-friendly, so that they can be employed by any researcher and not only by those that are experts or have a more advanced knowledge in the field of bioinformatics.
This thesis presents a series of tools for the analysis of sequencing data so as to provide support for the studies carried out in collaboration with different institutions such as Instituto de Acuicultura Torre de la Sal (IATS-CSIC), Instituto de Recursos Naturales y Agrobiología de Salamanca (IRNASA), Fundación Jiménez Díaz, Museo Nacional de Ciencias Naturales de CSIC and Hospital General Universitario de Valencia.
Firstly, a workflow for de novo assembly and annotation of duplication-rich eukaryotic genomes was developed and implemented, and was included in the DeNovoSeq tool. This protocol was tested by de novo assembly and annotation of the Sparus aurata (gilthead sea bream) genome from sequencing data provided by the IATS-CSIC. As a result, this protocol not only allowed us to obtain a high quality draft of the gilthead sea bream genome with a size (1.24 Gb) closer to the expected size according to the k-mer analysis performed, but also allowed us to establish a hypothesis about the origin of most of the expansions suffered by the genome of this species. This suggests that they derive from the activities of the mobile genetic elements and the immune response as processes for the adaptability of the species.
Secondly, a pipeline, called VQS-haplotyper, was adapted and redesigned from a pipeline created by Mercedes Guerrero-Murillo and Josep Gregori i Font, and based on the R package called QSutils, to identify and quantify quasispecies in samples from patients infected by a specific virus. In this case, samples from patients infected by the SARS-CoV-2 virus provided by the Fundación Jiménez Díaz were used. The modification of the original pipeline allowed us to obtain nucleotide changes and deletions that characterized the haplotypes present in the samples for a minimum relative abundance of 0.5% and 0.1%, obtaining a total of 105 and 1,154 mutations and/or deletions, respectively. In this way, VQS-haplotyper is able to detect small changes in the sequence of a virus that can influence its characteristics.
Thirdly, two protocols were developed and implemented to analyze RNA-seq data, including the enrichment analysis of GO terms and metabolic pathways, one from de novo sequencing data, i.e. with no reference genome available, and the other from resequencing data, i.e. with reference genome available. These two protocols were implemented to provide support for several studies using samples from the following species: Ornithodoros erraticus and Ornithodors moubata, provided by the IRNASA; Anisakis pegreffii, Anisakis simplex s.s. and their hybrids, provided by the Museo Nacional de Ciencias Naturales de CSIC and Homo sapiens, provided by the Hospital General Universitario de Valencia. Complementary to the protocol for RNA-seq analysis with no reference genome available, it has been necessary to develop a protocol for the de novo assembly of consensus transcriptomes against which, subsequently, the reads are mapped. Both implementations have provided insight into the differences between distinct study conditions or between distinct species. With this, it is viable to establish potential antigens that could be targets for possible therapies or vaccines, to elucidate possible relationships and differences between different species or to discover biomarkers of, for example, cancer.
Finally, in collaboration with the IATS-CSIC, we developed SAMBA (Structure-Learning of Aquaculture Microbiomes Using a Bayesian-Network Approach), a computer implementation of a Bayesian network model to investigate how fish pan-microbiomes and all other variables in a given aquaculture system are related to each other. SAMBA is powered by a Bayesian network trainable model that learns the network structure of an aquaculture system using information from distinct biotic and abiotic variables of importance in fish farming, with special focus on microbial data provided from 16S amplicon sequencing. SAMBA accepts both qualitative and quantitative variables and convincingly deals with the differences in microbial composition derived by the technical or biological variation among microbiomes of distinct specimens. To this end, SAMBA is implemented with a variety of tools to pre-analyze the data and choose a distribution to build and train the Bayesian network model. Once the model has been created and validated, the user can interrogate the model and obtain information about the modelled system in two different modes: Report and Prediction. Using the Report mode SAMBA reports how the pan-microbiome and all other variables involved in the modelled aquaculture system influence each other and what the conditional probabilities of each relation are. Under the Prediction mode, the application predicts how the diversity and functional profile of the pan-microbiome would likely change depending on any alteration made on other variables. Finally, SAMBA implements a comprehensive graphical network editor allowing the user to navigate, edit and export outcomes. The performance of SAMBA has been tested and validated using microbial community standards and gut microbiota communities of farmed gilthead sea bream (Sparus aurata) from different feeding trials, giving an accuracy value in all cases higher than 0.62.
In conclusion, this thesis has not only contributed to the development of protocols and tools that allow us to facilitate the analysis and integration of different NGS data, but has also contributed with new biological knowledge in various fields of study.
|
|
Esta tesis ha sido financiada por el Ministerio de Ciencia e Innovación a través de la ayuda “DI-17-09134” para contratos para la formación de doctores en empresas (Doctorados Industriales). |
|
Veure al catàleg Trobes |