NAGIOS: RODERIC FUNCIONANDO

The role of blood DNA methylation in environment-related chronic disease: a biostatistical toolkit

Repositori DSpace/Manakin

IMPORTANT: Aquest repositori està en una versió antiga des del 3/12/2023. La nova instal.lació está en https://roderic.uv.es/

The role of blood DNA methylation in environment-related chronic disease: a biostatistical toolkit

Mostra el registre parcial de l'element

dc.contributor.advisor Bermúdez Edo, José Domingo
dc.contributor.advisor Téllez-Plaza, María
dc.contributor.author Domingo Relloso, Arce
dc.contributor.other Departament d'Estadística i Investigació Operativa es_ES
dc.date.accessioned 2023-06-15T07:33:24Z
dc.date.available 2023-06-16T04:45:06Z
dc.date.issued 2013 es_ES
dc.date.submitted 11-04-2023 es_ES
dc.identifier.uri https://hdl.handle.net/10550/87908
dc.description.abstract Epigenetic changes refer to modifications that alter gene expression without changing the genomic sequence. Environmental and behavioral factors are well-known epigenetic modifiers, leading to heritable changes that might disrupt essential biological processes and, in turn, influence the development of disease. DNA methylation is the most widely studied epigenetic mark. Scientific evidence supports the association between environmental factors, such as smoking and metals, and DNA methylation dysregulations. In addition, the evidence supports the association between DNA methylation dysregulations and chronic disease, especially for cancer. However, it is unknown whether these associations are causal or happen due to DNA methylation being a biomarker of other disrupted biological processes. In order to evaluate the potential role of genome-wide DNA methylation on the association between environmental factors and chronic disease, appropriate statistical methods for the analysis of ultra-high dimensional and highly correlated data are needed. To begin with, we need to select which methylation sites in the genome are associated with our outcome of interest. Existing methods for variable selection and effect estimation lose predictive ability and are subject to bias in ultra-high dimensional settings. Additionally, they are not able to quantify statistical uncertainty. Once we get to select the set of epigenomic features associated with our outcome, mediation analysis is a valuable tool to quantify the potential intermediate effect of these methylation sites on the association between environmental factors and chronic disease. The most biologically plausible scenario is that several correlated DNA methylation marks (as opposed to a single one) are mediators between an exposure and an outcome. On the other hand, it is common to consider time-to-event outcomes in epidemiological settings, in order to incorporate the time in which the outcome happened into the statistical model. However, to date, no mediation analysis algorithms able to deal with multiple correlated mediators with survival outcomes have been developed. Thus, this thesis has two main objectives, the first one related to variable selection in ultra-high dimensional settings, and the second one focused on multiple mediation analysis with survival outcomes. Abstract of objective 1. The first objective of this thesis arises from the need to extend the Iterative Sure Independence Screening (ISIS) statistical tool, which conducts variable selection for ultra-high dimensional data, in order to improve its predictive accuracy, effect estimation and to incorporate statistical uncertainty. The objective was to pair the ISIS algorithm with two shrinkage methods: elastic-net and adaptive elastic-net (Aenet), and to include an algorithm for calculation of bootstrap-based confidence intervals. This extension of ISIS has been added to the SIS R package, which is available in the CRAN repository. As part of this first objective, this dissertation shows two applications of the ISIS algorithm. For this purpose, we used data from the Strong Heart Study (SHS), the largest and longest prospective cohort of American Indians. The first application aimed to evaluate the improvements introduced by our extension of ISIS (Aenet, elastic-net, MSAenet) as compared to other shrinkage methods implemented in the original version. The ISIS algorithm paired with Aenet provides increased predictive ability as compared to the original ISIS version, especially for continuous and binary outcomes. Additionally, by pairing ISIS with Aenet, a more consistent effect estimation is obtained because Aenet fulfills the oracle property. Our bioinformatics analysis reveals that it also leads to a more robust variable selection in terms of subsequent biological pathway enrichment. The second application is an epidemiologic study in which we evaluate the potential intermediate role of single DNA methylation sites on the well-documented association between arsenic and cardiovascular disease (CVD). We used the ISIS algorithm paired with Aenet to select methylation sites associated with CVD, and we subsequently conducted a simple mediation analysis (one marker at a time) in the selected sites. We found statistically significant mediated effects for 21 and 15 differentially methylated positions (DMPs) for CVD incidence and mortality, respectively. In addition, six of the 21 DMPs showing statistically significant mediated effects for CVD incidence were replicated in three independent American cohorts (the Framingham Heart Study, Women's Health Initiative y Multi-Ethnic Study of Atherosclerosis) with the same direction in the association. The genes annotated to methylation sites with statistically significant mediated effects were also replicated in a mouse model. The biological plausibility of those genes in CVD provides additional robustness of the results. Abstract of objective 2. The second objective of this thesis focuses on the extension of the multimediate algorithm, which conducts mediation analysis in the context of multiple correlated mediators, to survival outcomes. Jerolon and colleagues developed this algorithm for continuous and binary outcomes. Using the Lin-Ying additive models, we extended the multimediate algorithm as well as the theoretical results for identification of mediated effects to time-to-event data. In addition, we adapted the multimediate algorithm to incorporate potential exposure-mediator interactions. The extension of the algorithm to survival outcomes is available in the following Github repository: https://github.com/AllanJe/multimediate. The extension including exposure-mediator interactions will soon be posted in the same repository. As part of this second objective, we also included two data applications of this algorithm. The first application is a simulation study in which we prove the better performance of the multimediate algorithm as compared to simple mediation analysis, even in settings of uncorrelated mediators. The second data application is an epidemiologic study in which we investigate the potential intermediate role of multiple, potentially correlated, DNA methylation marks on the association between smoking and smoking-related cancers using data from the SHS. We first used the ISIS algorithm paired with elastic-net to select DNA methylation sites associated with cancer. Subsequently, we applied the multimediate algorithm to evaluate several methylation sites as potential mediators on the association between smoking and cancer. The algorithm identified a joint mediated effect of 81.3 % attributable to three DMPs for lung cancer, and of 64.4 % attributable to four DMPs for a combined endpoint including all smoking-related cancers available (lung, esophagus-stomach, colorectal, liver, pancreatic and kidney). The results of the mediation analysis were largely replicated in an independent population (the Framingham Heart Study), in which we also conducted functional validation using gene expression data. In general, we found inverse association between DNA methylation and gene expression for the methylation sites identified in our mediation analysis. In addition to these two main objectives, this thesis presents a short section focused on gene expression, the biological process directly influenced by DNA methylation, which points to future research lines. Even if mediated effects of DNA methylation on the association between environmental factors and chronic disease are identified, this does not necessarily imply causality, as unmeasured confounders and other sources of bias might exist. Thus, investigating the biological processes influenced by DNA methylation might help as functional support of its role in chronic disease. In particular, gene expression measured in single cells (scRNAseq) is at the forefront of omics data research, as it enables the characterization of cell heterogeneity. However, these data present statistical challenges due to high proportions of zeros obtained in gene expression measurements for each individual gene and cell. In addition to evaluating differences in means of gene expression across groups, differences in variability have shown to be biologically relevant. Several methods have been developed for the evaluation of differential variability in omics data. However, these methods are not specific for scRNAseq data. In this thesis, we have used simulations to evaluate the impact of high proportions of zero counts in statistical methods for the identification of differentially variable genes in scRNAseq data. We found that high proportions of zeros lead to inflated variances and p-values, as well as higher false discovery rates. The distinct algorithm, which uses permutation tests to identify differences in distributions across groups, shows the best performance in terms of compromise between false discovery and true positive rates. In summary, this thesis has contributed to the field of omics data research, both by providing novel statistical methods for DNA methylation data analysis, which can also be used for other omics, and by contributing to the body of epidemiological evidence that supports a role of environmental epigenetics in chronic disease. en_US
dc.description.abstract La epigenética se refiere al estudio de las marcas químicas que alteran la expresión génica sin cambiar la secuencia genética. Los factores ambientales y conductuales son conocidos modificadores de la epigenética, resultando así en cambios heredables que pueden dar lugar a alteraciones en procesos biológicos esenciales y, por consiguiente, al desarrollo de enfermedades. La metilación del ADN es la marca epigenética más estudiada. Existe amplia evidencia científica de la asociación entre factores ambientales tales como tabaco y metales, y desregulaciones en la metilación del ADN. Asimismo, existe amplia evidencia de la asociación entre desregulaciones en metilación del ADN y enfermedades crónicas, en especial para el cáncer. Sin embargo, aún está por descifrar si estas asociaciones son causales o suceden debido a que la metilación del ADN es un biomarcador de otros procesos biológicos alterados, siendo estos procesos los que influyen en las enfermedades de forma causal. Para evaluar el papel de la metilación del ADN en la asociación entre los factores ambientales y las enfermedades crónicas, se requieren métodos estadísticos apropiados para el análisis de datos de muy altas dimensiones y altamente correlacionados. En primer lugar, debemos ser capaces de seleccionar qué posiciones genómicas de metilación están asociadas con nuestra variable respuesta de interés. Los métodos existentes para selección de variables y estimación de efectos pierden capacidad predictiva y presentan sesgos en contextos de dimensiones muy altas. Además, no cuantifican la incertidumbre estadística. Una vez seleccionado el conjunto relevante de posiciones de metilación asociadas con nuestra variable respuesta, el análisis de mediación es una herramienta útil para cuantificar el potencial efecto intermedio de estas posiciones de metilación en la asociación entre factores ambientales y enfermedades crónicas. El contexto más probable es que varias marcas de metilación (y no una única marca) sean intermediarias entre estos dos procesos, estando además posiblemente correlacionadas. Por otro lado, es habitual que las variables respuesta analizadas en contextos epidemiológicos sean de supervivencia, con el fin de incorporar al modelo el tiempo hasta el evento de salud. Sin embargo, hasta la fecha, no se han desarrollado algoritmos de mediación que incorporen múltiples mediadores correlacionados en el contexto de análisis de supervivencia. Así pues, esta tesis consta de dos objetivos principales, el primero relacionado con la selección de variables en muy altas dimensiones, y el segundo relacionado con el análisis de mediación múltiple para datos de supervivencia. Resumen del objetivo 1. El primer objetivo de esta tesis consiste en extender la herramienta estadística Iterative Sure Independence Screening (ISIS), que realiza selección de variables en contextos de muy altas dimensiones, para mejorar su capacidad predictiva, su estimación de efectos y para incorporar la incertidumbre estadística. Para ello, hemos combinado el algoritmo ISIS con los métodos de regularización llamados elastic-net y adaptive elastic-net (Aenet), y además hemos incluido un algoritmo para el cálculo de intervalos de confianza basados en booststrap. Esta extensión ha sido incluida en el paquete SIS de R, que está disponible en el repositorio público CRAN. En la línea de este objetivo, esta tesis incluye dos aplicaciones prácticas del algoritmo ISIS. Para ello, hemos usado datos del Strong Heart Study (SHS), la cohorte prospectiva de indios americanos con más participantes y de mayor duración. La primera aplicación es metodológica y evalúa las mejoras introducidas por nuestra extensión del paquete. El algoritmo ISIS pareado con Aenet presenta una mejora en capacidad predictiva con respecto a la versión original de ISIS para variables respuesta continuas y binarias, no así para variables respuesta de supervivencia. Además, al parear ISIS con Aenet, se obtiene una estimación de efectos más consistente debido al cumplimiento de la propiedad de oracle. Nuestro análisis bioinformático revela que también da lugar a una selección más robusta de variables desde el punto de vista biológico. La segunda aplicación es un estudio epidemiológico que evalúa el potencial rol intermedio de los cambios en metilación del ADN en la ampliamente documentada asociación entre arsénico y enfermedad cardiovascular. Empleamos el algoritmo ISIS pareado con Aenet para seleccionar las posiciones de metilación asociadas con la enfermedad cardiovascular, y posteriormente realizamos un análisis de mediación simple en esas posiciones. Encontramos efectos mediados estadísticamente significativos en 21 y 15 posiciones diferencialmente metiladas (DMPs) para incidencia cardiovascular y mortalidad cardiovascular, respectivamente. Además, de las 21 DMPs con efectos mediados significativos para enfermedad cardiovascular, seis fueron replicadas en tres cohortes americanas independientes (Framingham Heart Study, Women’s Health Initiative y Multi-Ethnic Study of Atherosclerosis) con la misma dirección de asociación. Los genes asociados a las posiciones de metilación significativas en nuestro análisis de mediación también fueron replicados en un estudio animal con ratones. Las funciones biológicas de estos genes, ampliamente relacionadas con la enfermedad cardiovascular, proporcionan evidencia de la robustez de los resultados. Resumen del objetivo 2. El segundo objetivo de la tesis se centra en la extensión del algoritmo multimediate, que realiza análisis de mediación múltiple para mediadores correlacionados, a datos de supervivencia. El doctor Allan Jerolon desarrolló este algoritmo para variables respuesta continuas y binarias. Utilizando los modelos aditivos de Lin-Ying, hemos extendido los resultados teóricos para la identificación de efectos mediados, así como el propio algoritmo, al contexto de supervivencia. Asimismo, hemos adaptado el algoritmo multimediate para la incorporación de potenciales interacciones entre la exposición y el mediador. Este algoritmo está disponible en el siguiente repositorio de Github: https://github.com/AllanJe/multimediate. En este segundo objetivo, también se incluyen dos aplicaciones a datos de este algoritmo. La primera es un estudio de simulación en el que se muestra la superioridad del algoritmo multimediate con respecto a la mediación simple, incluso en el caso de mediadores no correlacionados. La segunda aplicación es un estudio epidemiológico en el que estudiamos el potencial papel intermedio de la metilación del ADN en la asociación entre el tabaco y los cánceres relacionados con el tabaco usando datos del SHS. Utilizamos el algoritmo ISIS pareado con elastic-net para seleccionar posiciones de metilación asociadas con cáncer, y posteriormente aplicamos el algoritmo multimediate para evaluar varias posiciones de metilación como potenciales mediadores conjuntos en la asociaci´on entre el tabaco y el cáncer. El algoritmo multimediate detectó un efecto mediado conjunto del 81.3 % atribuible a tres posiciones de metilacion para el cáncer de pulmón, y del 64.4 % atribuible a cuatro posiciones de metilación para una variable respuesta combinada de todos los cánceres asociados con el tabaco de los que disponíamos datos (pulmón, esófago-estómago, colorrectal, hígado, páncreas y riñón). Asimismo, los resultados del análisis de mediación fueron ampliamente replicados en una población independiente (Framingham Heart Study), en la que también llevamos a cabo validación funcional con datos de expresión génica. En general, encontramos una asociación inversa entre metilación del ADN y expresión génica en las posiciones de metilación identificadas en nuestro análisis de mediación. Además de estos dos objetivos principales, esta tesis presenta un breve apartado relacionado con la expresión génica, el proceso directamente influenciado por la metilación del ADN. Incluso obteniendo efectos mediados significativos de la metilación del ADN en la asociación entre exposiciones ambientales y enfermedades crónicas, desconocemos si este efecto es causal o no, debido, entre otras razones, a que podrían existir confusores no medidos. Así pues, estudiar los procesos que son influenciados por la metilación del ADN podría contribuir a evaluar su papel en las enfermedades crónicas. La expresión génica medida en forma de secuenciación de células individuales (scRNAseq) se sitúa a la vanguardia de la investigación de los datos ómicos, debido a su capacidad para capturar y evaluar la heterogeneidad celular. Sin embargo, estos datos presentan retos estadisticos para su análisis debido a las grandes proporciones de ceros que se obtienen en las mediciones de la expresión génica para cada gen y célula. Además de evaluar diferencias en medias de expresión entre grupos, las diferencias en variabilidad de expresión han demostrado ser biológicamente relevantes. Varios métodos han sido desarrollados para la identificación de variabilidad diferencial en datos ómicos, aunque no para datos de scRNAseq. En esta tesis hemos evaluado, usando datos simulados, cómo influye la presencia de ceros en los métodos estadísticos utilizados para la identificación de genes diferencialmente variables en datos de scRNAseq. Hemos concluido que la presencia de altas proporciones de ceros da lugar a varianzas y p-valores inflados, así como a subidas en las tasas de descubrimientos falsos. El algoritmo distinct, que utiliza tests de permutaciones para identificar diferencias en distribuciones entre grupos, es el que mejores resultados presenta en cuanto a equilibrio entre tasa de verdaderos descubrimientos y de falsos descubrimientos. En resumen, esta tesis ha contribuido al área científica de los datos ómicos, tanto mediante el desarrollo métodos estadísticos innovadores para el análisis de datos de metilación del ADN, como realizando contribuciones a la evidencia epidemiológica relacionada con metilación del ADN en asociación con exposiciones ambientales y enfermedades crónicas. es_ES
dc.format.extent 261 p. es_ES
dc.language.iso en_US es_ES
dc.subject DNA methylation es_ES
dc.subject survival analysis es_ES
dc.subject causal inference es_ES
dc.subject omics data es_ES
dc.title The role of blood DNA methylation in environment-related chronic disease: a biostatistical toolkit es_ES
dc.type doctoral thesis es_ES
dc.subject.unesco UNESCO::CIENCIAS MÉDICAS es_ES
dc.subject.unesco UNESCO::MATEMÁTICAS es_ES
dc.embargo.terms 0 days es_ES
dc.rights.accessRights open access es_ES

Visualització       (15.58Mb)

Aquest element apareix en la col·lecció o col·leccions següent(s)

Mostra el registre parcial de l'element

Cerca a RODERIC

Cerca avançada

Visualitza

Estadístiques