NAGIOS: RODERIC FUNCIONANDO

Development of new bioinformatic tools to improve mass spectrometry-based analysis of the lipidome

Repositori DSpace/Manakin

IMPORTANT: Aquest repositori està en una versió antiga des del 3/12/2023. La nova instal.lació está en https://roderic.uv.es/

Development of new bioinformatic tools to improve mass spectrometry-based analysis of the lipidome

dc.contributor.advisor	Lahoz Rodríguez, Agustín
dc.contributor.author	Alcoriza Balaguer, María Isabel
dc.contributor.other	Departament de Bioquímica i Biologia Molecular	es_ES
dc.date.accessioned	2023-11-10T08:59:57Z
dc.date.available	2023-11-11T05:45:07Z
dc.date.issued	2023	es_ES
dc.date.submitted	03-11-2023	es_ES
dc.identifier.uri	https://hdl.handle.net/10550/91040
dc.description.abstract	El desarrollo de la bioinformática y de las tecnologías analíticas han permitido la irrupción de las aproximaciones ómicas en la ciencia. Estas plataformas de perfilado molecular masivo tienen como objetivo la determinación del conjunto de biomoléculas (genes, proteínas, metabolitos, etc.) que forman parte de un sistema biológico. Entre ellas, la metabolómica pretende caracterizar el conjunto de metabolitos, moléculas de bajo peso molecular que actúan como precursores, intermediarios o productos finales del metabolismo. Los niveles de los metabolitos vienen determinados por todos aquellos procesos bioquímicos encargados de su producción, consumo y eliminación y, por tanto, son un reflejo directo del estado fisiológico del sistema biológico en estudio. La gran diversidad de propiedades físico-químicas de los metabolitos, que determinan en gran medida que técnicas analíticas deben utilizarse para su caracterización, han favorecido la aparición de subdisciplinas dentro de la metabolómica centradas en el análisis de un grupo concreto de metabolitos con características compartidas. Los lípidos son un subgrupo numeroso y heterogéneo de metabolitos que se caracterizan por su naturaleza hidrofóbica o anfifílica y que tienen una gran importancia biológica como intermediarios o productos de rutas de señalización, componentes estructurales de las membranas celulares y fuentes de energía. El análisis holístico de estos lípidos ha supuesto que la lipidómica se establezca como una subdisciplina de la metabolómica con entidad y características propias. El metabolismo de los lípidos juega un papel central en los sistemas biológicos y su estudio puede contribuir a la comprensión de los mecanismos que subyacen a diferentes condiciones patológicas. En los últimos años se han identificado alteraciones en los perfiles lipídicos generales y en especies lipídicas particulares en enfermedades de alta prevalencia como el cáncer, el hígado graso no alcohólico, la diabetes, las cardiopatías y las enfermedades neurológicas. Actualmente, existe un gran interés en conocer el papel que juegan los lípidos no solo en la fisiopatología de diversas enfermedades, sino también para determinar si éstos podrían constituir nuevos biomarcadores de diagnóstico, pronóstico o de respuesta a un tratamiento. Sin embargo, la mayoría de los biomarcadores lipídicos propuestos no están validados o no son útiles como biomarcadores clínicos debido a la falta de especificidad o sensibilidad de estas moléculas. Además, la interpretación biológica de las alteraciones del metabolismo de los lípidos es limitada porque aún se desconocen las funciones específicas de la mayoría de las especies de lípidos. En la mayoría de los casos, solo se utilizan los niveles globales de las clases de lípidos y los ácidos grasos libres totales para la interpretación de los resultados, pasando por alto la composición de las cadenas de ácidos grasos de los lípidos complejos. Por lo tanto, aún se requieren avances en métodos analíticos y herramientas bioinformáticas que mejoren el análisis del lipidoma para comprender completamente el metabolismo de los lípidos y sus implicaciones en cada enfermedad. Actualmente, la espectrometría de masas acoplada a cromatografía líquida (LC-MS) es la técnica analítica más empleada para el análisis del metaboloma y del lipidoma. En LC-MS, los metabolitos se separan en primer lugar por cromatografía líquida para, a continuación, ser ionizados y detectados por espectrometría de masas. El resultado final es un conjunto de datos crudos caracterizados por tres variables, tiempo de retención (RT), relación masa-carga (m/z) e intensidad que deben ser procesados para extraer las señales asociadas a los diferentes metabolitos presentes en las muestras. En función del objetivo de un análisis metabolómico llevado a cabo por LC-MS, se distinguen dos tipos de aproximaciones: metabolómica dirigida o targeted, cuyo objetivo es la cuantificación de un conjunto metabolitos bien caracterizados, y la metabolómica no dirigida o untargeted, cuyo objetivo consiste en conseguir la mayor cobertura posible del metaboloma. Las aproximaciones targeted se realizan con espectrómetros de masas de baja resolución, como puede ser un triple cuadrupolo (TQ, por sus siglas en inglés) y para cada metabolito de interés se deben definir a priori las características a emplear en su detección, esto es su ion molecular (precursores o parent ions) y los fragmentos característicos que se generan tras la fragmentación de los mismos en la celda de colisión (fragmentos o daughter ions). Estos equipos suelen trabajar en modo multiple reaction monitoring (MRM) en el que múltiples metabolitos de interés se detectan en base a las características mencionadas. En las aproximaciones no dirigidas, al no disponer de un conjunto predefinido de metabolitos de interés, los datos deben ser procesados con el objetivo de extraer las señales de la mayor cantidad posible metabolitos que, a priori, son desconocidos. La identificación de los metabolitos se realiza tanto en base a la masa exacta del ion molecular detectado como en base a su estructura, dilucidada gracias a la fragmentación del ion molecular. Por tanto, el análisis untargeted se suele realizar con equipos de alta resolución de masa que además posean la capacidad de fragmentar los iones generados. En la mayoría de los casos los equipos disponen de un cuadrupolo que permite filtrar los iones de interés de forma previa a su fragmentación en la celda de colisión y posterior análisis. En función de si existe o no un filtrado previo de los iones en el cuadrupolo antes de ser introducidos en la celda de colisión, podemos distinguir entre adquisición dependiente de datos (DDA), en la que se seleccionan un número determinado de iones que son seleccionados en el cuadrupolo y posteriormente fragmentados o adquisición independiente de datos (DIA), en la que todos los iones que coeluyen en un momento determinado son introducidos en la celda de colisión. En el caso de los datos adquiridos en DDA existe una conexión directa entre los fragmentos generados y el precursor, mientas que en el caso de DIA se deben utilizar técnicas de análisis de datos para poder establecer la conexión/correlación entre los precursores y sus correspondientes fragmentos. Los equipos más habituales para el análisis metabolómico untargeted son el cuadrupolo-tiempo de vuelo (Q-TOF, por sus siglas en inglés) y el cuadrupolo-orbitrap. A pesar del gran interés que ha despertado la lipidómica en los últimos años, la gran heterogeneidad, el tamaño del lipidoma y la falta de estándares comerciales dificultan la correcta identificación de los lípidos detectados mediante un análisis por LC-MS no dirigido, lo que sigue suponiendo el principal cuello de botella en el avance del estudio del lipidoma. Además, como ya se ha mencionado, la interpretación biológica de los resultados es limitada debido a que las funciones específicas de la mayoría de las especies de lípidos son aún desconocidas. Por este motivo, el objetivo general planteado en esta tesis fue el desarrollo de nuevos métodos y herramientas bioinformáticas que faciliten la caracterización del lipidoma y el estudio del metabolismo de lípidos, particularmente ácidos grasos. Para ello se propusieron dos objetivos principales: 1) Desarrollo de una herramienta que mejore la anotación de lípidos en los análisis por LC-MS no dirigidos. Esta herramienta debe cubrir todos los pasos necesarios para el procesamiento de los datos e implementar la anotación de lípidos basada en reglas de fragmentación para datos DDA y DIA. 2) Desarrollo de un método que permita el estudio del conjunto de reacciones implicadas en la biosíntesis de ácidos grasos basado en el uso combinado de LC-MS y trazadores de 13C. Esta tesis se divide en dos capítulos en los que se explican con detalle cada una de las dos herramientas desarrolladas a lo largo de esta tesis, LipidMS (Capítulo 1), un paquete de R para el procesamiento de datos de LC-MS no dirigida y la anotación de lípidos, y FAMetA (Capítulo 2), una herramienta basada en distribuciones de isotopólogos para el análisis exhaustivo del metabolismo de los ácidos grasos, ambas con el objetivo de mejorar el análisis del lipidoma basado en espectrometría de masas. Por un lado, LipidMS fue desarrollado con el objetivo específico de mejorar la identificación de lípidos en LC-MS mediante el uso de reglas de fragmentación. Como ya se ha mencionado, el tamaño, la complejidad y la heterogeneidad del lipidoma junto con la falta de estándares lipídicos disponibles, hacen de la anotación de lípidos uno de los pasos más limitantes y costosos del procesamiento de datos en los estudios lipidómicos por LC-MS. La identificación precisa de cualquier metabolito en LC-MS, requiere la comprobación del RT, m/z y espectro MS/MS con un estándar disponible comercialmente. En el caso de los lípidos, debido a la enorme variedad de especies lipídicas y al reducido número de estándares disponibles, esta estrategia no puede aplicarse en la mayoría de los casos. En este sentido, la definición de patrones de fragmentación para diferentes clases de lípidos ha permitido la construcción in silico de librerías de espectros MS/MS que se utilizan para la anotación de lípidos mediante el uso de algoritmos de spectral matching. Sin embargo, esta estrategia presenta algunas limitaciones. En primer lugar, un único valor de m/z para un precursor no es suficiente para identificar el ion molecular debido a la gran cantidad de solapamientos entre especies isoméricas e isobáricas, por lo que una correcta anotación de isótopos y aductos es de suma importancia en lipidómica no dirigida. Además, aunque la información del MS/MS puede ayudar a distinguir algunos de estos solapamientos, no es suficiente en muchos casos en los que se obtienen fragmentos comunes entre diferentes clases de lípidos o entre diferentes especies de una misma clase. Por otra parte, si el espectro MS/MS contiene un número reducido de fragmentos con intensidades elevadas, los cálculos de similitud entre espectros pueden estar sesgados dando lugar a resultados iguales o muy similares para diferentes especies isobáricas e isoméricas. Esto es muy frecuente en los lípidos, donde los fragmentos específicos de clase, que sólo informan sobre la subclase de un lípido (por ejemplo, los fragmentos de la cabeza polar), o los fragmentos correspondientes a las cadenas de ácidos grasos que sólo informan sobre la composición de las cadenas, pero no sobre la clase o subclase de la especie lipídica de interés, son comunes a un gran número de especies. Por otro lado, cuando los compuestos isobáricos o isoméricos coeluyen durante la separación cromatográfica, lo que también es común debido a la naturaleza estructural de los lípidos a modo de bloques, se obtienen espectros MS/MS complejos tanto para los datos adquiridos en DDA como en DIA, lo que dificulta las anotaciones de lípidos. Como alternativa, la identificación de lípidos basada en reglas de fragmentación y en la presencia o ausencia de los fragmentos esperados para cada clase de lípido se ha implementado en un número reducido de herramientas bioinformáticas. En el momento en que comenzó esta tesis doctoral, solo unas pocas herramientas como LDA o LipidMatch, estaban basados en reglas de fragmentación, y la mayoría, únicamente trabajaban con datos adquiridos en DDA. Por otro lado, MS-DIAL permitía trabajar con datos adquiridos en DIA, pero la anotación de lípidos estaba basada en spectral matching. En versiones posteriores MS-DIAL incorporó la anotación basada en reglas de fragmentación a través de LipidMatch. En este contexto, LipidMS fue diseñado inicialmente con el objetivo de anotar lípidos en muestras individuales utilizando datos adquiridos en DIA y anotaciones basadas en reglas de fragmentación, aunque más tarde fue ampliado a DDA, ya que es el modo de adquisición más comúnmente utilizado. Por otro lado, LipidMS dependía inicialmente del uso de herramientas externas de procesamiento para analizar secuencias de múltiples muestras. Para superar esta limitación, las nuevas versiones del paquete han incorporado las funcionalidades necesarias para cubrir todo el flujo de trabajo en el procesamiento de los datos: extracción de picos, alineación, agrupación e integración de picos. Una vez generada la matriz con todas las señales detectadas en el dataset, LipidMS inicia la identificación de lípidos en aquellas muestras adquiridas en DIA o DDA utilizando la información tanto de MS1 como de MS2. Con respecto a otras herramientas disponibles, LipidMS incorpora dos estrategias que ayudan a maximizar el número de asignaciones correctas y a minimizar las incorrectas. Por un lado, el conjunto de reglas de fragmentación ha sido definido experimentalmente de tal forma que prioriza el uso de fragmentos específicos de clase bien caracterizados en lugar de fragmentos más intensos, pero menos específicos, como son las cadenas de ácidos grasos (que pueden ser comunes a gran cantidad de clases de lípidos). Por otro lado, los lípidos suelen ionizar en forma de múltiples aductos (p.ej. [M+H]+, [M+Na]+ y [M+NH4]+, en el caso de ESI+). En muchas ocasiones los aductos de una especie lipídica concreta pueden ser confundidos con otra especie, por tanto, una correcta asignación de todos los aductos detectados para un lípido concreto de forma previa al análisis de los fragmentos generados contribuye a dar mayor robustez a las identificaciones generadas y a minimizar el número de anotaciones incorrectas. La última versión de LipidMS incluye las reglas de fragmentación predefinidas para 28 clases de lípidos y permite customizar tanto las reglas de fragmentación como los building blocks utilizados para generar las librerías necesarias para la identificación. En función de los fragmentos encontrados, cada especie identificada puede anotarse con diferentes niveles de elucidación estructural: a nivel de clase, cuando solo se han encontrado fragmentos característicos de la clase o subclase de lípido, lo que confirma el tipo de lípido y la composición total de carbonos y dobles enlaces pero no la composición de las cadenas; a nivel de composición de las cadenas de ácidos grasos, cuando además de los fragmentos de clase se han encontrado fragmentos específicos de estas cadenas; y a nivel de posición de las mismas, cuando las intensidades relativas de los fragmentos correspondientes a las cadenas permiten dilucidar la posición de cada uno de las ácidos grasos dentro de la estructura del lípido complejo. LipidMS fue evaluado mediante el análisis de un suero humano comercial aditivado y no aditivado con un total de 68 estándares lipídicos y comparado con dos de los softwares más comúnmente empleados en el procesamiento de datos de metabolómica y lipidómica no dirigida: XCMS y MS-DIAL. En primer lugar, la comparación con XCMS demuestra que los algoritmos de procesamiento implementados en la última versión de LipidMS funcionan correctamente ya que los resultados obtenidos con ambos softwares son similares. Por otro lado, la comparación con MS-DIAL demuestra que LipidMS reduce el número de identificaciones incorrectas y mejora el nivel de elucidación estructural de las especies identificadas pese a que MS-DIAL es capaz de anotar un número mucho mayor de especies, por lo que LipidMS y MS-DIAL podrían utilizarse de manera complementaria. También es importante subrayar que LipidMS soporta el procesamiento simultáneo de las siguientes combinaciones de modos de adquisición MS: todas las muestras adquiridas en DIA; todas las muestras adquiridas en DDA; combinación de muestras DIA y DDA; combinación de full scan y DIA; combinación de full scan y DDA; y combinación de full scan, DDA y DIA, lo que permite integrar con mayor facilidad y de manera automática los resultados de las anotaciones obtenidas en DIA y DDA con el resto de los datos. Futuras mejoras de LipidMS deberían incluir la ampliación de las clases de lípidos y de las cadenas de ácidos grasos y bases esfingoides utilizadas para ofrecer una mejor cobertura del lipidoma, la estandarización de LipidMS para hacerlo compatible con otros paquetes de R, o la posibilidad de analizar datos de lípidos marcados con trazadores isotópicos. Por otro lado, FAMetA surgió como respuesta al segundo objetivo de esta tesis, que consistía en desarrollar una herramienta que facilite el estudio del metabolismo de los ácidos grasos. El uso de trazadores de 13C y detección basada en MS es el método de referencia para el análisis del metabolismo de los ácidos grasos. Este método se basa en la incorporación sucesiva de unidades de dos carbonos marcadas con el isótopo estable del carbono 13C, a través del acetil-CoA, hacia los ácidos grasos durante las reacciones de síntesis y elongación y el posterior análisis de las distribuciones de isotopólogos obtenidas (especies de una misma molécula que difieren únicamente en su masa como consecuencia de la incorporación de 13C en lugar del 12C, que es la especie mayoritaria de forma natural). Gracias a la diferencia de masa entre las especies preexistentes o las sintetizadas a través de fuentes no marcadas con respecto a las generadas a partir de la fuente que contiene 13C, se puede realizar un análisis del metabolismo basado en la distribución de isotopólogos. A pesar de que se han desarrollado varios algoritmos y herramientas para extraer información sobre el metabolismo de los ácidos grasos mediante la modelización de estas distribuciones de isotopólogos, estas siguen proporcionando una información limitada y difícil de interpretar. La mayoría de estos métodos únicamente proporcionan información sobre la lipogénesis de novo para los ácidos grasos de hasta 16 o 18 carbonos o no reflejan los pasos biológicos reales de los procesos de elongación. Además, la desaturación no se tiene en cuenta para la red completa de ácidos grasos. Con el fin de superar estas limitaciones, desarrollamos FAMetA, una herramienta que utiliza las distribuciones de isotopólogos de los ácidos grasos obtenidas por la incorporación de acetil-CoA marcado con 13C para estimar cada uno de los pasos de la mayoría de las reacciones biosintéticas implicadas en el metabolismo de los ácidos grasos: lipogénesis de novo (S), elongación (E), desaturación (Δ) e importación (I). Además, FAMetA permite estimar la contribución relativa del trazador empleado al pool de acetil-CoA (D0, D1 y D2, haciendo referencia a si contiene 0, 1 o 2 átomos de carbono 13 respectivamente). Tradicionalmente, la síntesis de novo para ácidos grasos de hasta 16 carbonos se ha modelizado utilizando distribuciones multinomiales que permiten la estimación de los parámetros I, S y D0, D1, D2. Sin embargo, en FAMetA utilizamos distribuciones quasi-multinomiales capaces de modelizar y cuantificar la sobredispersión (mediante el parámetro Φ) que habitualmente se observa en las distribuciones obtenidas experimentalmente. Para los ácidos grasos de más de 16 carbonos, además de los parámetros S e I, también se estiman hasta cinco términos de elongación (En, haciendo referencia n=1 al primer paso de elongación para ácidos grasos de 18 carbonos y n=5 el último paso para ácidos grasos de 26 carbonos) que representan cada uno de los pasos de elongación individuales de un precursor con X átomos de carbonos, a un producto de longitud X+2. En comparación con herramientas anteriores, la forma en que FAMetA calcula las elongaciones, refleja mejor cómo se elongan los ácidos grasos dentro de las células, lo que permite una interpretación biológica directa de los parámetros de elongación estimados. Además, FAMetA incorpora la estimación indirecta de la desaturación para la red metabólica de los ácidos grasos mediante una estrategia que utiliza los parámetros de síntesis estimados para el precursor y el producto de la reacción de desaturación en lugar del marcaje total. Por último, el flujo de trabajo de FAMetA incluye todas las funciones necesarias para el procesamiento de datos, las comparaciones por grupos y los resultados gráficos, lo que facilita la interpretación de los resultados. Para testar la validez de los algoritmos implementados en FAMetA, en primer lugar, se simuló un conjunto de distribuciones de isotopólogos a partir de valores conocidos de los diferentes parámetros calculados por FAMetA, y se comprobó que FAMetA es capaz de determinar con precisión el conjunto completo de parámetros de la síntesis de ácidos grasos (error relativo < 15%, RSD < 15% para todos los parámetros) siempre que la contribución relativa del trazador (D2) y los parámetros a calcular para un determinado ácido graso, es decir, S, E1, E2, E3 y E4, se encuentren dentro del intervalo 0.05-0.9, lo que garantiza su aplicabilidad en un escenario biológico real. A continuación, FAMetA fue evaluado en diferentes escenarios biológicos tanto in vivo como in vitro, con y sin la presencia de inhibidores conocidos de reacciones específicas del metabolismo de los ácidos grasos, comprobando que FAMetA permite determinar los parámetros asociados a estas reacciones la red metabólica completa y, además, en un escenario de uso de inhibidores, FAMetA es capaz de detectar los cambios específicos inducidos en el metabolismo. Además, comparado con FASA, la única herramienta que hasta el momento incluía el análisis de ácidos grasos elongados más allá de 18 carbonos, FAMetA proporciona una caracterización más completa de la red biosintética de los ácidos grasos, una descripción mejor y más intuitiva de cada uno de los parámetros de síntesis y un flujo de trabajo más completo que va desde el procesamiento de datos hasta las comparaciones basadas en grupos y la representación gráfica. Por último, el uso de inhibidores específicos combinado con el análisis de FAMetA, nos ha permitido estudiar en profundidad la red metabólica de biosíntesis de ácidos grasos en células A549, identificando 33 ácidos grasos a priori desconocidos, 11 de los cuales pudieron ser confirmados con estándares comerciales. Además, 12 de ellos no han sido previamente descritos en mamíferos, aunque pertenecen a series n/omega ya descritas. Fututas versiones de FAMetA deberían incorporar el análisis de otro tipo de trazadores a parte de los de 13C, permitir el uso de ácidos grasos marcados como trazadores, ampliar la red de reacciones para incluir los ácidos grasos de cadena impar y abordar la degradación. En resumen, en comparación con herramientas anteriores, FAMetA ofrece: i) la caracterización de una red biosintética de ácidos grasos más amplia ya que incluye en una única herramienta el análisis de síntesis de novo, elongación y desaturación; ii) la posibilidad de ejecutar los pasos necesarios desde el procesamiento de datos hasta el análisis del metabolismo de los ácidos grasos y la representación gráfica en una única herramienta; iii) un entorno de fácil manejo gracias a su implementación como un paquete de R y una versión web con interfaz gráfica; iv) mejor ajuste a los datos experimentales gracias a la implementación de un ajuste quasi-multinomial que incluye el parámetro Φ para tener en cuenta la sobredispersión de los datos; v) mejor modelado de las reacciones de elongación, lo que permite una interpretación más sencilla de los parámetros estimados; y vi) parámetros y representaciones gráficas fáciles de interpretar que permiten obtener conclusiones biológicas significativas.	es_ES
dc.format.extent	294 p.	es_ES
dc.language.iso	en	es_ES
dc.subject	bioinformatics	es_ES
dc.subject	lipidomics	es_ES
dc.subject	mass spetrometry	es_ES
dc.title	Development of new bioinformatic tools to improve mass spectrometry-based analysis of the lipidome	es_ES
dc.type	doctoral thesis	es_ES
dc.subject.unesco	UNESCO::CIENCIAS MÉDICAS	es_ES
dc.subject.unesco	UNESCO::CIENCIAS DE LA VIDA::Bioquímica	es_ES
dc.description.abstractenglish	The development of bioinformatics and analytical technologies has led to the emergence of omics approaches. These profiling platforms aim to determine the set of biomolecules (genes, proteins, metabolites, etc.) that are part of a biological system. Among them, metabolomics aims to characterize the set of metabolites, low molecular weight molecules that act as precursors, intermediates or end products of metabolism. The levels of metabolites are determined by all the biochemical processes responsible for their production, consumption and elimination and are therefore a direct reflection of the physiological state of the biological system under study. The great diversity of physicochemical properties of metabolites, which largely determine which analytical techniques should be used for their characterization, has favored the emergence of subdisciplines within metabolomics focused on the analysis of a specific group of metabolites with shared characteristics. Lipids are a numerous and heterogeneous subgroup of metabolites that are characterized by their hydrophobic or amphiphilic nature and are of great biological importance as intermediates or products of signaling pathways, structural components of cell membranes and sources of energy. The holistic analysis of these lipids has led to the establishment of lipidomics as a subdiscipline of metabolomics with its own entity and characteristics. Lipid metabolism plays a central role in biological systems and its study can contribute to the understanding of the mechanisms underlying different pathological conditions. In recent years, alterations in general lipid profiles and in particular lipid species have been identified in highly prevalent diseases such as cancer, non-alcoholic fatty liver disease, diabetes, heart disease and neurological diseases. Currently, there is great interest in understanding the role of lipids not only in the pathophysiology of various diseases, but also to determine whether they could constitute new biomarkers for diagnosis, prognosis or response to treatment. However, most of the proposed lipid biomarkers are not validated or are not useful as clinical biomarkers due to the lack of specificity or sensitivity of these molecules. In addition, the biological interpretation of alterations in lipid metabolism is limited because the specific functions of most lipid species are still unknown. In most cases, only the overall levels of lipid classes and total free fatty acids are used for interpretation of the results, overlooking the fatty acid chain composition of complex lipids. Therefore, advances in analytical methods and bioinformatics tools that improve lipidome analysis are still required to fully understand lipid metabolism and its implications in each disease. Currently, liquid chromatography coupled mass spectrometry (LC-MS) is the most widely used analytical technique for metabolome and lipidome analysis. In LC-MS, metabolites are first separated by liquid chromatography and then ionized and detected by mass spectrometry. The final result is a set of raw data characterized by three variables, retention time (RT), mass-to-charge ratio (m/z) and intensity, which must be processed to extract the signals associated with the different metabolites present in the samples. Depending on the objective of a metabolomic analysis carried out by LC-MS, two types of approaches can be distinguished: targeted metabolomics, whose objective is the quantification of a set of well-characterized metabolites, and untargeted metabolomics, whose objective is to achieve the widest possible coverage of the metabolome. The targeted approaches are carried out with low resolution mass spectrometers, such as a triple quadrupole (TQ), and for each metabolite of interest the characteristics to be used in its detection must be defined a priori, i.e. its molecular ion (precursors or parent ions) and the characteristic fragments generated after their fragmentation in the collision cell (fragments or daughter ions). These devices usually work in multiple reaction monitoring (MRM) mode in which multiple metabolites of interest are detected based on the aforementioned characteristics. In non-directed approaches, in the absence of a predefined set of metabolites of interest, the data must be processed with the aim of extracting signals from as many a priori unknown metabolites as possible. Metabolite identification is performed both on the basis of the exact mass of the detected molecular ion and on the basis of its structure, elucidated by molecular ion fragmentation. Therefore, untargeted analysis is usually performed with high mass resolution equipment that also possesses the ability to fragment the generated ions. In most cases the equipment has a quadrupole that allows the ions of interest to be filtered prior to their fragmentation in the collision cell and subsequent analysis. Depending on whether or not there is prior filtering of the ions in the quadrupole before they are introduced into the collision cell, we can distinguish between data dependent acquisition (DDA), in which a certain number of ions are selected and subsequently fragmented in the quadrupole, or data independent acquisition (DIA), in which all the ions that coelute at a given time are introduced into the collision cell. In the case of data acquired in DDA there is a direct connection between the generated fragments and the precursor, whereas in the case of DIA data analysis techniques must be used in order to establish the connection/correlation between the precursors and their corresponding fragments. The most common devices for untargeted metabolomic analysis are the quadrupole-time-of-flight (Q-TOF) and the quadrupole-orbitrap. Despite the great interest in lipidomics in recent years, the great heterogeneity, the size of the lipidome and the lack of commercial standards make it difficult to correctly identify the lipids detected by untargeted LC-MS analysis, which remains the main bottleneck in the advancement of the study of lipidomics. Moreover, as already mentioned, the biological interpretation of the results is limited because the specific functions of most lipid species are still unknown. For this reason, the general objective proposed in this thesis was the development of new methods and bioinformatics tools to facilitate the characterization of the lipidome and the study of lipid metabolism, particularly fatty acids. To this end, two main objectives were proposed: 1) Development of a tool to improve lipid annotation in untargeted LC-MS analysis. This tool should cover all the necessary steps for data processing and implement lipid annotation based on fragmentation rules for DDA and DIA data. 2) Development of a method that allows the study of the set of reactions involved in fatty acid biosynthesis based on the combined use of LC-MS and 13C tracers. This thesis is divided into two chapters in which each of the two tools developed throughout this thesis, LipidMS (Chapter 1), an R package for untargeted LC-MS data processing and lipid annotation, and FAMetA (Chapter 2), a tool based on isotopologue distributions for the comprehensive analysis of fatty acid metabolism, both aiming to improve mass spectrometry-based lipidome analysis, are explained in detail. On the one hand, LipidMS was developed with the specific aim of improving lipid identification in LC-MS by using fragmentation rules. As already mentioned, the size, complexity and heterogeneity of the lipidome together with the lack of available lipid standards make lipid annotation one of the most limiting and costly steps of data processing in lipidomic studies by LC-MS. Accurate identification of any metabolite in LC-MS, requires checking the RT, m/z and MS/MS spectra with a commercially available standard. In the case of lipids, due to the enormous variety of lipid species and the small number of available standards, this strategy cannot be applied in most cases. In this sense, the definition of fragmentation patterns for different lipid classes has allowed the in silico construction of MS/MS spectra libraries that are used for lipid annotation by using spectral matching algorithms. However, this strategy has some limitations. First, a single m/z value for a precursor is not sufficient to identify the molecular ion due to the large number of overlaps between isomeric and isobaric species, so a correct annotation of isotopes and adducts is of utmost importance in non-directed lipidomics. Moreover, although MS/MS information can help to distinguish some of these overlaps, it is not sufficient in many cases where common fragments are obtained between different lipid classes or between different species of the same class. On the other hand, if the MS/MS spectrum contains a small number of fragments with high intensities, the similarity calculations between spectra may be biased resulting in the same or very similar results for different isobaric and isomeric species. This is very common in lipids, where class-specific fragments, which only report the subclass of a lipid (e.g. polar head fragments), or fragments corresponding to fatty acid chains that only report the chain composition, but not the class or subclass of the lipid species of interest, are common to a large number of species. On the other hand, when isobaric or isomeric compounds co-elute during chromatographic separation, which is also common due to the block-like structural nature of lipids, complex MS/MS spectra are obtained for both DDA- and DIA-acquired data, making lipid annotations difficult. As an alternative, lipid identification based on fragmentation rules and the presence or absence of the expected fragments for each lipid class has been implemented in a small number of bioinformatics tools. At the time this PhD thesis started, only a few tools, such as LDA or LipidMatch, were based on fragmentation rules, and most of them only worked with data acquired in DDA. On the other hand, MS-DIAL allowed working with data acquired in DIA, but lipid annotation was based on spectral matching. In later versions MS-DIAL incorporated annotation based on fragmentation rules through LipidMatch. In this context, LipidMS was initially designed with the aim of annotating lipids in individual samples using data acquired in DIA and fragmentation rule-based annotations, although it was later extended to DDA, as it is the most commonly used acquisition mode. On the other hand, LipidMS initially relied on the use of external processing tools to analyze sequences from multiple samples. To overcome this limitation, the new versions of the package have incorporated the necessary functionalities to cover the entire data processing workflow: peak extraction, alignment, clustering and peak integration. Once the matrix is generated with all the signals detected in the dataset, LipidMS starts the lipid identification in those samples acquired in DIA or DDA using the information from both MS1 and MS2. With respect to other available tools, LipidMS incorporates two strategies that help maximize the number of correct assignments and minimize incorrect ones. On the one hand, the set of fragmentation rules has been experimentally defined in such a way that it prioritizes the use of well-characterized class-specific fragments rather than more intense, but less specific, fragments such as fatty acid chains (which can be common to a large number of lipid classes). On the other hand, lipids often ionize in the form of multiple adducts (e.g. [M+H]+, [M+Na]+ and [M+NH4]+, in the case of ESI+). On many occasions the adducts of a particular lipid species can be confused with another species, therefore, a correct assignment of all detected adducts for a particular lipid prior to the analysis of the generated fragments helps to give more robustness to the generated identifications and to minimize the number of incorrect annotations. The latest version of LipidMS includes predefined fragmentation rules for 28 lipid classes and allows customization of both the fragmentation rules and the building blocks used to generate the libraries required for identification. Depending on the fragments found, each identified species can be annotated with different levels of structural elucidation: at the class level, when only fragments characteristic of the lipid class or subclass have been found, confirming the lipid type and total carbon and double bond composition but not the chain composition; at the fatty acid chain composition level, when in addition to the class fragments, fragments specific to these chains have been found; and at the chain position level, when the relative intensities of the fragments corresponding to the chains allow elucidation of the position of each of the fatty acids within the complex lipid structure. LipidMS was evaluated by analyzing an additive and non-additive commercial human serum with a total of 68 lipid standards and compared with two of the most commonly used software packages for metabolomics and non-targeted lipidomics data processing: XCMS and MS-DIAL. First, the comparison with XCMS demonstrates that the processing algorithms implemented in the latest version of LipidMS work correctly since the results obtained with both softwares are similar. On the other hand, the comparison with MS-DIAL shows that LipidMS reduces the number of incorrect identifications and improves the level of structural elucidation of the identified species despite the fact that MS-DIAL is able to annotate a much larger number of species, so LipidMS and MS-DIAL could be used in a complementary way. It is also important to highlight that LipidMS supports simultaneous processing of the following combinations of MS acquisition modes: all samples acquired in DIA; all samples acquired in DDA; combination of DIA and DDA samples; combination of full scan and DIA; combination of full scan and DDA; and combination of full scan, DDA and DIA, which allows easier and automatic integration of the results of annotations obtained in DIA and DDA with the rest of the data. Future improvements of LipidMS should include the extension of lipid classes and fatty acid chains and sphingoid bases used to provide better coverage of the lipidome, the standardization of LipidMS to make it compatible with other R packages, or the possibility to analyze lipid data labeled with isotopic tracers. On the other hand, FAMetA emerged in response to the second objective of this thesis, which was to develop a tool to facilitate the study of fatty acid metabolism. The use of 13C tracers and MS-based detection is the reference method for the analysis of fatty acid metabolism. This method is based on the successive incorporation of two-carbon units labeled with the stable 13C carbon isotope, via acetyl-CoA, into fatty acids during synthesis and elongation reactions and the subsequent analysis of the isotopologue distributions obtained (species of the same molecule differing only in mass as a consequence of the incorporation of 13C instead of 12C, which is the naturally majority species). Thanks to the difference in mass between the pre-existing species or those synthesized through unlabeled sources with respect to those generated from the 13C-containing source, an analysis of metabolism based on isotopologue distribution can be performed. Although several algorithms and tools have been developed to extract information on fatty acid metabolism by modeling these isotopologue distributions, they still provide limited and difficult to interpret information. Most of these methods only provide information on de novo lipogenesis for fatty acids up to 16 or 18 carbons or do not reflect the actual biological steps of elongation processes. Furthermore, desaturation is not taken into account for the complete fatty acid network. In order to overcome these limitations, we developed FAMetA, a tool that uses the fatty acid isotopologue distributions obtained by 13C-labeled acetyl-CoA incorporation to estimate each of the steps of most of the biosynthetic reactions involved in fatty acid metabolism: de novo lipogenesis (S), elongation (E), desaturation (Δ) and import (I). In addition, FAMetA allows estimation of the relative contribution of the tracer used to the acetyl-CoA pool (D0, D1 and D2, referring to whether it contains 0, 1 or 2 carbon 13 atoms respectively). Traditionally, de novo synthesis for fatty acids up to 16 carbons has been modeled using multinomial distributions that allow estimation of the parameters I, S and D0, D1, D2. However, in FAMetA we use quasi-multinomial distributions capable of modeling and quantifying the overdispersion (via the Φ parameter) usually observed in experimentally obtained distributions. For fatty acids longer than 16 carbons, in addition to the S and I parameters, up to five elongation terms (En, referring n=1 to the first elongation step for 18-carbon fatty acids and n=5 the last step for 26-carbon fatty acids) representing each of the individual elongation steps from a precursor with X carbon atoms, to a product of length X+2, are also estimated. Compared to previous tools, the way FAMetA calculates elongations better reflects how fatty acids elongate within cells, allowing a direct biological interpretation of the estimated elongation parameters. In addition, FAMetA incorporates indirect estimation of desaturation for the fatty acid metabolic network by a strategy that uses the estimated synthesis parameters for the precursor and product of the desaturation reaction instead of total labeling. Finally, the FAMetA workflow includes all the necessary functions for data processing, group comparisons and graphical results, which facilitates the interpretation of the results. To test the validity of the algorithms implemented in FAMetA, first, a set of isotopologue distributions was simulated from known values of the different parameters calculated by FAMetA, and it was verified that FAMetA is able to accurately determine the complete set of parameters of fatty acid synthesis (relative error < 15%, RSD < 15% for all parameters) provided that the relative contribution of the tracer (D2) and the parameters to be calculated for a given fatty acid, i.e., S, E1, E2, E3 and E4, are within the range 0. 05-0.9, ensuring its applicability in a real biological scenario. FAMetA was then evaluated in different biological scenarios both in vivo and in vitro, with and without the presence of known inhibitors of specific reactions of fatty acid metabolism, proving that FAMetA allows to determine the parameters associated to these reactions the complete metabolic network and, furthermore, in a scenario of inhibitor use, FAMetA is able to detect the specific changes induced in the metabolism. Moreover, compared to FASA, the only tool that so far included the analysis of elongated fatty acids beyond 18 carbons, FAMetA provides a more complete characterization of the fatty acid biosynthetic network, a better and more intuitive description of each of the synthesis parameters and a more complete workflow ranging from data processing to group-based comparisons and graphical representation. Finally, the use of specific inhibitors combined with FAMetA analysis has allowed us to study in depth the metabolic network of fatty acid biosynthesis in A549 cells, identifying 33 a priori unknown fatty acids, 11 of which could be confirmed with commercial standards. In addition, 12 of them have not been previously described in mammals, although they belong to already described n/omega series. Future versions of FAMetA should incorporate the analysis of other types of tracers besides 13C, allow the use of labeled fatty acids as tracers, extend the reaction network to include odd-chain fatty acids, and address degradation. In summary, compared to previous tools, FAMetA offers: (i) characterization of a broader fatty acid biosynthetic network as it includes in a single tool the analysis of de novo synthesis, elongation and desaturation; (ii) the possibility to execute the necessary steps from data processing to fatty acid metabolism analysis and graphical representation in a single tool; (iii) a user-friendly environment due to its implementation as an R package and a web version with graphical interface; (iv) better fit to experimental data thanks to the implementation of a quasi-multinomial fit that includes the parameter Φ to account for overdispersion of the data; (v) better modeling of elongation reactions, allowing easier interpretation of the estimated parameters; and (vi) easy-to-interpret parameters and graphical representations that allow meaningful biological conclusions to be drawn.	es_ES
dc.embargo.terms	0 days	es_ES
dc.rights.accessRights	open access	es_ES