Mostra el registre complet de l'element
Muñoz Viera, Facundo Martín
López Quílez, Antonio (dir.) Departament d'Estadística i Investigació Operativa |
|
Aquest document és un/a tesi, creat/da en: 2012 | |
The germ of this thesis was a problem in applied engineering, where we believe that statistics as a discipline can make a significant contribution.
Specifically, it was about noise mapping in urban environments. Usually solved with a deterministic approximate approach, the assessment of the uncertainty in the results is extremely poor in most real cases.
This problem, being spatial in nature, can be seen as a geostatistical prediction problem, given a set of field observations. The difficulty is that the phenomenon occurs in an urban environment, which has significant heterogeneity due to buildings, trees and other street furniture. The lack of homogeneity in the region of interest turns the usual geostatistical techniques inapplicable.
This led us to search for alternative and more general geostatistical methods, to contemplate the possibility that the region of interest have a hete...
[Llegir més ...]
[-]
The germ of this thesis was a problem in applied engineering, where we believe that statistics as a discipline can make a significant contribution.
Specifically, it was about noise mapping in urban environments. Usually solved with a deterministic approximate approach, the assessment of the uncertainty in the results is extremely poor in most real cases.
This problem, being spatial in nature, can be seen as a geostatistical prediction problem, given a set of field observations. The difficulty is that the phenomenon occurs in an urban environment, which has significant heterogeneity due to buildings, trees and other street furniture. The lack of homogeneity in the region of interest turns the usual geostatistical techniques inapplicable.
This led us to search for alternative and more general geostatistical methods, to contemplate the possibility that the region of interest have a heterogeneous nature.
An interesting adaptation of the geostatistical methodology consists of replacing the Euclidean distance between locations in the region for a distance measure that takes into account the degree of local irregularity in the region.
This idea is not new. Several authors have implemented various versions thereof. Very often in the context of seas or lakes, with islands, estuaries, etc.. That is, when there are pieces of land acting as obstacles or barriers to the spread of the phenomenon. Thus, it has been defined the "aquatic distance" as the minimum distance a fish would travel from one point to another.
The implementation that we propose in this thesis, however, is original. It is based on the construction of a "cost" surface which measures the local heterogeneity of the region. This type of distances can be derived from it as the length of the minimum cost paths between locations. For this reason we have called it "cost-based distance".
This measure is more general than the aquatic distance. While absolute barriers (eg, islands in the sea) can be represented as infinite cost areas, there are countless intermediate situations that can be modelled through the cost surface. Thus, while in a homogeneous region the cost-based distance reduces to the Euclidean measure, in general this distance measure increases continuously with the degree of heterogeneity.
The approach proved so interesting that we used the problem of noise mapping in urban environments as a proof of concept. We implemented the algorithms to compute the cost_based distance and adapted some classical geostatistical algorithms (for visualization and adjustment of variogram and kriging prediction) to use the cost-based distances. The results were encouraging.
However, a fundamental problem was beyond the practical implementation of the algorithms. The replacement of the Euclidean distance by a different type of distance undermines the theoretical foundations which ensure that the covariance matrix of the observations is positive definite.
In Euclidean space, the "valid" correlation functions (or equivalently, variograms) are completely known in terms of spectral representations. Over the years, several authors have found many families of parametric functions with convenient properties. But these functions lose all validity outside the Euclidean space.
This led us to study the theoretical basis of positive definiteness, with the ultimate goal to find a (at least one) family of valid functions with the cost-based distance. We can only present partial results in this direction and multiple lines of future research.
From a mathematical perspective, the problem can be adequately modelled as a Riemannian manifold with a metric depending on the cost surface. The cost-based distance emerges naturally as the geodesic distance between locations of the manifold.
Moreover, this manifold can be embedded in more structured spaces, with the goal of using known results on positive definite functions. The most interesting embedding would be in a Euclidean space. But we show that this is not possible in general, in any finite or infinite number of dimensions.
What it is possible is to obtain the best approximation to an Euclidean embedding in a given number of dimensions. This is commonly known as Multidimensional Scaling (MDS). However, this approximation produces a smoothing of the irregularities of the region, which are precisely the original motivation of the cost approach.
Although not a satisfactory solution, MDS inspired us to develop another type of embedding, which is the second original contribution of this thesis. Namely, the pseudo-Euclidean representation. It is a generalization of the MDS representation that admits an "exact" representation of a not necessarily Euclidean structure of distances within a vector space equipped with an "indefinite inner product".
This was the line of work we found most promising at the time, and where we invested more time and effort. We analysed in detail the problem of positive definiteness in the pseudo-Euclidean space, and study the spectral representation of some candidate functions.
Another line of work that we unsuccessfully explored was modifying the model to work with a reparametrization of the covariance matrix that ensures positive definiteness. However, after a review of the available literature we concluded that the approach itself was unsuitable since it lacks an underlying model that guarantees positive definiteness for any potentially eligible set of points.
Finally, we investigate the connection between the cost approach and the Markov approximations of Matérn fields introduced by Lindgren et al. (2011).
This latter approach allows to fit a Random Field without an explicit specification of a correlation function (and thus avoiding the positive definiteness issue). Furthermore, it is also possible to work on flat surfaces, or even discontinuous.El germen de la presente tesis consistió en un problema aplicado, de ingeniería, al que pensamos que la Estadística como disciplina puede contribuir de manera significativa.
Concretamente, se trata de la elaboración de mapas acústicos en entornos urbanos. Resuelto habitualmente de una manera determinista y aproximada, la valoración de la incertidumbre de los resultados es extremadamente deficiente en la mayoría de los casos reales.
Este problema, siendo de naturaleza espacial, se puede ver como un problema de predicción geoestadística, a partir de un conjunto de observaciones de campo. La dificultad radica en que el fenómeno se sitúa en un entorno urbano, que posee una importante heterogeneidad producida por los edificios, árboles y demás mobiliario urbano. La falta de homogeneidad en la región de interés hace inaplicables las técnicas geoestadísticas usuales.
Esto nos condujo a buscar metodologías geoestadísticas alternativas, más generales, que contemplaran la posibilidad de que la región de interés tuviera una naturaleza heterogénea.
Una adaptación interesante de la metodología geoestadística consiste en sustituir la distancia Euclídea entre localizaciones de la región por una medida de distancia que tenga en cuenta el grado de irregularidad local de la región.
Esta idea no es nueva. Diversos autores han implementado diferentes versiones de la misma. Muy frecuentemente en el contexto acuático, con islas o estuarios, etcétera. Es decir, cuando existen trozos de tierra que funcionan como obstáculos o barreras para la difusión del fenómeno. Así, han definido la llamada "distancia acuática" como la distancia mínima en la que un pez podría ir de un punto a otro a través del agua.
La implementación que nosotros proponemos en esta Tesis, en cambio, es original. Se basa en la construcción de una superficie "de coste", que mide la heterogeneidad local de la región. A partir de ella se pueden calcular este tipo de distancias como la longitud de las rutas de mínimo coste entre localizaciones. Por este motivo la hemos denominado "distancia basada en el coste".
Esta medida es más general que la distancia acuática. Mientras que las barreras absolutas (e.g., islas en el mar) se pueden representar a través de un coste infinito, hay infinitas situaciones intermedias que se pueden modelar con la superficie de coste. De este modo, en una región homogénea la distancia basada en el coste se reduce a la medida Euclídea, mientras que en general esta medida de distancia aumentaría continuamente en función del nivel de heterogeneidad.
El enfoque resultó tan interesante que utilizamos el problema de la elaboración de mapas acústicos en entornos urbanos como proyecto piloto. Implementamos los algoritmos para el cálculo de la distancia basada en el coste y adaptamos algunos algoritmos de geoestadística clásica ---como la visualización y el ajuste de variogramas y la predicción Kriging--- para utilizar distancias basadas en el coste. Los resultados fueron alentadores.
Sin embargo, un problema fundamental quedaba al margen de la implementación práctica de los algoritmos. Cuando se sustituye la distancia Euclídea por otro tipo de distancias se desmonta el sustento teórico que garantiza que la matriz de covarianzas de las observaciones sea definida positiva.
En el espacio Euclídeo, las funciones de correlación (o equivalentemente, los variogramas) "válidas" son completamente conocidas, en términos de representaciones espectrales. A lo largo de los años, diversos autores han encontrado múltiples familias paramétricas de funciones con distintas propiedades. Pero estas funciones pierden toda validez fuera del espacio Euclídeo.
Esto nos llevó a estudiar los aspectos teóricos de la definición positiva, con el objetivo último de encontrar (al menos) una familia de funciones válidas con la distancia basada en el coste. Sólo podemos presentar resultados parciales en este sentido y múltiples líneas futuras de investigación.
Desde el punto de vista matemático, el problema se puede modelar adecuadamente como una variedad con una métrica Riemanniana que depende directamente de la superficie de coste. La distancia basada en el coste resulta de forma natural como la distancia geodésica entre localizaciones de la variedad.
Por otra parte, esta variedad se puede "sumergir" en otros espacios más estructurados, con el objetivo de utilizar resultados conocidos sobre funciones definidas positivas. Naturalmente, la inmersión más interesante sería en un espacio Euclídeo. Pero demostramos que esto no es posible, en general, en ninguna cantidad, finita o infinita, de dimensiones.
Lo que sí es posible es obtener la mejor aproximación a una inmersión Euclídea en un número dado de dimensiones. Esto se conoce habitualmente como Multidimensional Scaling (MDS). Sin embargo, la aproximación produce un emborronamiento de las irregularidades de la región, que constituyen precisamente la motivación original del enfoque basado en el coste.
Aunque no es una solución satisfactoria, el MDS nos sirvió de inspiración para el desarrollo de otro tipo de inmersión, que constituye el segundo aporte original de esta Tesis. Se trata de la representación pseudo-Euclídea. Es una generalización del MDS que permite una representación "exacta" de una estructura de distancias no necesariamente Euclídea, en un espacio vectorial dotado de un "producto interno indefinido".
Esta fue la línea de trabajo que nos pareció más promisoria en su momento, y en la que invertimos más tiempo y esfuerzos. Analizamos con todo detalle el problema de la definición positiva en el espacio pseudo-Euclídeo, y estudiamos la representación espectral de algunas funciones candidatas.
Otra línea de trabajo explorada pero infructuosa consistió en la modificación del modelo, para trabajar con una reparametrización de la matriz de covarianzas que garantizara la definición positiva. Sin embargo, luego de una revisión de la literatura disponible, llegamos a la conclusión de que el enfoque en sí mismo es inadecuado para este caso, porque carece de un modelo subyacente que garantice la definición positiva para cualquier conjunto de puntos potencialmente elegible.
Por último, investigamos la conexión entre el enfoque basado en el coste y las aproximaciones markovianas de campos Matérn introducidas por Lindgren et al. (2011).
Este último enfoque permite ajustar un campo aleatorio evitando la especificación de una función de correlación (y por ende, el problema de la definición positiva). Además es posible trabajar en superficies no planas, o incluso discontinuas.
|
|
Veure al catàleg Trobes |