Investigación y desarrollo de software para la validación de la calidad de datos abiertos e identificación de patrones para predicciones

Item

CatBoost and Logistic Regression as Machine Learning Approaches in Matchmaking and Perceived Availability

(Editorial Universitaria ULEAM, 2024-11-20) Martínez, María Roxana ; Pincay-Ponce, Jorge Iván ; Delgado-Muentes, Wilian Richart ; Figueroa-Suárez, Juan Alberto

This paper aims to redesign the analysis of the “Speed Dating” dataset, which was part of the research titled “Gender Differences in Mate Selection: Evidence from a Speed Dating Experiment,” presented by Raymond Fisman, Sheena Iyengar, Emir Kamenica, and Itamar Simonson in The Quarterly Journal of Economics, the oldest professional journal of economics in the English language, in 2006. Based on the theory of "perceived availability," which suggests that people are more likely to find those who seem more attainable or interested in them to be attractive, logistic regression and the CatBoost ensemble method were employed to uncover patterns that appear influential in the decisions of individuals of the opposite sex regarding the potential for a future relationship from a four-minute speed dating social experiment. The findings indicate that, in general, individuals prioritize the following in their potential partners, from most to least important: attractiveness, perceived compatibility, shared interests, sense of humor, ambition, satisfaction with acquaintances (indicative of sociability), TV interests, sincerity, and partner's age. These results report an accuracy of over 80% with Logistic Regression and 88% with the CatBoost ensemble method. The tool used in model development was Orange Data Mining 3.37.

Item

Análisis de datos públicos abiertos e identificación de patrones para predicciones: Proyecto INCUCAI para el estudio de disponibilidad de Órganos y Tejidos en Argentina

(EDUPA, 2024-4-19) Martínez, María Roxana ; Bateca Caicedo, Carlos Alberto ; Zabala, Hernán Guillermo ; Clavijo, Eugenio ; Vilaboa, Pablo Alfredo ; Garcia Iannini, Juan Manuel ; Colato, German Dario ; Navone, Matias Javier ; Tsiros, Sebastian Martin Demetrio ; Rizzo, Nicolas Leonardo

En la actualidad, si bien, hay estudios y guías de buenas prácticas sobre cómo disponibilizar los datos públicos, hoy por hoy, no existen demasiados trabajos de investigación que se centren en el contenido de los conjuntos de datos (datasets) que se encuentran en sitios web gubernamentales, lo que hace que el análisis de la calidad del contenido de estos datasets quede en un segundo plano. Este proyecto, se centra en el análisis de contenido, validación, tratamiento de herramientas de verificación, cotejo en las estructuras de datos, y propuestas de guías de buenas prácticas. A través de este estudio, se apoya para lograr gobiernos más transparentes en cuestiones de rendición de cuentas, como así también, brindar acceso a la información pública, que permite llevar a cabo un mejor desarrollo de políticas públicas para las personas, pero para ello es necesario partir de una base de datos que sea legible, limpia y validada. Este trabajo, no solo trabaja en prototipos de software en validaciones de datos específicos, sino que, además, permite estudiar modelos predictivos (aprendizaje automático) que pueden brindar un mejor análisis para la toma de decisiones.

Item

Propuesta de técnicas de validación para la calidad de datos abiertos e identificación de patrones para predicciones con Machine Learning: Segunda Parte

(UNNOBA, 2023-4) Martínez, María Roxana ; Vilaboa, Pablo Alfredo ; Simon, Miguel Agustín ; Garcia Iannini, Juan Manuel ; Clavijo, Eugenio ; Colato, German Dario ; Catala, Nelson ; Bateca Caicedo, Carlos Alberto ; Lopumo, Serenela ; Zabala, Hernán Guillermo ; Parada, Gonzalo ; Chaglasian Sganga, Ayelén Malena ; Vargas Navarro, Rocio Del Carmen ; Tsiros, Sebastian Martin Demetrio

Dentro de los varios focos del paradigma de Gobierno Abierto, existen los conjuntos de datos abiertos públicos disponibilizados en los sitios web gubernamentales, éstos permiten no sólo una mejor transparencia en las actividades públicas que se realizan, sino que, además, pueden ser reutilizados a través de estudios para brindar mejores servicios y obtener beneficios para la sociedad. Mantener estos datos con calidad, permite que se lleven a cabo, análisis de escenarios para predecir y evitar posibles falencias o errores en la toma de decisiones políticas que tenga un alto impacto en los ciudadanos. Actualmente, no existen demasiados trabajos de investigación que se centren en el contenido de los datasets, en aspectos de: análisis de contenido interno, validación, herramientas de verificación, cotejo en las estructuras de datos, guías de buenas prácticas, o bien reconocimiento de patrones estructurales, entre otros temas. Es por esto, por lo que, este trabajo de investigación se centra en dichos puntos mencionados para validar la calidad de los datos públicos abiertos y que éstos puedan ser utilizados con un fin positivo en la comunidad. Este trabajo, no solo trabaja en prototipos de software en validaciones de datos específicos, sino que, además, permite estudiar modelos predictivos, que a través del aprendizaje automático pueden brindar un mejor análisis para la toma de decisiones.

Item

Tesis Doctoral: Métricas de calidad para validar los conjuntos de datos abiertos públicos gubernamentales

(UNNOBA, 2023-4) Martínez, María Roxana

En estos tiempos, los datos son un recurso indispensable para cualquier actividad de gestión pública, por lo que es necesario mantenerlos actualizados, claros y completos. Este trabajo se enfoca en el contexto de Gobierno Abierto en aspectos del tratamiento del dato público abierto que disponibilizan las entidades estatales. Con el fin de identificar mejoras en los aspectos de calidad de los datasets abiertos, esta tesis plantea métricas críticas y no críticas para su análisis y validación de contenido, por lo que, como parte de la propuesta, se presenta un prototipo de desarrollo propio, llamado HEVDA (HErramienta de Validación de Datos Abiertos). A modo de caso de estudio, se extrae una muestra de datasets públicos estatales que son validados con HEVDA, para obtener un análisis sobre las mediciones utilizadas y realizar así, un estudio cuantitativo sobre los resultados arrojados. Esta herramienta de validación permite detectar en forma sencilla, las falencias y errores en las fuentes de datos abiertas que podrían complicar la interoperabilidad para su utilización en diversos orígenes de bases de datos y softwares externos de otros organismos. Para evaluar la calidad de datos es necesario tener en cuenta determinadas características en el conjunto de datos analizados, por lo que se realiza un relevamiento detallado de los aspectos más notables en cuestiones de calidad de datos sobre criterios estándares de norma ISO/IEC 25012 [1], estándares universales de calidad de datos [2], dimensiones de la calidad de los datos [3], trabajos relevados y estudios realizados [4] en esta temática. En el estudio desarrollado, se puede analizar sí es factible definir métricas de calidad de datos públicos gubernamentales en un formato abierto para efectuar un análisis cuantitativo a través de una herramienta amigable y sencilla.

Item

Evaluación del tratamiento de los datos abiertos geolocalizados

(Universidad Abierta Interamericana. Facultad de Tecnología Informática, 2023-12) Simon, Miguel Agustín ; Martínez, María Roxana

En los tiempos de hoy en día, los datos abiertos públicos gubernamentales son una herramienta poderosa con el potencial de reducir las asimetrías de información, fomentar la toma de decisiones basada en evidencia, mejorar la rendición de cuentas y generar impacto en la calidad de vida de las personas a través de su uso. Los gobiernos de los diferentes países tienen una oportunidad sin precedentes de generar valor público a través de la apertura y uso de datos. La atención en los datos abiertos se suele centrar en los beneficios que éstos generan en términos de transparencia y rendición de cuentas. Con el fin de promover y mejorar la calidad de los conjuntos de datos abiertos gubernamentales en geolocalización, este trabajo propone el uso de métricas específicas para evaluar su contenido. Como parte de esta propuesta, se ha desarrollado un prototipo utilizando las últimas tecnologías informáticas disponibles en el mercado. Esta herramienta de validación, llamada OpenMapGeoData, permite detectar de manera más sencilla y automática las deficiencias y errores en los conjuntos de datos que podrían dificultar su interoperabilidad con diferentes fuentes de bases de datos y software externo utilizado por otros organismos.

Investigación y desarrollo de software para la validación de la calidad de datos abiertos e identificación de patrones para predicciones

Permanent URI for this collection

Browse

Browse

Recent Submissions