Vom 20.12.2025 bis 11.01.2026 ist die Universitätsbibliothek geschlossen. Ab dem 12.01.2026 gelten wieder die regulären Öffnungszeiten. Ausnahme: Medizinische Hauptbibliothek und Zentralbibliothek sind bereits ab 05.01.2026 wieder geöffnet. Weitere Informationen

Treffer: Metodologia Escalável de Preparação de Dados em PySpark para Regressão Simbólica: Evidências a partir da Previsão de Sucesso de Patentes Universitárias Brasileiras.

Title:
Metodologia Escalável de Preparação de Dados em PySpark para Regressão Simbólica: Evidências a partir da Previsão de Sucesso de Patentes Universitárias Brasileiras. (Portuguese)
Alternate Title:
Scalable Methodology for Data Preparation in PySpark for Symbolic Regression: Evidence from the Prediction of Success of Brazilian University Patents. (English)
Metodología escalable de preparación de datos en PySpark para regresión simbólica: evidencia de la predicción del éxito de patentes universitarias brasileñas. (Spanish)
Source:
GeSec: Revista de Gestao e Secretariado; 2025, Vol. 16 Issue 9, p1-21, 21p
Database:
Complementary Index

Weitere Informationen

Considering the complexity and volume of data required for the effective application of Symbolic Regression (SR) techniques in real-world problems, the need for consistent and scalable preprocessing methodologies is justified. It aims to detail a complete workflow for data preparation, from obtaining to final formatting for SR algorithms. To this end, we proceed to the description of a method using Python and PySpark, addressing the stages of ingestion, cleaning, transformation, and feature engineering in a distributed environment. In this way, it is observed that the proposed methodology is capable of efficiently handling large volumes of data, automating preprocessing tasks and generating a dataset suitable for the discovery of symbolic models, which allows us to conclude that the presented protocol constitutes a replicable and essential guide for future research in the area. [ABSTRACT FROM AUTHOR]

Considerando la complejidad y el volumen de datos requeridos para la aplicación efectiva de las técnicas de Regresión Simbólica (SR) a problemas del mundo real, se justifica la necesidad de metodologías de preprocesamiento consistentes y escalables. El objetivo es detallar un flujo de trabajo completo para la preparación de datos, desde la adquisición de datos hasta el formateo final para algoritmos de SR. Para ello, describimos un método que utiliza Python y PySpark, que aborda las etapas de ingesta, limpieza, transformación e ingeniería de características en un entorno distribuido. Por lo tanto, observamos que la metodología propuesta es capaz de gestionar eficientemente grandes volúmenes de datos, automatizar las tareas de preprocesamiento y generar un conjunto de datos adecuado para el descubrimiento de modelos simbólicos. Esto sugiere que el protocolo presentado constituye una guía replicable y esencial para futuras investigaciones en este campo. [ABSTRACT FROM AUTHOR]

Considerando a complexidade e o volume de dados necessários para a aplicação eficaz de técnicas de Regressão Simbólica (RS) em problemas do mundo real, justifica-se a necessidade de metodologias consistente e escaláveis de pré-processamento. Objetiva-se detalhar um fluxo de trabalho completo para preparação de dados, desde a obtenção até a formatação final para algoritmos de RS. Para tanto, procede-se à descrição de um método utilizando Python e PySpark, abordando as etapas de ingestão, limpeza, transformação e feature engineering em um ambiente distribuído. Desse modo, observa-se que a metodologia proposta é capaz de lidar eficientemente com grandes volumes de dados, automatizando tarefas de pré-processamento e gerando um conjunto de dados adequado para a descoberta de modelos simbólicos, o que permite concluir que o protocolo apresentado constitui um guia replicável e essencial para pesquisas futuras na área. [ABSTRACT FROM AUTHOR]

Copyright of GeSec: Revista de Gestao e Secretariado is the property of Sindicato das Secretarias e Secretarios do Estado de Sao Paulo (SINSESP) and its content may not be copied or emailed to multiple sites without the copyright holder's express written permission. Additionally, content may not be used with any artificial intelligence tools or machine learning technologies. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)