Treffer: Effektiver Einsatz von NLP-Methoden am Beispiel des Codex Suprasliensis.

Title:
Effektiver Einsatz von NLP-Methoden am Beispiel des Codex Suprasliensis. (German)
Alternate Title:
Ефективно използване на методите на NLP, въз основа на пример от Codex Suprasliensis (Russian)
Source:
Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies; 2025, Vol. 25, p79-100, 22p
Database:
Complementary Index

Weitere Informationen

The integration of computational methods in historical philology is becoming increasingly essential, yet challenges persist in harmonizing linguistic and technical aspects of text analysis. This study presents a comprehensive and methodologically transparent use case that documents the entire computational philological workflow-from data acquisition and modeling to analysis and visualization-in a structured and reproducible manner. Using the Codex Suprasliensis, one of the most significant Old Slavic manuscripts, as a case study, we demonstrate how modern Natural Language Processing (NLP) techniques, particularly the Stanza library for morphosyntactic annotation and DataFrame-based corpus structuring, can facilitate the exploration of historical textual corpora. A special emphasis is placed on benchmarking Stanza's performance in processing Old Church Slavonic, evaluating its segmentation, tagging, and parsing accuracy against existing Gold Standard datasets. Additionally, we discuss the role of DataFrame-based modeling in ensuring an efficient and transparent structuring of linguistic data, allowing for flexible transformations and reproducible analyses. To support further research and methodological validation, all functional and extensively annotated scripts-including the complete NLP pipeline-are permanently provided via the GitHub platform of the Berlin State Library. The findings highlight the importance of structured corpus processing in computational philology and contribute to the ongoing refinement of NLP methodologies for historical languages. [ABSTRACT FROM AUTHOR]

Това изследване представя цялостен и методически прозрачен пример за анализ, който документира целия работен процес в компютърната филоло- гия - от събирането и моделирането на данни до анализа и визуализацията, по структуриран и възпроизводим начин. Използвайки Codex Suprasliensis, един от най-значимите старославянски ръкописи, показваме как съвременните техники за обработка на естествени езици (NLP), по-специално библиотеката Stanza за морфосинтактична анотация и структуриране на корпуси, базирано на DataFrame, могат да улеснят проучването на исторически текстови корпуси. Акцент е поставен върху сравнителния анализ на продуктивността на Stanza при обработката на стария славянски език, като се оценява точността на сегмен- тирането, маркирането и парсинга спрямо съществуващите набори от данни. За да се подпомогнат по-нататъшни изследвания и методологическата валидация до всички функционални и обширно анотирани скриптове - включително до пълния NLP конвейер - е осигурен постоянен достъп чрез платформата GitHub на Берлинската държавна библиотека. Констатациите подчертават значението на структурираната обработка на корпуси в компютърната лингвистика и до- принасят за непрекъснатото усъвършенстване на NLP методологиите. [ABSTRACT FROM AUTHOR]

Copyright of Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies is the property of Bulgarian Academy of Sciences, Institute of Literature and its content may not be copied or emailed to multiple sites without the copyright holder's express written permission. Additionally, content may not be used with any artificial intelligence tools or machine learning technologies. However, users may print, download, or email articles for individual use. This abstract may be abridged. No warranty is given about the accuracy of the copy. Users should refer to the original published version of the material for the full abstract. (Copyright applies to all Abstracts.)