Título: Clasificación automática de documentos administrativos
Autor: Llácer Luna, Socrátes Enrique
Resumen: [CA] Les organitzacions que gestionen grans repositoris de documents digitals enfronten
desafiaments similars, com la classificació eficient i precisa de grans volums d’arxius.
Aquest projecte ofereix una solució automatitzada que integra tècniques de reconeixement òptic de caràcters (OCR) i aprenentatge automàtic per a abordar aquests problemes
de manera generalitzable. La solució distingeix entre documents escanejats i digitals,
extrau el text amb precisió, i el categoritza en fins a 42 classes predefinides, utilitzant
models avançats com BERT i Random Forest (RF) .
En particular, la Universitat Politècnica de València (UPV) s’enfronta a la gestió d’un
repositori Alfresco que conté 600.000 arxius PDF, dels quals només 100.000 estan correctament categoritzats. La classificació manual és laboriosa i propensa a errors, la qual cosa
dificulta la recuperació d’informació i les capacitats de cerca avançada. Aquest projecte ha sigut enfocat a donar solució a aquest problema, adaptant la solució general per
a millorar l’organització i accessibilitat dels documents en la UPV. A més, estableix les
bases per a la implementació de tecnologies avançades de cerca i classificació en temps
real dins de la institució[ES] Las organizaciones que gestionan grandes repositorios de documentos digitales enfrentan desafíos similares, como la clasificación eficiente y precisa de grandes volúmenes de archivos. Este proyecto ofrece una solución automatizada que integra técnicas de reconocimiento óptico de caracteres (OCR) y aprendizaje automático para abordar estos problemas de forma generalizable. La solución distingue entre documentos escaneados y digitales, extrae el texto con precisión, y lo categoriza en hasta 42 clases predefinidas, utilizando modelos avanzados como BERT y Random Forest (RF).
En particular, la Universitat Politècnica de València (UPV) se enfrenta a la gestión de un repositorio Alfresco que contiene 600.000 archivos PDF, de los cuales solo 100.000 están correctamente categorizados. La clasificación manual es laboriosa y propensa a errores, lo que dificulta la recuperación de información y las capacidades de búsqueda avanzada. Este proyecto ha sido enfocado en dar solución a este problema, adaptando la solución general para mejorar la organización y accesibilidad de los documentos en la UPV. Además, sienta las bases para la implementación de tecnologías avanzadas de búsqueda y clasificación en tiempo real dentro de la institución.[EN] Organizations managing large digital document repositories face similar challenges, such as the efficient and accurate classification of vast amounts of files. This project offers an automated solution that integrates Optical Character Recognition (OCR) techniques and machine learning to address these issues in a generalizable manner. The solution distinguishes between scanned and digital documents, accurately extracts text, and categorizes it into up to 42 predefined classes using advanced models such as BERT and Random Forest (RF).
Specifically, the Universitat Politècnica de València (UPV) faces the challenge of managing an Alfresco repository containing 600,000 PDF files, of which only 100,000 are correctly categorized. Manual classification is time-consuming and prone to errors, hindering information retrieval and advanced search capabilities. This project has been focused on solving this problem, adapting the general solution to improve the organization and accessibility of documents at UPV. Moreover, it lays the groundwork for the implementation of advanced search and real-time classification technologies within the institution.