Mostrar el registro sencillo del ítem
dc.contributor.advisor | Ferri Ramírez, César | es_ES |
dc.contributor.advisor | Martínez Plumed, Fernando | es_ES |
dc.contributor.advisor | Garigliotti, Dario | es_ES |
dc.contributor.author | Llácer Luna, Socrátes Enrique | es_ES |
dc.date.accessioned | 2024-10-24T12:53:40Z | |
dc.date.available | 2024-10-24T12:53:40Z | |
dc.date.created | 2024-09-23 | |
dc.date.issued | 2024-10-24 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/210852 | |
dc.description.abstract | [CA] Les organitzacions que gestionen grans repositoris de documents digitals enfronten desafiaments similars, com la classificació eficient i precisa de grans volums d’arxius. Aquest projecte ofereix una solució automatitzada que integra tècniques de reconeixement òptic de caràcters (OCR) i aprenentatge automàtic per a abordar aquests problemes de manera generalitzable. La solució distingeix entre documents escanejats i digitals, extrau el text amb precisió, i el categoritza en fins a 42 classes predefinides, utilitzant models avançats com BERT i Random Forest (RF) . En particular, la Universitat Politècnica de València (UPV) s’enfronta a la gestió d’un repositori Alfresco que conté 600.000 arxius PDF, dels quals només 100.000 estan correctament categoritzats. La classificació manual és laboriosa i propensa a errors, la qual cosa dificulta la recuperació d’informació i les capacitats de cerca avançada. Aquest projecte ha sigut enfocat a donar solució a aquest problema, adaptant la solució general per a millorar l’organització i accessibilitat dels documents en la UPV. A més, estableix les bases per a la implementació de tecnologies avançades de cerca i classificació en temps real dins de la institució | es_ES |
dc.description.abstract | [ES] Las organizaciones que gestionan grandes repositorios de documentos digitales enfrentan desafíos similares, como la clasificación eficiente y precisa de grandes volúmenes de archivos. Este proyecto ofrece una solución automatizada que integra técnicas de reconocimiento óptico de caracteres (OCR) y aprendizaje automático para abordar estos problemas de forma generalizable. La solución distingue entre documentos escaneados y digitales, extrae el texto con precisión, y lo categoriza en hasta 42 clases predefinidas, utilizando modelos avanzados como BERT y Random Forest (RF). En particular, la Universitat Politècnica de València (UPV) se enfrenta a la gestión de un repositorio Alfresco que contiene 600.000 archivos PDF, de los cuales solo 100.000 están correctamente categorizados. La clasificación manual es laboriosa y propensa a errores, lo que dificulta la recuperación de información y las capacidades de búsqueda avanzada. Este proyecto ha sido enfocado en dar solución a este problema, adaptando la solución general para mejorar la organización y accesibilidad de los documentos en la UPV. Además, sienta las bases para la implementación de tecnologías avanzadas de búsqueda y clasificación en tiempo real dentro de la institución. | es_ES |
dc.description.abstract | [EN] Organizations managing large digital document repositories face similar challenges, such as the efficient and accurate classification of vast amounts of files. This project offers an automated solution that integrates Optical Character Recognition (OCR) techniques and machine learning to address these issues in a generalizable manner. The solution distinguishes between scanned and digital documents, accurately extracts text, and categorizes it into up to 42 predefined classes using advanced models such as BERT and Random Forest (RF). Specifically, the Universitat Politècnica de València (UPV) faces the challenge of managing an Alfresco repository containing 600,000 PDF files, of which only 100,000 are correctly categorized. Manual classification is time-consuming and prone to errors, hindering information retrieval and advanced search capabilities. This project has been focused on solving this problem, adapting the general solution to improve the organization and accessibility of documents at UPV. Moreover, it lays the groundwork for the implementation of advanced search and real-time classification technologies within the institution. | es_ES |
dc.format.extent | 69 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Repositorio Alfresco | es_ES |
dc.subject | PyTesseract | es_ES |
dc.subject | NLP | es_ES |
dc.subject | Alfresco Repository | es_ES |
dc.subject | Language Model | es_ES |
dc.subject | Optical character recognition [OCR] | es_ES |
dc.subject | Clasificación de documentos | es_ES |
dc.subject | Machine learning | es_ES |
dc.subject | Modelo de lenguaje | es_ES |
dc.subject | Bidirectional encoder representations from transformers [BERT] | es_ES |
dc.subject | Classificació de documents | es_ES |
dc.subject | Repositori Alfresco | es_ES |
dc.subject | Random forest [RF] | es_ES |
dc.subject | Document classification | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Clasificación automática de documentos administrativos | es_ES |
dc.title.alternative | Automatic classification of administrative documents | es_ES |
dc.title.alternative | Classificació automàtica de documents administratius | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Llácer Luna, SE. (2024). Clasificación automática de documentos administrativos. Universitat Politècnica de València. http://hdl.handle.net/10251/210852 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\165531 | es_ES |