Axional OCR
OCR (reconocimiento óptico de caracteres) es una tecnología de reconocimiento óptico nueva y avanzada. Extrae el texto de una imagen o documento escaneado para almacenarlo e indexarlo automáticamente en una base de datos, entre otras funciones. Como característica general, este sistema de reconocimiento de datos se aplica utilizando expresiones regulares de reconocimiento de patrones dentro del texto.
Entre otras características, Axional OCR facilita la entrada de datos para varios tipos de documentos que sirven como punto de partida para los procesos comerciales específicos de la empresa. Asimismo, simplifica el almacenamiento y archivo de la información, eliminando la necesidad de acceder al documento físico para poder examinarlo en detalle.
Axional OCR proporciona así un eficiente sistema de entrada de información para las bases de datos de la empresa, haciendo posible la integración de cualquier documento físico estructurado. Este modelo Axional tiene como objetivo, más específicamente, integrar automáticamente las facturas de proveedores digitalizadas en la base de datos del sistema ERP.
1 Requisitos previos: generación de PDF editar.
Para el correcto funcionamiento de la aplicación, es necesario que los documentos sean PDF digitales con capa de texto, es decir, documentos como documentos en papel escaneados o archivos PDF, que han sido transformados en textos digitalizados. El documento transformado se ve exactamente como el original, pero permite el reconocimiento de datos en los datos que se pueden buscar. Es fácil reconocer este tipo de archivos, ya que el texto es seleccionable.
Hoy en día es muy común recibir las facturas de los proveedores por correo electrónico, y es muy probable que estén en un PDF con formato de capa de texto. Cuando no se dispone de PDF con capa de texto, es necesario transformarlos. Esta transformación es un procedimiento externo a la aplicación. La generación de documentos puede ser realizada por un proveedor externo o utilizando una aplicación de escaneo de documentos con capacidades especiales. Por ejemplo, puede utilizar Tesseract como motor de OCR de código abierto. Además, la mayoría de las impresoras con escáner actuales tienen una aplicación OCR.
Una visión global de su empresa para tomar las mejores decisiones.
Estructura
El proceso de integración de los datos obtenidos del documento PDF en el sistema se lleva a cabo en varias etapas consecutivas.
El funcionamiento de la aplicación tiene diferentes etapas:
- Generación de PDF: procedimiento externo (ver apartado anterior).
- Definición de carga de PDF: el sistema carga archivos PDF en el sistema utilizando una configuración previamente definida en función de cada tipo de documento. Esta configuración incluye carpetas específicas en el servidor donde colocar los archivos cargados o procesados.
- Creación de plantilla: cada tipo de documento a procesar debe tener una plantilla asignada. Esta plantilla se crea en base a un documento prototipo de cada tipo de documento. Por ejemplo, las facturas de los clientes deben tener asignada una plantilla, ya que cada uno de estos documentos debe tener una estructura repetitiva y contiene los mismos datos que nos interesan para la extracción. Otro tipo de documento, por ejemplo, un DNI / DNI, debe tener su propia plantilla. Para cada tipo de documento diferente es necesario configurar una nueva plantilla.
- Extracción de datos: el sistema intentará cargar datos en base a un modelo de carga y extraer datos en base a una plantilla asignada.
- Integración interna: los datos procesados se transferirán a una tabla interna predefinida (tabla de destino). Este es el último paso del proceso de funcionamiento de Axional OCR.
Potencia tu empresa hoy
Nuestro equipo está listo para ofrecerte los mejores servicios