Digitalización de Documentos con Sistema OCR

¿QUÉ ES EL OCR?

El OCR (Optical Character Recognition) es una tecnología que trata de emular la capacidad del ojo humano para reconocer objetos. Concretamente es un software que permite el reconocimiento óptico de los caracteres contenidos en una imagen (documento escaneado o fotografía), de forma que estos se vuelven comprensibles o reconocibles para un ordenador, obteniendo como resultado final un archivo en un formato de texto editable. El formato del archivo de salida (txt, pdf, etc.) dependerá de las posibilidades
que ofrezca el software.

¿CÓMO FUNCIONA EL OCR?

Para reconocer los caracteres, el software inspecciona la imagen pixel a pixel, buscando formas que coincidan con los rasgos de los caracteres. En función del nivel de complejidad o grado de desarrollo del software, éste buscará coincidencias con los caracteres y fuentes disponibles en el programa, o tratará de identificar los caracteres a través del análisis de sus características, de forma que el reconocimiento de los mismos no se limite exclusivamente a un determinado número de fuentes.

El OCR puede analizar los elementos del documento (bloques de texto, imágenes, tablas…), examinando los espacios en blanco y descomponiendo el texto en líneas, palabras y caracteres, de forma que el programa puede formular distintas hipótesis y cotejarlas con los diccionarios contenidos por el mismo (actualmente los programas contienen diccionarios en distintos idiomas), para formar palabras y textos completos.

¿QUÉ VENTAJAS PUEDE TENER LA APLICACIÓN DEL OCR?

  • Búsqueda y recuperación de documentos
  • La aplicación del OCR permite realizar búsquedas de texto libre sobre la totalidad del documento.
  • Explotación de los documentos
  • El OCR permite convertir el texto de los documentos digitalizados a formatos editables.

Aunque el OCR no es una herramienta para hacer los documentos accesibles para personas con discapacidades visuales, su aplicación combinada con otras tecnologías permite que el texto resultante se sintetice en líneas de braille o archivos de audio.

Perspectiva económica

Ahorro de tiempo respecto a la inserción manual de datos (el OCR puede alcanzar una velocidad de lectura de hasta 1.200 caracteres por segundo). El almacenamiento en formato de texto puede suponer un ahorro de espacio respecto del almacenamiento como imagen (el archivo de texto necesita aproximadamente 1/3 del espacio que ocupa la imagen).

Fuente: Kulturaren Euskal Behatokia

ROBERTO GARCIA
ROBERTO GARCIA
Empresario y Ejecutivo con sólido manejo en el área administrativa y financiera, con experiencia multifuncional que incluye elaboración de proyectos, consultoría, marketing, ventas, planes de negocio y relaciones institucionales. Gran habilidad para liderar grupos de trabajo y encaminarlos al logro de objetivos. Eficaz negociador con facilidad para adaptarse a situaciones nuevas y trabajar bajo presión.

Comparte el artículo

Facebook
LinkedIn
WhatsApp
Email

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *