Muchas veces nos encontramos con documentos que se encuentran escaneados y que verdaderamente seria muy útil tenerlos en un word para poder editarlos. Esta tecnología se conoce como OCR que viene Optical Character Recognition o en castellano Reconocimiento óptico de caracteres. Lo lindo del ocr que no solo se puede ejecutar en un documento sino que esta tecnología se encuentra en por ejemplo “cámaras de transito” que son aquellas que al sacar una foto pueden identificar gracias a ocr (y otras cosas más) la patente del vehículo en cuestión y darle el tratamiento que se requiera. En este tutorial les voy a mostrar como pasar De texto en imagen a texto editable con software libre en Ubuntu 20.04 y o similares.

Hay varias herramientas que nos permiten hacerlo. Una muy sencilla es gscan2pdf que se instala:

sudo apt install gscan2pdf
gscan2pdf

El sistema es muy intuitivo y automáticamente detecta escaners instalados siempre y cuando sean compatibles con SANE (la mayoría o mas normales no tienen problema).

Con gscan2pdf podrías obtener desde el escaner y pasar a texto sin drama o bien utilizar una imagen. Particularmente tuve problemas al sacar texto de una imagen, y me anduvo muy bien si escaneaba y pasaba a texto con esta herramienta.

La otra herramienta que me parecio interezantes es OCRfeeder que trabaja de manera similar. Su instalación es:

sudo apt-get install ocrfeeder

Luego verán una imagen similar a esta:

ocrfeeder

Tambien te puede interesar:

Yo creo que para la lectura de pdf con Okular sobra y es el que viene predeterminado… pero bueno, siempre esta bueno tener variantes.

Gracias por pasar!!!!

Print Friendly, PDF & Email
Share:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *