OCR gráfico

Algumas postagens atrás,  tratei do assunto OCR, explicando como processar um PDF em linha de comando usando o Tesseract OCR.

Agora, volto ao assunto porque descobri uma GUI para o Tesseract OCR. Trata-se do programa gImageReader.

O gImageReader é um programa em GTK para Linux que pode ser baixado em deb ou em rpm a partir do seguinte endereço:

http://sourceforge.net/projects/gimagereader/

Para usar gImageReader, selecione um PDF (não precisa mais converter) ou uma imagem da qual você deseja extrair texto e clique em “Recognize all” (não há tradução para a interface) para processar toda a página. Você pode também usar o mouse para desenhar uma seleção na imagem aberta e, em seguida, clicar em “Recognize selection” para extrair apenas uma parte do documento.

Se você já instalou o Tesseract OCR seguindo a postagem anterior, baixe o deb do gImageReader, instalando-o com um duplo clique no seu Ubuntu.

Eu mesmo instalei o gImageReader  no Ubuntu 12.04.3 e posso dizer que fiquei muito satisfeito com os resultados até o momento obtidos.

Anúncios

Sobre pinduvoz

Advogado por profissão, entusiasta do SL por opção.
Esse post foi publicado em Linux em geral e marcado , , , , , . Guardar link permanente.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s