2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26
Advertisement

PDF tem texto falsificado ao colar cópias

Advertisement

Estou a tentar copiar e colar texto de um ficheiro PDF.

Contudo, sempre que colo o texto original é uma enorme confusão de caracteres falsificados. O texto parece o seguinte (este é apenas um pequeno extracto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Já experimentei tanto em leitores de PDF Adobe como Foxit. Fiz um ‘Guardar como texto’ no Adobe Reader e o ficheiro de texto resultante é o mesmo texto falsificado.

Alguma ideia de como posso obter este texto não falsificado? (Para além da digitação manual… há muito texto para extrair).

Advertisement
Advertisement

Respostas (11)

11
11
11
2011-04-08 14:40:29 +0000

A forma mais simples de contornar isto é abrir o ficheiro numa versão recent do Google Chrome com plugin de leitura PDF integrado*. Depois pode usar a função de pesquisa do Chrome para encontrar texto, e copiar-colar funciona correctamente.

Gostaria de votar no comentário de pipitas sobre a resposta de Shiki, mas não tenho os creds :( O problema pode ser código de fonte personalizada, não encriptação*. Em Acrobat, clique em File -> Properties, depois clique no separador Fonts para ver a codificação, e no separador Security para ver se está encriptado.

4
4
4
2012-03-18 14:36:54 +0000

Há outra maneira muito fácil de dar uma volta :)

Basta imprimir o documento utilizando a impressora CutePdf, Adobe 2 Pdf ou qualquer outro material semelhante. O resultado final é que é necessário imprimir no formato pdf.

Em muitos casos, removerá facilmente o problema.

4
Advertisement
4
4
2010-05-18 22:18:44 +0000
Advertisement

Descobri este problema com os PDFs que criei, e creio ter localizado a origem do problema: utilizando o Mac OS X’s Preview para reduzir o tamanho do ficheiro PDF.

Eu tinha criado alguns filtros de Quartzo usando o Colorsync Utility para comprimir imagens em PDFs para reduzir o tamanho total do ficheiro PDFs com imagens. Tal como descrito aqui: http://www.macosxhints.com/article.php?story=20031106133852693

Descobri que sou capaz de facilmente copiar e colar texto do ficheiro PDF original (não comprimido), mas depois de correr esse PDF através de um filtro Reduzir Tamanho do Ficheiro que criei, o PDF comprimido resultante não copia cola claramente (sai parecendo-se com as cordas que colocou).

Contudo, correndo esse mesmo PDF original através do documento do Adobe Acrobat Pro > Função Reduzir Tamanho do Ficheiro, o PDF comprimido resultante pode copiar e colar texto com sucesso.

Portanto, isto não é totalmente útil no seu caso, presumindo que o seu ficheiro PDF foi recebido de outro local e não pode chegar à versão original, se foi de facto comprimido de alguma forma. Mas essa pode ser a explicação - que o ficheiro foi de alguma forma comprimido, num esforço para reduzir o tamanho do ficheiro.

Isto pode ser útil para criadores de conteúdos que se deparam com problemas semelhantes na cópia e colagem de texto de PDFs - tenha cuidado ao usar filtros de quartzo OS X para encolher os seus PDFs!

–edit– Também notei este problema ao combinar PDFs com Pré-visualização. Os dois PDFs de origem podem ser copiados e colados bem, mas ao arrastar uma página de um ficheiro para o outro, e depois guardar o PDF combinado, o texto no documento combinado não pode ser copiado/colado. Estes são dois documentos ambos gerados ao mesmo tempo com o Filemaker Pro 11 em Mac - não consigo imaginar que tenham codificações diferentes ou qualquer coisa do género.

3
3
3
2013-01-03 20:36:58 +0000

Solução que funcionou para mim:

  • Carregar o documento para Google Drive/Docs
  • Google irá importá-lo (a partir de 2013) como PDF
  • Abrir a vista PDF e escolher Arquivo* > Abrir Com* > Google Docs
  • Levará cerca de um minuto a exportar o documento

Os resultados não foram perfeitos, mas conseguiram-me 80% do caminho até lá e fornecer-me texto suficiente para não ter de reescrever tudo!

2
Advertisement
2
2
2013-03-24 23:59:49 +0000
Advertisement

SOLVED: (funcionou para mim no Windows 8, Acrobat XI, Office 2010)

Opção 1:

  1. Impressão a partir do Acrobat usando a saída “Microsoft XPS Document Writer”: “o seu nome de ficheiro.oxps”
  2. Abrir “…oxps” com “XPS Viewer”. *(ver link para download nos comentários abaixo)
  3. Imprimir para PDF (Acrobat PDF, ou CutePDF), utilizando a mais alta resolução (600 DPI).
  4. Abrir com Acrobat e usar a opção OCR (Searchable Image (Exact)).

BINGO!

Comentários:

  • Usando a mais alta resolução e Imagem pesquisável (exacta) irá salvar o seu texto sem perder a sua aparência limpa. A baixa resolução tornará o seu texto legível, mas com uma aparência de porcaria.
  • Descarregar Microsoft XPS (ficheiros): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Se não sabe o que é OCR, ou onde encontrar Imagem Pesquisável (exacta), ou Como imprimir usando “Microsoft XPS Document Writer”, POR FAVOR, Google por conta própria, para as suas melhores experiências.

*Download apenas se não tiver o XPS instalado.

Opção 2:

Fazer semelhante, mas guardar como imagem (png, tiff, …), então terá de combinar todas as páginas de volta num único ficheiro “PDF”.

1
1
1
2011-10-26 18:58:50 +0000

Um dos meus utilizadores acabou de relatar o mesmo problema (PDF foi criado com Distiller for Windows), que o texto copiado é apenas texto falsificado e ele não podia pesquisar dentro de um documento. Experimentei no meu Mac e não encontrei nenhum problema. Afinal, utilizei a aplicação Preview da Apple, enquanto ele utilizava o Adobe Reader na sua máquina Windows. Depois experimentei o Adobe Reader no meu Mac e enfrentei o mesmo efeito. A mim parece-me que sim:

  • O Adobe Reader está a fazer coyping e a pesquisar no texto guardado.

  • O Preview da Apple irá copiar e pesquisar após a aplicação do vector de codificação.

Não posso dizer isto com certeza, mas isso explicaria a minha observação. E permitiria de facto fazer todo o tipo de codificação ao guardar ficheiros combinados/reduzidos, como descrito noutro post aqui: com o Preview ainda se pode obter o texto novamente.

Primeiro pensei que seria mais lógico codificar o subconjunto de fontes incorporado como entradas contíguas em vez de deixar buracos no interior e utilizar a localização original dos caracteres. Mas depois percebi, que ao utilizar um vector de codificação para o subconjunto de fontes com entradas originais, os caracteres que são frequentemente utilizados podem ter menos bits definidos para 1 no seu byte e podem ser comprimidos de uma forma melhor (pode diminuir a entrofia do texto global desta forma).

1
Advertisement
1
1
2010-06-21 20:51:02 +0000
Advertisement

Existe o risco de a informação não poder ser recuperada de forma alguma. Os documentos PDF são essencialmente um documento sobrevoando outro, um texto simples, o outro uma imagem. Quando copia e cola do documento, marca o texto enquanto olha para a imagem, mas o que é copiado para a sua prancheta é a parte correspondente da parte do texto.

Dependendo da forma como o documento é criado, a qualidade e disponibilidade da parte de texto pode ser muito diferente. Se guardar um documento em formato PDF, utilizando Acrobat, Word, um driver de impressora PDF ou qualquer outro método, a qualidade será normalmente excelente, uma vez que o ficheiro de texto pode ser criado a partir do texto do original. Alguns caracteres especiais podem ficar distorcidos, mas o texto simples é normalmente bom.

Se o documento for criado a partir de uma imagem digitalizada, contudo, a parte de texto é tipicamente criada pelo processamento OCR da imagem, o que pode produzir resultados bastante lamentáveis, especialmente se o original for inferior ao ideal para o efeito.

Um mau programa utilizado para criar o PDF, ou as configurações erradas, pode também fazer com que a parte de texto se torne completamente desvirtuada, tal como poderia, de forma perceptível, alguns tipos de encriptação executados no ficheiro depois de este ter sido criado.

O resultado final é, se a parte de texto do documento for realmente má, não há maneira de a tornar melhor. A sua melhor aposta seria remover completamente a parte de texto, e fazer com que o programa refaça o processo de OCR. Penso que isso poderia ser possível a partir do Acrobat, mas não tenho a certeza absoluta.

1
1
1
2010-06-24 14:23:21 +0000

Uma razão possível para isto poderia ser que a incorporação de fontes no PDF fosse feita através de uma codificação personalizada, que não é correctamente aplicada quando se copia texto do PDF.

Pode aplicar métodos diferentes para se salvar da digitação manual de todo o conteúdo.

  1. tentou extrair o texto com uma das ferramentas ‘pdftotext.exe’ descarregável através da ‘net? (Recomendaria o incluído em ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. A última versão do Acrobat Reader tem uma opção “Guardar como texto…”. Isto não utiliza “copy'n'paste” (que lhe deu o texto falsificado), mas provavelmente utiliza as mesmas rotinas de software utilizadas para rendering o texto no ecrã, e pode, portanto, produzir mais resultados utilizáveis.
  3. Se '2.’ não funcionar, e se tiver acesso a Acrobat Professional: tente redesenhar o PDF usando um dos perfis de Distiller que inclui uma fonte.
  4. Se ‘3.’ não funcionar, apesar de ter acesso ao Acrobat Professional: tente redesenhar o PDF, mas desta vez deve usar a opção ‘imprimir como imagem’ (disponível através do botão ‘Avançado’ no canto inferior esquerdo do diálogo de impressão principal). Certifique-se de que utiliza 600dpi (embora isso possa produzir um ficheiro enorme). O PDF resultante abre-se então novamente no Acrobat Pro. Agora aplique o algoritmo ‘OCR’ do Acrobat ao ficheiro, que resultará em texto incorporado (não utilizado para renderização no ecrã no Leitor, mas utilizado para pesquisa e realce de cordas). Agora pode tentar novamente extrair o texto deste PDF, utilizando qualquer um dos métodos discutidos acima.
1
Advertisement
1
1
2013-03-15 21:19:30 +0000
Advertisement
-->

Não experimentei a opção Google Docs porque ainda não é suportada no meu escritório. No entanto, ao imprimir o ficheiro para “ScanSoft PDF Create!” a partir de “Acrobat 9” (imprime o ficheiro inteiro para imagem) e ao abrir o ficheiro impresso em “Nuance PDF Converter” (isso incitou-me se queria tornar o ficheiro de imagem pesquisável e editável, ao qual optei), consegui ter um documento Word do qual posso facilmente copiar e colar. Mas não é perfeito com apenas cerca de 80-90% de precisão. Mas ainda tem o ficheiro PDF original para comparar e compensar as partes que simplesmente não podem ser corrigidas. Poupa tempo ao digitar tudo. O meu 2c.

1
1
1
2012-10-02 19:05:44 +0000

Carregando-o para Google docs* e Utilizando a opção Visualizar > HTML simples , dá texto copiável correcto a cerca de 80% com alguns pequenos espaços em falta. Isto fio com resposta aceite* para mesmo número* explica isto com um exemplo de trabalho.

0
0
0
2011-10-16 21:34:19 +0000

Fiz alguns PDFs de texto editável com uma versão antiga do Scansoft PDF Converter para Windows XP, e depois combinei as páginas no programa Preview do Mac. Para cada uma das páginas separadas, pude pesquisar, copiar e exportar texto correctamente a partir do Adobe Reader no Mac. Quando combinadas por Pré-visualização e guardadas como um ficheiro, todas pareciam bem no ecrã, mas apenas algumas passagens eram pesquisáveis/exportáveis correctamente. Esse problema trouxe-me aqui.

Os posts aqui deram-me algumas boas indicações (obrigado!). Dei uma vista de olhos às propriedades do ficheiro para as fontes. Os ficheiros de página única de Win XP (onde tudo está bem) disseram que a codificação era ANSI. O ficheiro combinado em Preview (onde o texto copiado é falsificado) mostrou a codificação para a maioria das fontes como “Built-in” com algumas como “Roman”.

A solução para o meu problema estava sempre debaixo do meu nariz - o próprio programa Scansoft pode combinar ficheiros. Quando utilizei o combinador Scansoft, e abri o ficheiro no Mac, todas as fontes foram mostradas como codificadas com ANSI e todo o texto exportado/copiado na perfeição. Não sei por que razão não as combinei no Conversor PDF. Obrigado, posters!

O mesmo é verdade ao abrir os ficheiros num sistema Linux.

Eu sei que isto não explica os problemas só do Windows - a menos que o PDF tivesse origens mistas semelhantes?

Advertisement

Questões relacionadas

10
19
12
9
11
Advertisement
Advertisement