2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

PDF tem texto falsificado ao colar cópias

Estou a tentar copiar e colar texto de um ficheiro PDF.

Contudo, sempre que colo o texto original é uma enorme confusão de caracteres falsificados. O texto parece o seguinte (este é apenas um pequeno extracto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Já experimentei tanto em leitores de PDF Adobe como Foxit. Fiz um ‘Guardar como texto’ no Adobe Reader e o ficheiro de texto resultante é o mesmo texto falsificado.

Alguma ideia de como posso obter este texto não falsificado? (Para além da digitação manual… há muito texto para extrair).

Respostas (11)

11
11
11
2011-04-08 14:40:29 +0000

A forma mais simples de contornar isto é abrir o ficheiro numa versão recent do Google Chrome com plugin de leitura PDF integrado*. Depois pode usar a função de pesquisa do Chrome para encontrar texto, e copiar-colar funciona correctamente.

Gostaria de votar no comentário de pipitas sobre a resposta de Shiki, mas não tenho os creds :( O problema pode ser código de fonte personalizada, não encriptação*. Em Acrobat, clique em File -> Properties, depois clique no separador Fonts para ver a codificação, e no separador Security para ver se está encriptado.

4
4
4
2012-03-18 14:36:54 +0000

Há outra maneira muito fácil de dar uma volta :)

Basta imprimir o documento utilizando a impressora CutePdf, Adobe 2 Pdf ou qualquer outro material semelhante. O resultado final é que é necessário imprimir no formato pdf.

Em muitos casos, removerá facilmente o problema.

4
4
4
2010-05-18 22:18:44 +0000

Descobri este problema com os PDFs que criei, e creio ter localizado a origem do problema: utilizando o Mac OS X’s Preview para reduzir o tamanho do ficheiro PDF.

Eu tinha criado alguns filtros de Quartzo usando o Colorsync Utility para comprimir imagens em PDFs para reduzir o tamanho total do ficheiro PDFs com imagens. Tal como descrito aqui: http://www.macosxhints.com/article.php?story=20031106133852693

Descobri que sou capaz de facilmente copiar e colar texto do ficheiro PDF original (não comprimido), mas depois de correr esse PDF através de um filtro Reduzir Tamanho do Ficheiro que criei, o PDF comprimido resultante não copia cola claramente (sai parecendo-se com as cordas que colocou).

Contudo, correndo esse mesmo PDF original através do documento do Adobe Acrobat Pro > Função Reduzir Tamanho do Ficheiro, o PDF comprimido resultante pode copiar e colar texto com sucesso.

Portanto, isto não é totalmente útil no seu caso, presumindo que o seu ficheiro PDF foi recebido de outro local e não pode chegar à versão original, se foi de facto comprimido de alguma forma. Mas essa pode ser a explicação - que o ficheiro foi de alguma forma comprimido, num esforço para reduzir o tamanho do ficheiro.

Isto pode ser útil para criadores de conteúdos que se deparam com problemas semelhantes na cópia e colagem de texto de PDFs - tenha cuidado ao usar filtros de quartzo OS X para encolher os seus PDFs!

–edit– Também notei este problema ao combinar PDFs com Pré-visualização. Os dois PDFs de origem podem ser copiados e colados bem, mas ao arrastar uma página de um ficheiro para o outro, e depois guardar o PDF combinado, o texto no documento combinado não pode ser copiado/colado. Estes são dois documentos ambos gerados ao mesmo tempo com o Filemaker Pro 11 em Mac - não consigo imaginar que tenham codificações diferentes ou qualquer coisa do género.

3
3
3
2013-01-03 20:36:58 +0000

Solução que funcionou para mim:

  • Carregar o documento para Google Drive/Docs
  • Google irá importá-lo (a partir de 2013) como PDF
  • Abrir a vista PDF e escolher Arquivo* > Abrir Com* > Google Docs
  • Levará cerca de um minuto a exportar o documento

Os resultados não foram perfeitos, mas conseguiram-me 80% do caminho até lá e fornecer-me texto suficiente para não ter de reescrever tudo!

2
2
2
2013-03-24 23:59:49 +0000

SOLVED: (funcionou para mim no Windows 8, Acrobat XI, Office 2010)

Opção 1:

  1. Impressão a partir do Acrobat usando a saída “Microsoft XPS Document Writer”: “o seu nome de ficheiro.oxps”
  2. Abrir “…oxps” com “XPS Viewer”. *(ver link para download nos comentários abaixo)
  3. Imprimir para PDF (Acrobat PDF, ou CutePDF), utilizando a mais alta resolução (600 DPI).
  4. Abrir com Acrobat e usar a opção OCR (Searchable Image (Exact)).

BINGO!

Comentários:

  • Usando a mais alta resolução e Imagem pesquisável (exacta) irá salvar o seu texto sem perder a sua aparência limpa. A baixa resolução tornará o seu texto legível, mas com uma aparência de porcaria.
  • Descarregar Microsoft XPS (ficheiros): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Se não sabe o que é OCR, ou onde encontrar Imagem Pesquisável (exacta), ou Como imprimir usando “Microsoft XPS Document Writer”, POR FAVOR, Google por conta própria, para as suas melhores experiências.

*Download apenas se não tiver o XPS instalado.

Opção 2:

Fazer semelhante, mas guardar como imagem (png, tiff, …), então terá de combinar todas as páginas de volta num único ficheiro “PDF”.

1
1
1
2011-10-26 18:58:50 +0000

Um dos meus utilizadores acabou de relatar o mesmo problema (PDF foi criado com Distiller for Windows), que o texto copiado é apenas texto falsificado e ele não podia pesquisar dentro de um documento. Experimentei no meu Mac e não encontrei nenhum problema. Afinal, utilizei a aplicação Preview da Apple, enquanto ele utilizava o Adobe Reader na sua máquina Windows. Depois experimentei o Adobe Reader no meu Mac e enfrentei o mesmo efeito. A mim parece-me que sim:

  • O Adobe Reader está a fazer coyping e a pesquisar no texto guardado.

  • O Preview da Apple irá copiar e pesquisar após a aplicação do vector de codificação.

Não posso dizer isto com certeza, mas isso explicaria a minha observação. E permitiria de facto fazer todo o tipo de codificação ao guardar ficheiros combinados/reduzidos, como descrito noutro post aqui: com o Preview ainda se pode obter o texto novamente.

Primeiro pensei que seria mais lógico codificar o subconjunto de fontes incorporado como entradas contíguas em vez de deixar buracos no interior e utilizar a localização original dos caracteres. Mas depois percebi, que ao utilizar um vector de codificação para o subconjunto de fontes com entradas originais, os caracteres que são frequentemente utilizados podem ter menos bits definidos para 1 no seu byte e podem ser comprimidos de uma forma melhor (pode diminuir a entrofia do texto global desta forma).

1
1
1
2010-06-21 20:51:02 +0000

Existe o risco de a informação não poder ser recuperada de forma alguma. Os documentos PDF são essencialmente um documento sobrevoando outro, um texto simples, o outro uma imagem. Quando copia e cola do documento, marca o texto enquanto olha para a imagem, mas o que é copiado para a sua prancheta é a parte correspondente da parte do texto.

Dependendo da forma como o documento é criado, a qualidade e disponibilidade da parte de texto pode ser muito diferente. Se guardar um documento em formato PDF, utilizando Acrobat, Word, um driver de impressora PDF ou qualquer outro método, a qualidade será normalmente excelente, uma vez que o ficheiro de texto pode ser criado a partir do texto do original. Alguns caracteres especiais podem ficar distorcidos, mas o texto simples é normalmente bom.

Se o documento for criado a partir de uma imagem digitalizada, contudo, a parte de texto é tipicamente criada pelo processamento OCR da imagem, o que pode produzir resultados bastante lamentáveis, especialmente se o original for inferior ao ideal para o efeito.

Um mau programa utilizado para criar o PDF, ou as configurações erradas, pode também fazer com que a parte de texto se torne completamente desvirtuada, tal como poderia, de forma perceptível, alguns tipos de encriptação executados no ficheiro depois de este ter sido criado.

O resultado final é, se a parte de texto do documento for realmente má, não há maneira de a tornar melhor. A sua melhor aposta seria remover completamente a parte de texto, e fazer com que o programa refaça o processo de OCR. Penso que isso poderia ser possível a partir do Acrobat, mas não tenho a certeza absoluta.

1
1
1
2010-06-24 14:23:21 +0000

Uma razão possível para isto poderia ser que a incorporação de fontes no PDF fosse feita através de uma codificação personalizada, que não é correctamente aplicada quando se copia texto do PDF.

Pode aplicar métodos diferentes para se salvar da digitação manual de todo o conteúdo.

  1. tentou extrair o texto com uma das ferramentas ‘pdftotext.exe’ descarregável através da ‘net? (Recomendaria o incluído em ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. A última versão do Acrobat Reader tem uma opção “Guardar como texto…”. Isto não utiliza “copy'n'paste” (que lhe deu o texto falsificado), mas provavelmente utiliza as mesmas rotinas de software utilizadas para rendering o texto no ecrã, e pode, portanto, produzir mais resultados utilizáveis.
  3. Se '2.’ não funcionar, e se tiver acesso a Acrobat Professional: tente redesenhar o PDF usando um dos perfis de Distiller que inclui uma fonte.
  4. Se ‘3.’ não funcionar, apesar de ter acesso ao Acrobat Professional: tente redesenhar o PDF, mas desta vez deve usar a opção ‘imprimir como imagem’ (disponível através do botão ‘Avançado’ no canto inferior esquerdo do diálogo de impressão principal). Certifique-se de que utiliza 600dpi (embora isso possa produzir um ficheiro enorme). O PDF resultante abre-se então novamente no Acrobat Pro. Agora aplique o algoritmo ‘OCR’ do Acrobat ao ficheiro, que resultará em texto incorporado (não utilizado para renderização no ecrã no Leitor, mas utilizado para pesquisa e realce de cordas). Agora pode tentar novamente extrair o texto deste PDF, utilizando qualquer um dos métodos discutidos acima.
1
1
1
2013-03-15 21:19:30 +0000

Não experimentei a opção Google Docs porque ainda não é suportada no meu escritório. No entanto, ao imprimir o ficheiro para “ScanSoft PDF Create!” a partir de “Acrobat 9” (imprime o ficheiro inteiro para imagem) e ao abrir o ficheiro impresso em “Nuance PDF Converter” (isso incitou-me se queria tornar o ficheiro de imagem pesquisável e editável, ao qual optei), consegui ter um documento Word do qual posso facilmente copiar e colar. Mas não é perfeito com apenas cerca de 80-90% de precisão. Mas ainda tem o ficheiro PDF original para comparar e compensar as partes que simplesmente não podem ser corrigidas. Poupa tempo ao digitar tudo. O meu 2c.

1
1
1
2012-10-02 19:05:44 +0000

Carregando-o para Google docs* e Utilizando a opção Visualizar > HTML simples , dá texto copiável correcto a cerca de 80% com alguns pequenos espaços em falta. Isto fio com resposta aceite* para mesmo número* explica isto com um exemplo de trabalho.

0
0
0
2011-10-16 21:34:19 +0000

Fiz alguns PDFs de texto editável com uma versão antiga do Scansoft PDF Converter para Windows XP, e depois combinei as páginas no programa Preview do Mac. Para cada uma das páginas separadas, pude pesquisar, copiar e exportar texto correctamente a partir do Adobe Reader no Mac. Quando combinadas por Pré-visualização e guardadas como um ficheiro, todas pareciam bem no ecrã, mas apenas algumas passagens eram pesquisáveis/exportáveis correctamente. Esse problema trouxe-me aqui.

Os posts aqui deram-me algumas boas indicações (obrigado!). Dei uma vista de olhos às propriedades do ficheiro para as fontes. Os ficheiros de página única de Win XP (onde tudo está bem) disseram que a codificação era ANSI. O ficheiro combinado em Preview (onde o texto copiado é falsificado) mostrou a codificação para a maioria das fontes como “Built-in” com algumas como “Roman”.

A solução para o meu problema estava sempre debaixo do meu nariz - o próprio programa Scansoft pode combinar ficheiros. Quando utilizei o combinador Scansoft, e abri o ficheiro no Mac, todas as fontes foram mostradas como codificadas com ANSI e todo o texto exportado/copiado na perfeição. Não sei por que razão não as combinei no Conversor PDF. Obrigado, posters!

O mesmo é verdade ao abrir os ficheiros num sistema Linux.

Eu sei que isto não explica os problemas só do Windows - a menos que o PDF tivesse origens mistas semelhantes?