2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Como copiar texto de um PDF sem perder a formatação?

Quando copio texto de um ficheiro PDF para um editor de texto, este acaba por ser manchado de várias formas. A formatação como negrito e itálico é perdida; as quebras de linha suaves dentro de um parágrafo de texto são convertidas em quebras de linha duras; os traços para quebrar uma palavra em duas linhas são preservados mesmo quando não deveriam ser; e as aspas simples e duplas são substituídas por sinais ?.

Idealmente, gostaria de ser capaz de copiar texto de um PDF e ter a formatação convertida em códigos HTML, as “aspas inteligentes” convertidas em “ e ‘, e as quebras de linha feitas correctamente. Há alguma forma de o fazer?

Respostas (9)

54
54
54
2010-10-11 21:30:12 +0000

Em primeiro lugar, é preciso compreender o que é um PDF. Os PDFs são concebidos para imitar uma página impressa, e são concebidos apenas como um formato de saída, não como um formato de entrada. um PDF é basicamente um mapa contendo a localização exacta dos caracteres (letras individuais ou pontuação, etc.) ou imagens. Na maioria dos casos, um PDF não armazena sequer informação sobre onde uma _palavra termina e outra começa, muito menos coisas como pausas suaves vs. pausas duras para terminar parágrafos.

(Alguns PDFs recentes armazenam alguma informação sobre este material, mas isso é uma nova tecnologia, e você teria sorte em encontrar PDFs como este. Mesmo que o fizesse, o seu visualizador de PDFs poderia não saber)

De qualquer forma, cabe ao seu software implementar algum tipo de “inteligência artificial” para extrair apenas da localização de caracteres individuais o que é uma palavra, o que é um parágrafo, e assim por diante. Um software diferente vai fazer isto melhor do que outros, e também vai depender de como o PDF foi feito. Em qualquer caso, deve nunca esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. Muito melhor tentar obter isso se puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o caro, não o leitor gratuito) para converter o PDF para HTML. Mesmo isso não vai obter resultados perfeitos.

Há um software gratuito que pode ser usado para extrair texto de PDFs com alguma formatação intacta, mas mais uma vez, não espere resultados perfeitos. Veja, por exemplo, calibre (que pode converter para o formato RTF), pdftohtml/pdfreflow ou o AbiWord word processor (com todos os plugins de importação/exportação habilitados). Existe também um plugin de importação PDF para OpenOffice.

Mas por favor não espere perfeição com nenhum destes resultados. Está a ir contra o grão aqui. O PDF não pretende ser um formato de entrada editável.

8
8
8
2013-01-24 07:05:37 +0000

Outra opção é fazer o download e começar a utilizar o visualizador gratuito de pdf, Foxit (seu bom). Depois pode “Guardar como” e escolher .txt para o converter para um ficheiro de texto. Isso irá preservar toda a formatação. Não sei se pode fazer o mesmo no Adobe porque deixei de o utilizar há algum tempo quando o converti para o Foxit.

5
5
5
2012-12-01 13:48:55 +0000

Abra o seu ficheiro PDF com um browser(Google chrome e firefox são testados)e copie o seu texto para lá.

5
5
5
2012-12-01 14:29:34 +0000

Existe uma ferramenta online muito boa chamada Sej-da. É uma ferramenta de manipulação avançada de PDF. Não há nenhum software para descarregar. Como é uma nova ferramenta online, ainda se encontra em Beta. Permite extrair texto de um PDF, bem como fornecer uma miríade de outras funcionalidades PDF http://www.sejda.com/

Uma breve revisão vídeo das funções sejda foi feita a 14 de Novembro de 2012 pela Revisão 3 e pode ser encontrada aqui: http://revision3.com/tzdaily/sejda-online-pdf

4
4
4
2012-09-06 19:00:19 +0000

Para isto pode utilizar o Adobe Acrobat Pro.

Para tabelas: Com o Acrobat 9/10 havia um recurso de tabelas selecionadas. Com o Acrobat X pode apenas clicar em Save As > Spreadsheet > Excel. Até mesmo concatena as páginas em uma planilha longa. Uma funcionalidade fantástica.

Para texto: Existe uma funcionalidade semelhante para exportar para o MS Word. Save As > Word > Word Doc.

Fontes:

0
0
0
2015-04-13 11:19:56 +0000

A Foxit alterna entre exibir o arquivo original como PDF normal ou como texto pressionando Ctrl + 6 (Com um pouco de manipulação com o nível de zoom do modo texto, não há muito salto de posição entre a leitura e a cópia)

0
0
0
2017-02-25 23:17:51 +0000

Achei isto muito útil ( Remove Line Breaks ):

Aqui está um truque útil para resolver isto rapidamente sem ter que remover todas as quebras de linha manualmente. Basicamente, tudo o que faz é substituir automaticamente todas as quebras de linha indesejadas por um único espaço, fazendo com que todo o texto corra em conjunto num único parágrafo:

1- copie o texto que pretende do PDF.

2- cole num novo documento Word.

3- clique em “editar” depois em “substituir”

4- certifique-se de que está no campo “find what”

5- clique em “more” depois em “special”

6- seleccione “paragraph mark” (topo da lista)

7- clique no campo “replace with”

8- prima uma vez a barra de espaços

9- clique em “replace all”

10- clique em “ok” depois feche a caixa “find & replace”.

-1
-1
-1
2016-01-22 16:15:08 +0000

Eu estava tentando salvar o texto e o formato de um pdf que foi organizado em uma tabela. No Acrobat Professional, percebi que existe uma opção ‘Save As’ que permite salvar como um documento excelente. Isto funcionou bem para as minhas necessidades. Também notei que existe a opção de salvar como documento do Word. Mas não o experimentei.

-1
-1
-1
2015-12-11 04:23:43 +0000

Pode copiar do adobe reader para o MS Excel e formatar (tabela) da forma que desejar e depois copiar e colar a partir do Excel. Esta solução funciona muito bem. Não precisa de comprar uma cópia profissional cara de adobe.