juntando vários arquivos html em um único arquivo

parecia ‘simples’, principalmente depois de ler isso, mas não foi por um motivo… codificação…
Mas deixa eu contar primeiro porque estava querendo juntar eles.
Hoje as 2 da madrugada, eu e minha esposa terminamos a documentação do projeto ASE. Blz!, usamos o help engine do próprio Qt e o assistant. Tudo funcionando legal.
Apenas pra constar o Help engine do Qt, é uma coleção de arquivos HTML agrupados em arquivo e aberto pelo Assistant. tem muita coisa legal nisso deem uma olhada na documentação.

Fui durmir feliz da vida, até olhei um filme de um cara de outro planeta num hospicio. De manhã acordo com a esposa dizendo “O professor ligou, deu um erro nos pacote ASE.”

Pirei cara, “Mas tava funcionando!”, “Será que o pacote corrompeu?”, “será alguma versão de dll?”, “será que ele tava falando da ajuda ou do programa que parou de funcionar?” Levantei e fui ver meus e-mails, era só arquivo corrompido… ufa…

Mas tinha uma outra tarefa criar um documento (doc, pdf) com todo conteudo de ajuda.

Pensei, vou abrir com o word! pra da HTML ele criava um novo documento.
Tá vou então gerar todos documentos e nofinal faço um ‘append’! Word permite que se insita outros documentos, mas eles ficam como objetos. Não servia

Pensei HTML nada mais é que um XML, vou retirar as tags </body> e </html> e juntar. segunido o link citado no inicio fiz e funcionou! Até por ali, alguns arquivos estavam codificados com UTF e outros como ANSI. Acentos viravam uma bagunça. Tinha que transformar tudo em UTF (Tenho tomado essa inciativa pra meus documentos ‘cross plataform’)

Pra isso lembrei do notepad++ (já puderam ver que eu estava no windows). Ele tem uma funcinalidade legal que mostra a codificação atual dos documentos e permite converte-los para outra codificação.

Blz com isso tinha todos arquivos HTML em uma codificação e pude juntar em um arquivo html, abrir com o word, arrumar um pouco a formatação, gerar um PDF e enviar.

Tudo muito simples, mas que me tomou um certo tempo. uma coisa que aprendi é que vale mais perder um certo tempo pesquisando que fazendo na ‘marra’. Claro que vale tambem o conhecimento do sujeito, se não conhecesse o notepad++, possivemente estaria ainda copiando e colando textos…

Abraços

Anúncios

Uma resposta

  1. Muito complicado e demorado… Num terminal do Linux eu entraria numa pasta com milhões de HTMLs e digitaria:

    cat *.html > arquivo.html

    E só se tivesse problemas maiores com codificação, abriria esse arquivo resultante (arquivo.html) num editor de texto (algo parecido com o Notepad do Windows) e mudaria a tag do HTML do documento.

    Acabo de fazer isso com os 3230 arquivos que baixei (com apenas um comando também) de um site de filosofia e agora posso ler como um unico documento de mais de 20 mil páginas no Kindle.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: