Como detectar automaticamente a codificação de ficheiros de texto?
Há muitos ficheiros de texto simples que foram codificados em caracteres variantes.
Quero convertê-los todos para UTF-8, mas antes de executar o iconv, preciso de saber a sua codificação original. A maioria dos browsers tem uma opção Auto Detect
em codificações, no entanto, não posso verificar esses ficheiros de texto um a um porque há demasiados.
Apenas tendo conhecido a codificação original, posso então converter os textos por iconv -f DETECTED_CHARSET -t utf-8
.
Existe alguma utilidade para detectar a codificação de ficheiros de texto simples? NÃO tem de ser 100% perfeito, não me importo se houver 100 ficheiros mal convertidos em 1.000.000 de ficheiros.