segunda-feira, 7 de julho de 2025

ESTAMOS QUASE LÁ

Falta bem pouco para eu terminar de acrescentar ao Dicionário Ganbarou Ze! toda a base de palavras do projeto EDICT (mais de 300.000 palavras). Não vou revelar qual o número exato de palavras que faltam ser revisadas, mas o número é menor do que o menor número de dias que um mês pode ter e, provavelmente, até o começo de agosto terei terminado esse projeto. Seremos (ou já somos) o primeiro projeto de tradução do projeto EDICT para o português e possivelmente o maior, no sentido que não há em outra língua um projeto de tradução da base do EDICT do tamanho do nosso.

Eu já deveria estar perto do fim, mas houve alguns contratempos nessas últimas semanas. Meu PC antigo foi de arrasta para cima e, apesar de eu ter outro PC, o bestão aqui não tinha um backup na nuvem dos arquivos contendo as palavras. Mas há males que vêm para o bem. Se você visita o Ganbarou Ze! com frequência, deve ter percebido que o Dicionário Ganbarou Ze! passou por algumas melhorias. Ou seja, durante o tempo que eu não pude mexer com as palavras, mexi no código do Dicionário.

A função “Decompor” teve uma atenção especial de minha parte com sua lógica sendo bem melhorada. Agora, eu diria que a função decompor (através da tag “Sugestão”) passa por diversos filtros para tentar mostrar somente as palavras que realmente formam uma palavra mais complexa. 

Faça um teste você mesmo, por exemplo, com a palavra 登録者数. Ao escolher “Decompor”, a tabela tradicional será gerada com diversas repetições de Kanjis (com pronúncias diferentes), mas quando você clicar em “Sugestão” (e em “Decompor +” – uma decomposição dentro da decomposição), nossos filtros entrarão em ação, e apenas o que faz realmente parte da palavra 登録者数 será mostrado.

Enfim, a próxima postagem aqui provavelmente será para pontuar o fim da inclusão de todas as palavras do projeto EDICT no Dicionário Ganbarou Ze! (finalmente!).

Aguardem!