segunda-feira, 9 de dezembro de 2024

METADE DO PROJETO EDICT

Como mencionei aqui em uma postagem do dia 29 de outubro de 2024, atualmente a base de palavras do Dicionário Ganbarou Ze! está assim composta:

(1) TODAS as listas de palavras com base na frequência em diversos campos que encontrei nesses mais de 10 anos de projeto (em torno de 125.000 palavras);

(2) O dicionário de nomes do projeto EDICT (em torno de 750.000 nomes);

(3) TODAS as novas palavras adicionadas ao projeto EDICT entre meados de julho de 2023 até HOJE (em torno de 15.000 palavras)

(4) TODAS as novas palavras adicionadas ao projeto EDICT de HOJE em diante, na forma de atualizações semanais, mensais, etc..

E agora acrescento mais um item a esta lista como meta a ser cumprida, se possível, ao longo de 2025:

(5) TODO o restante da base de dados de palavras do projeto EDICT, o que gira em torno de 160.000 palavras.

***

Na verdade, essas 160.000 palavras restantes (excluindo-se as mais frequentes e as mais recentes como citado acima), já foram “traduzidas” com a ajuda de diversos scripts e programas de tradução, sendo necessária, apenas uma revisão. Contudo, como são muitas palavras e este é um trabalho solitário, esse processo de revisão acaba sendo bem demorado.

Eu já incluí cerca de 11.000 dessas palavras restantes, então, posso dizer que já passei da metade considerando toda a base de dados de palavras do projeto EDICT (cerca de 300.000 palavras).