Depois de mais de 2 meses do lançamento do FuriGanbarou! e muitos ajustes posso dizer que estou muito feliz com o resultado. Ainda mais por que nesta semana, depois de muita pesquisa e conversa com meus “programadores virtuais”, diria que conquistei meu MAIOR objetivo para o Furiganbarou!: usar como dicionário de segmentação o UNIDIC!!!
Eu não sou programador e, portanto, sou leigo no assunto. Contudo, de forma simplista, segmentadores de textos japoneses usam lógica e um dicionário morfológico, que possuem a palavra, a leitura, a classe gramatical e o “custo de conexão”, que seria, novamente de forma simplista, uma probabilidade que indica a quais palavras uma determinada palavra tende a aparecer com mais frequência considerando o contexto. Até onde eu entendi sobre o assunto, esse custo de conexão é obtido pela análise de banco de dados de sentenças.
Nenhum dicionário morfológico acertará TUDO obviamente, pois estamos falando de probabilidades. Porém, existem dicionários mais precisos e menos precisos. E quanto mais precisos forem, mais pesados eles tendem a ser obviamente. Esse é o caso do UNIDIC: ele é talvez o dicionário morfológico mais preciso que existe atualmente, mas essa precisão tem um preço, que é o tamanho da sua, digamos, lógica de cálculo de custos de conexão.
Por isso mesmo, a maioria dos segmentadores usam o IPADIC, um dicionário morfológico leve, com um nível de precisão aceitável, mas que não é atualizado oficialmente desde 2007. O que mais me incomoda com relação ao IPADIC é justamente o fato de ele estar abandonado oficialmente falando. Por essa razão, ao criar o FuriGanbarou!, eu quis compensar essa desatualização do IPADIC com o EDICT/EMANDICT e o KANJIDIC. Por conta disso, o FuriGanbarou tem uma lógica complexa para um princípio simples:
“O EDICT/EMANDICT/KANJIDIC, por terem bases mais recentes, são os revisores do trabalho do segmentador com o IPADIC”
Isso parece simples, mas nesses dois meses fui me convencendo de que há muitas incoerências no tratamento de dados por parte do IPADIC, o que estava exigindo de mim criar mais e mais lógicas de revisão e correção e cada vez mais complexas. Só para ter uma ideia, atualmente o FuriGanbarou! tem mais de 20.000 linhas de código! Para um trabalho solitário de quem não é programador profissional, isso parecia não ter fim.
O fato de conseguir finalmente compilar o UNIDIC para usá-lo com o FuriGanbarou! é uma grande conquista, pois agora temos um dicionário morfológico mais recente e mais preciso (com cerca de 800.000 palavras), sem contar o código robusto de revisão e correção por meio do EDICT/EMANDICT/KANJIDIC (com mais de 1 milhão de entradas).
Dito isso, o FuriGanbarou! não é apenas mais um simples injetor de furiganas, mas é também um EDITOR AVANÇADO de furiganas que usa as bases mais recentes e mais precisas possíveis. É uma ferramenta ÚNICA no Brasil e talvez no MUNDO considerando o conjunto. E é uma ferramenta gratuita e BRASILEIRA!
Ah, e agora é possível copiar o texto com furiganas em cima do texto:
カーボベルデ出身のゴールキーパー、ヴォジーニャは40歳で、あり得ないと思われていた軌道で壮大な夢を実現しようとしている。= O goleiro Vozinha, originário de Cabo Verde, tem 40 anos e está prestes a realizar um grande sonho em uma trajetória que parecia impossível.