domingo, 22 de junho de 2025

MECAB “MADE IN BRASIL”

Em poucas palavras e de forma simplista, o Mecab é um código que decompõe palavras japonesas em palavras menores, o que facilita visualizar os elementos constituintes de uma palavra.

Essa semana eu pensei:

“Ah, se o Dicionário Ganbarou Ze! tem a funcionalidade de decompor palavras, por que não adicionar uma lógica ao seu código para que ele tente “adivinhar” quais são os elementos que formam a palavra pesquisada? Tipo um Mecab da vida…”

Como não sou programador e não tenho uma equipe de programadores humanos, pedi ao meu “programador virtual” (ChatGPT) [é o que temos para hoje!] que colocasse essa ideia em prática. Então, nós dois criamos a tag “sugestão”, que aparecerá quando uma decomposição (automática ou manual) for executada.

image

Ao selecionar a tag “Sugestão”, o Dicionário Ganbarou Ze! apresentará a provável formação da palavra pesquisada. Como exemplo, peguemos a palavra “大使級会談”, que em breve constará na nossa base de dados. Como ela não consta ainda na base de dados, ela será decomposta automaticamente, sendo exibidos 68 registros. Ao selecionar a tag “Sugestão”, teremos:

image

Aliás, se fôssemos decompor “大使級会談” no Mecab, teríamos o mesmo resultado:

image

E a vantagem do nosso (meu e do ChatGPT) Mecab “Made In BraSil” é que, talvez, ele lide melhor com nomes do que o próprio Mecab! Afinal, “nosso código, nossa lógica!”. Peguemos como exemplo o nome da idol Kiara Saitou (齋藤樹愛羅) do grupo =LOVE. Ao selecionar as tags “Sugestão” e “G0 (nome)”, temos:

image

Veja como o Mecab decompõe o mesmo nome:

image

Esta é uma das vantagens de se ter um código próprio. É fazer o mesmo que os outros fizeram, mas também fazer o que os outros não fizeram – ou seja, aprimorar! É claro que o código ainda pode ser melhorado quanto à lógica, mas com certeza eu farei isso quando achar necessário.

Acho que agora podemos dizer que pela primeira vez temos um Mecab brasileiro. Um Mecab “made in BraSil by projeto Ganbarou Ze!”.