Em poucas palavras e de forma simplista, o Mecab é um código que decompõe palavras japonesas em palavras menores, o que facilita visualizar os elementos constituintes de uma palavra.
Essa semana eu pensei:
“Ah, se o Dicionário Ganbarou Ze! tem a funcionalidade de decompor palavras, por que não adicionar uma lógica ao seu código para que ele tente “adivinhar” quais são os elementos que formam a palavra pesquisada? Tipo um Mecab da vida…”
Como não sou programador e não tenho uma equipe de programadores humanos, pedi ao meu “programador virtual” (ChatGPT) [é o que temos para hoje!] que colocasse essa ideia em prática. Então, nós dois criamos a tag “sugestão”, que aparecerá quando uma decomposição (automática ou manual) for executada.
Ao selecionar a tag “Sugestão”, o Dicionário Ganbarou Ze! apresentará a provável formação da palavra pesquisada. Como exemplo, peguemos a palavra “大使級会談”, que em breve constará na nossa base de dados. Como ela não consta ainda na base de dados, ela será decomposta automaticamente, sendo exibidos 68 registros. Ao selecionar a tag “Sugestão”, teremos:
Aliás, se fôssemos decompor “大使級会談” no Mecab, teríamos o mesmo resultado:
E a vantagem do nosso (meu e do ChatGPT) Mecab “Made In BraSil” é que, talvez, ele lide melhor com nomes do que o próprio Mecab! Afinal, “nosso código, nossa lógica!”. Peguemos como exemplo o nome da idol Kiara Saitou (齋藤樹愛羅) do grupo =LOVE. Ao selecionar as tags “Sugestão” e “G0 (nome)”, temos:
Veja como o Mecab decompõe o mesmo nome:
Esta é uma das vantagens de se ter um código próprio. É fazer o mesmo que os outros fizeram, mas também fazer o que os outros não fizeram – ou seja, aprimorar! É claro que o código ainda pode ser melhorado quanto à lógica, mas com certeza eu farei isso quando achar necessário.
Acho que agora podemos dizer que pela primeira vez temos um Mecab brasileiro. Um Mecab “made in BraSil” by projeto Ganbarou Ze!”.