
|
@ FAQ do br.ispell
@ ltima atualizao 2nov2002
@ envie sugestes e crticas para ueda@ime.usp.br
SEO 1 - Entendendo o br.ispell
1.1 O que coberto por esta seo do FAQ?
A seo "entendendo o br.ispell" explica o que um verificador
e, sem entrar em detalhes tcnicos, para que serve o br.ispell e
como ele vem sendo desenvolvido.
1.2 O que um verificador ortogrfico?
O melhor modo de saber o que um verificador ortogrfico usar
algum deles ao redigir um documento. Se voc no souber fazer
isso, pea ajuda para algum colega que saiba, e voc entender
rapidamente o funcionamento. Ao aplicar o verificador no
documento, ele examinar cada palavra e indicar aquelas cuja
ortografia est incorreta, sugerindo alternativas.
1.3 Como funciona um verificador ortogrfico?
Os verificadores ortogrficos so programas relativamente
simples. Eles possuem uma lista de palavras consideradas corretas
e, para cada palavra de um texto, testam se ela ocorre ou no na
lista. Se ocorrer, a ortografia admitida correta. Caso
contrrio ela ser considerada incorreta.
1.4 O que o dicionrio?
a lista das palavras consideradas corretas pelo verificador.
1.5 Portanto necessrio levantar todas as palavras da lngua?
Sim, mas como os verificadores so programas simples,
necessrio tambm que o dicionrio seja flexionado.
Dicionrios da lngua como o Aurlio ou o Houaiss, e vocabulrios
como o VOLP da Academia Brasileira de Letras, trazem apenas o
lema de cada palavra, isto , a forma atravs da qual ela
consultada. Por exemplo: "menino". Mas o dicionrio de um
verificador necessita explicitar cada uma das flexes: menino,
menina, meninos, meninas, menininho, etc. O dicionrio de um
verificador deve incluir tambm todas as formas verbais ("amo",
"amas", "ama", etc), e outras palavras que via de regra no
constam dos dicionrios da lngua, como os nomes prprios
("Joo", "Mxico", etc).
1.6 O que o br.ispell?
O br.ispell um dicionrio de livre uso construdo
cooperativamente que pode ser utilizado por vrios verificadores
diferentes. Sua construo foi iniciada em 1995, o seu uso vem
difundindo-se ao longo dos anos, e os trabalhos de depurao e
aperfeioamento prosseguem.
1.7 Como obter o br.ispell?
O br.ispell est disponvel no endereo
http://www.ime.usp.br/~ueda/br.ispell
1.8 Quais verificadores ortogrficos o br.ispell suporta?
O br.ispell pode ser utilizado com o ispell, o aspell e o
myspell. Aplicaes como o Mozilla, o OpenOffice, o Emacs ou
outras suportam um ou mais desses verificadores. Assim, o
br.ispell pode ser utilizado normalmente nesses e em muitas
outras aplicaes.
1.9 O br.ispell funciona no Windows?
O br.ispell foi desenvolvido em sistemas do tipo Unix, mas ele
pode ser utilizado normalmente no Windows, pelas aplicaes que
suportarem ispell, aspell ou myspell (por exemplo o OpenOffice).
1.10 Como usar o br.ispell?
Para a maior parte das pessoas, o uso do br.ispell
transparente. Ele acompanha vrios sistemas operacionais livres,
pronto para uso. Entretanto, no caso de alguns programas ou
sistemas poder haver necessidade de gerar ou obter alguns
arquivos, instal-los convenientemente, ou configurar programas
ou ambientes. A documentao do br.ispell no cobre todos esses
detalhes, mas inclui algumas dicas (veja a seo de dicas deste
FAQ se houver necessidade).
1.11 O br.ispell inclui todas as palavras do portugus?
No. impossvel levantar todas as palavras de uma lngua,
porque a lngua est continuamente em transformao. Alm do
mais, nem conveniente incluir todas as palavras, porque as
palavras de uso raro geram falsos positivos. Por exemplo: "carme"
significa "verso" ou "poesia". Os latinistas ficaro contentes se
"carme" for adicionada ao dicionrio. Mas para todas as outras
pessoas que nunca usam essa palavra ela s atrapalhar, porque se
por deslize escreverem "carme" ao invs de "carne", o verificador
no detetar o erro ortogrfico.
1.12 Que tal copiar as palavras de um dicionrio eletrnico?
Independentemente dessa operao ser ou no tecnicamente
possvel, copiar todas as palavras da edio eletrnica de um
dicionrio da lngua como o Aurlio provavelmente ilegal. Alm
do mais pouco til porque conforme j explicado, o verificador
necessita que as palavras estejam flexionadas (flexionar as
palavras geralmente mais trabalhoso do que levant-las). Pior
ainda, pode prejudicar a verificao, em virtude dos falsos
positivos.
1.13 Ento, como fazer?
A construo do dicionrio no deve limitar-se a ir acumulando
palavras numa lista gigantesca. O levantamento do lxico deve ser
feito de forma gradual e estruturada, a fim de tornar possvel o
trabalho de depurao.
Por exemplo: a depurao manual de uma lista de dezenas de
milhares de palavras, uma a uma, um trabalho insano. Mas a
reviso de uma lista de infinitivos verbais e de um paradigma de
conjugao que se aplica a dezenas ou centenas de verbos um
trabalho bem mais simples.
1.14 Qual a estratgia de desenvolvimento adotada pelo br.ispell?
O dicionrio br.ispell estrutura o seu contedo em vrios
nveis. O mais fundamental a separao de verbos e no
verbos. Os verbos so conjugados de forma automtica, a fim de
gerar todas as formas para o verificador. As outras palavras so
flexionadas de forma semi-automtica, atravs de uma
classificao semntica e gramatical, e da anotao das
entradas. O contedo bsico do br.ispell formado apenas por
palavras de uso comum no Brasil, a fim de evitar o problema dos
falsos positivos. As palavras de uso raro esto sendo adicionadas
de forma modular, a fim de que possam ser removidas em bloco se
houver necessidade. Mais palavras vo sendo adicionadas
paulatinamente, medida em que vo sendo contribudas. Outros
recursos de granularidade mais fina esto disponveis tambm.
1.15 Isso no complicado demais?
Ao lidar com a lngua, a complexidade inevitvel. A construo
do br.ispell vem sendo trabalhosa para todas as pessoas que se
dispuseram a investir esforos nele. Em contrapartida, o
resultado tem qualidade e est livremente disponvel.
1.16 Como posso ajudar nesse trabalho?
Ao longo dos anos, a colaborao com esses trabalhos vem
acontecendo por iniciativa das pessoas que obtm o pacote na
Internet, usam-no, entendem os aspectos fundamentais do
funcionamento, e detetam e corrigem problemas, tanto ao nvel do
cdigo dos programas que acompanham o pacote, quanto ao nvel do
contedo lexical.
O projeto vem tentando materializar formas de colaborao que
dependam menos do conhecimento especfico do pacote. Isso est
acontecendo na forma de um sistema online que ainda preliminar
mas j est disponvel no endereo provisrio
http://www.claraocr.orb/br.ispell
A finalidade bsica desse sistema permitir que palavras no
reconhecidas pelo verificador sejam adicionadas. Ele permite
tambm que a palavra seja anotada (exemplo: indicar a sua classe
gramatical). A anotao no obrigatria mas til.
Um outro modo, concreto e simples de colaborar contribuir
textos revisados, que possam ser utilizados tanto para
levantamento de vocabulrio quanto para testes do verificador.
1.17 Quem colabora com o br.ispell abre mo dos direitos de autor?
No. Materiais livres como o br.ispell preservam os direitos de
autor (copyright). O br.ispell copyright de seus autores, ou
seja, das pessoas que o construram, mas pode ser livremente
usado, alterado ou redistribudo segundo os termos da licena
GPL.
1.18 O que significa o br.ispell ser GPL?
O br.ispell um pacote que inclui programas (conjugador de
verbos, lematizador, etc) e contedo lexical (no apenas uma
lista de palavras, mas tambm um padro e informaes de flexo,
uma classificao semntica, tabelas para compresso de afixos,
etc). O conjunto de programas e contedo lexical entendido como
o fonte, e os arquivos br.hash e pt_BR.* e quaisquer executveis
so entendidos como o objeto. O pacote aberto e disponibilizado
sob a licena GNU GPL, que a mesma que acompanha a maior parte
dos programas livres ou abertos hoje existentes. Essa licena
permite o livre uso, cpia, alterao e redistribuio, desde que
acompanhada dos fontes e sob a mesma licena, isto , a GPL, a
fim de garantir que o uso permanea livre.
Para maiores informaes sobre a GPL veja
http://www.gnu.org/copyleft/gpl-faq.html
1.19 O contedo lexical pode ser utilizado por programas no GPL?
Os arquivos br.hash, pt_BR.dic, pt_BR.aff e pt_BR gerados pelo
pacote so de uso irrestrito para fins de verificao
ortogrfica. O uso desses arquivos por um verificador no
entendido pelos autores do br.ispell semelhana de uma
linkagem, mas semelhana da comunicao entre programas
independentes, que podem portanto ser regidos por licenas
diversas. O mesmo princpio dever ser aplicado a outros formatos
que ainda venham a ser suportados.
Note que esses arquivos no incluem todo o contedo lexical do
br.ispell, mas trazem apenas a lista dos lemas, as suas flexes e
as tabelas de compresso de afixos. O uso e redistribuio desses
arquivos pressupe que eles estejam acompanhados dos fontes, isto
, do pacote br.ispell, ou ao menos da indicao deste de forma a
possibilitar que o pacote possa ser obtido atravs da Internet.
SEO 2 - Dicas de instalao e uso
2.1 O que coberto por esta seo do FAQ?
A seo "dicas de instalao e uso" tenta dar algumas coordenadas
para quem no estiver conseguindo instalar ou usar o
br.ispell. Como as situaes prticas variam muito, as dicas so
um pouco genricas. Ser geralmente intil tentar contatar as
pessoas que mantm o br.ispell solicitando suporte mais
especfico, porque elas no tm conhecimento detalhado das
variadas aplicaes e dos diversos ambientes.
2.2 Eu preciso instalar o br.ispell?
Provavelmente no. O processo de instalao de muitos sistemas
operacionais livres inclui de forma automtica um dicionrio de
verificao do portugus do Brasil, pronto para uso, quando se
seleciona o portugus do Brasil como lngua de instalao ou como
lngua suportada.
2.3 Como instalar o br.ispell?
Os sistemas operacionais livres geralmente trazem o br.ispell
pr-empacotado, seja na forma de um dicionrio para o ispell,
seja na forma de um dicionrio para o aspell. Levante no seu
sistema operacional quais so as ferramentas de verificao
disponveis (ispell, aspell, myspell, ou outras) e quais
dicionrios existem para cada uma delas. O modo de realizar essa
procura varia de acordo com o sistema operacional. Se existir um
dicionrio do portugus do Brasil na forma de um pacote, ento
bastar instal-lo, se isso j no tiver sido feito. O modo de
instalar um pacote depende do sistema operacional, mas geralmente
uma tarefa simples.
Alm disso, ser necessrio provavelmente avisar as aplicaes
que elas devem utilizar o dicionrio do portugus do Brasil (e
no o de ingls ou de outra lngua). Isso normalmente feito ou
na configurao do desktop, ou na configurao da aplicao, ou
atravs de variveis de ambiente.
2.4 Ento eu no preciso baixar o arquivo br.ispell-X.Y.tar.gz?
Na maior parte dos casos no ser necessrio nem baixar esse
arquivo, e nem tentar produzir a partir dele os arquivos que o
verificador (ispell, aspell, etc.) necessita.
2.5 O meu caso diferente
Ento provvel que voc no tenha tambm um verificador
ortogrfico instalado ou pr-empacotado. Procure levantar em
quais aplicaes (email, editores, etc) voc deseja utilizar a
verificao ortogrfica, e quais verificadores (ispell, aspell,
etc) elas suportam. Instale os verificadores, e em seguida
produza usando o br.ispell os arquivos de que eles necessitam
(por exemplo o br.hash, o pt_BR.aff, ou outros).
Para tanto, obtenha o arquivo br.ispell-X.Y.tar.gz onde X.Y o
nmero da verso mais recente, extraia o contedo dele usando
gunzip e tar, leia no Makefile a descrio dos targets
principais, e no prompt do shell tente produzir aqueles que forem
necessrios. Por exemplo:
$ make br.hash
Note que o uso do "make" pressupe um ambiente do tipo Unix. Os
arquivos produzidos tero que ser copiados para diretrios onde
os verificadores esperam encontr-los (isso tem que ser checado
na documentao do verificador), e as aplicaes geralmente tero
que ser informadas de que a lngua o portugus do Brasil, ou
atravs das opes dos menus, ou atravs de variveis de
ambiente.
2.6 O make falhou com uma mensagem de erro
Tente obter suporte local relativo ao erro, isto , mostre a
mensagem de erro para algum tcnico. Em ltimo caso, envie a
mensagem de erro para ueda@ime.usp.br.
2.7 Como usar o br.ispell no OpenOffice?
bem simples. Siga as instrue do mini-howto disponvel no
endereo
http://oobr.querencialivre.rs.gov.br/docajuda_dict.php
2.8 Posso gerar os arquivos no Linux e copi-los para o Windows?
Em alguns casos sim. Por exemplo: os arquivos pt_BR.dic e
pt_BR.aff do myspell podem ser gerados no Linux e copiados para o
Windows. J o arquivo br.hash nem sempre pode ser copiado da
mquina onde foi criado para uma outra, sejam l quais forem os
sistemas operacionais em uso, devido ao formato do arquivo, que
depende da forma com que o compilador aloca estruturas na
memria.
SEO 3 - Introduo para desenvolvedores
3.1 O que coberto por esta seo do FAQ?
A seo "introduo para desenvolvedores" explica os arquivos
principais do br.ispell de forma simples mas dirigida a
desenvolvedores. Quem deseja apenas usar o br.ispell na
verificao de textos no necessita ler esta seo.
3.2 O que o arquivo br.aff?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
O ispell (e tambm o myspell) obtm as formas de uma palavra
aplicando a ela regras de afixos. Por exemplo: substituir a letra
final "o" por "a" para obter a flexo no feminino. Essa regra
codificada assim:
flag B:
O > -O,A
O arquivo br.aff contm todas as regras de afixos utilizadas no
br.ispell. Algumas foram compostas de forma manual, e outras de
forma automtica pelos programas que acompanham o pacote. De
fato, o arquivo br.aff no est presente no pacote br.ispell, mas
produzido por ele atravs das regras do makefile.
3.3 O que o arquivo br.ispell?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
As palavras que se flexionam no gnero segundo a regra
exemplificada na pergunta anterior necessitam indic-lo de forma
explcita. Por exemplo:
menino/B
No jargo do ispell, "menino" chamado de raiz. A aplicao da
regra de substituio da vogal final produz "menina". O arquivo
br.ispell a lista de todas as razes, cada uma indicando as
regras que a ela se aplicam. O arquivo br.ispell no est
presente no pacote br.ispell, mas produzido por ele atravs das
regras do makefile.
3.4 O que o arquivo br.hash?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
O ispell constri com as razes e as regras de afixos uma
estrutura de acesso rpido (hash), que permite verificar se uma
dada forma (ex. "menina", "falara", etc) ou no correta. Essa
estrutura o arquivo br.hash. Ele diretamente utilizado pelo
ispell no processo de verificao ortogrfica. Geralmente ele
reside num diretrio definido na compilao do ispell, por
exemplo /usr/dict.
O arquivo br.hash no est presente no pacote br.ispell, mas
produzido por ele atravs das regras do makefile.
3.5 O que o arquivo pt_BR.aff?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
o arquivo br.aff traduzido para a sintaxe do myspell (veja a
pergunta "o que o arquivo br.aff?").
O arquivo pt_BR.aff no est presente no pacote br.ispell, mas
produzido por ele atravs das regras do makefile.
3.6 O que o arquivo pt_BR.dic?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
o arquivo br.ispell precedido por uma linha informando quantas
razes existem (veja a pergunta "o que o arquivo br.aff?").
O arquivo pt_BR.dic no est presente no pacote br.ispell, mas
produzido por ele atravs das regras do makefile.
3.7 O myspell tambm constri um hash?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
No. O myspell realiza a verificao usando diretamente os
arquivos pt_BR.aff e pt_BR.dic.
3.8 O que o makefile?
Obs. essa pergunta importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.
um arquivo formado por seqncias de regras que produzem um
determinado resultado ("target"). O makefile do br.ispell produz
uma srie de arquivos necessrios aos verificadores ortogrficos
a partir do contedo lexical do br.ispell, de ferramentas do
ispell e de ferramentas do prprio br.ispell. Por exemplo, o
arquivo br.aff produzido atravs das regras do makefile. Para
comandar a produo do arquivo br.aff, basta executar o seguinte
comando no diretrio onde se encontram os arquivos do br.ispell:
make br.hash
Obs. isso pressupe que vrias ferramentas tpicas do ambiente
Unix estejam presentes no seu sistema, seja ele Unix-like ou no.
3.9 O que o arquivo pt_BR?
a lista de palavras total no formato que o aspell necessita.
SEO 4 - O contedo lexical do br.ispell
4.1 O que coberto por esta seo do FAQ?
A seo "o contedo lexical do br.ispell" introduz o contedo, os
recursos e a organizao do br.ispell de forma independente da
operao de verificao ortogrfica. Essa abordagem dirigida a
linguistas e afins.
4.2 Como o contedo lexical do br.ispell est organizado?
O contedo est quase totalmente lematizado. Cada lema no verbal
inclui as flexes de forma explcita. Por exemplo:
menin:a,as,o,os
Os lemas no verbais esto classificados semanticamente numa
forma semelhante de obras didticas para estudo de
lnguas. Exemplo:
#
# hortalia [s.]
#
abobrinha:,s
abbora:,s
alface:,s
As formas de flexo dos lemas no verbais esto classificadas em
paradigmas. Isso pode ser encontrado na seo "paradigmas
nominais" do arquivo br.base.
Os verbos so tratados parte. O arquivo "verbos" inclui a
conjugao dos paradigmas e uma lista extensa de verbos. O
conjugador gera todas as formas sintticas de todos os verbos
relacionados, aplicando os paradigmas indicados para cada verbo,
ou deduzindo um paradigma quando no h indicao de qual
utilizar.
4.3 As palavras esto classificadas gramaticalmente?
A classificao em classes gramaticais (substantivo, adjetivo,
etc.) existe mas parcial. Alm disso, ela foi em parte obtida
de forma automtica e sujeita a erros, a partir da terminao dos
lemas (veja a opo -F da ferramenta fl).
4.3 Qual o formato do contedo lexical?
O pacote inclui dois formatos principais para manter o contedo
lexical. Um chamado "editvel", e tenta ser apropriado para a
manuteno manual do contedo. Todos os arquivos nesse formato
tm nomes da forma E-*.
O outro formato congrega todo contedo lexical existente no
pacote, e dele que se derivam os arquivos de que os
verificadores necessitam. Esse formato chamado "dicionrio
base", e imita mais ou menos o formato de um dicionrio comum da
lngua. Ele est descrito na documentao da ferramenta fl.
Todo o contedo est codificado em formato texto ordinrio
(ISO-8859-1).
4.4 Esses formatos utilizam XML?
Atualmente no.
4.5 Quais ferramentas lexicais esto presentes no br.ispell?
H um conjugador de verbos, o conversor afftoOOo do arquivo de
afixos, e uma ferramenta chamada fl (ferramenta lexical). Essa
ferramenta basicamente um manipulador de regras de afixos, mas
ele congrega uma quantidade grande de operaes diferentes, entre
elas: lematizao, expanso de formas, separao silbica e
comparao fontica.
4.6 O br.ispell inclui um analisador morfolgico?
Atualmente no, entretanto o pacote inclui um lematizador capaz
de obter o infinitivo dos verbos conhecidos, e o lema das formas
no verbais conhecidas. H tambm um classificador de formas no
conhecidas (veja a opo -F da ferramenta fl).
4.7 O br.ispell suporta o uso de corpora?
No h atualmente nenhum suporte especfico para uso de corpora.
4.8 Quantos lemas h no br.ispell? quantos paradigmas?
Esses dados podem ser obtidos de forma aproximada utilizando o
target "stats" do Makefile. Na verso 3.0-beta4 temos:
$ make -s stats
aproximadamente 43730 lemas ou razes
80 paradigmas verbais
4006 verbos
|