File: FAQ.i

package info (click to toggle)
br.ispell 3.0~beta4-17
  • links: PTS, VCS
  • area: main
  • in suites: jessie, jessie-kfreebsd
  • size: 1,124 kB
  • ctags: 112
  • sloc: awk: 2,425; perl: 2,337; makefile: 418
file content (524 lines) | stat: -rw-r--r-- 20,642 bytes parent folder | download | duplicates (11)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
@ FAQ do br.ispell
@ ltima atualizao 2nov2002
@ envie sugestes e crticas para ueda@ime.usp.br

SEO 1 - Entendendo o br.ispell

1.1 O que  coberto por esta seo do FAQ?

A seo "entendendo o br.ispell" explica o que  um verificador
e, sem entrar em detalhes tcnicos, para que serve o br.ispell e
como ele vem sendo desenvolvido.

1.2 O que  um verificador ortogrfico?

O melhor modo de saber o que  um verificador ortogrfico  usar
algum deles ao redigir um documento. Se voc no souber fazer
isso, pea ajuda para algum colega que saiba, e voc entender
rapidamente o funcionamento. Ao aplicar o verificador no
documento, ele examinar cada palavra e indicar aquelas cuja
ortografia est incorreta, sugerindo alternativas.

1.3 Como funciona um verificador ortogrfico?

Os verificadores ortogrficos so programas relativamente
simples. Eles possuem uma lista de palavras consideradas corretas
e, para cada palavra de um texto, testam se ela ocorre ou no na
lista. Se ocorrer, a ortografia  admitida correta. Caso
contrrio ela ser considerada incorreta.

1.4 O que  o dicionrio?

 a lista das palavras consideradas corretas pelo verificador.

1.5 Portanto  necessrio levantar todas as palavras da lngua?

Sim, mas como os verificadores so programas simples, 
necessrio tambm que o dicionrio seja flexionado.

Dicionrios da lngua como o Aurlio ou o Houaiss, e vocabulrios
como o VOLP da Academia Brasileira de Letras, trazem apenas o
lema de cada palavra, isto , a forma atravs da qual ela 
consultada. Por exemplo: "menino". Mas o dicionrio de um
verificador necessita explicitar cada uma das flexes: menino,
menina, meninos, meninas, menininho, etc. O dicionrio de um
verificador deve incluir tambm todas as formas verbais ("amo",
"amas", "ama", etc), e outras palavras que via de regra no
constam dos dicionrios da lngua, como os nomes prprios
("Joo", "Mxico", etc).

1.6 O que  o br.ispell?

O br.ispell  um dicionrio de livre uso construdo
cooperativamente que pode ser utilizado por vrios verificadores
diferentes. Sua construo foi iniciada em 1995, o seu uso vem
difundindo-se ao longo dos anos, e os trabalhos de depurao e
aperfeioamento prosseguem.

1.7 Como obter o br.ispell?

O br.ispell est disponvel no endereo

    http://www.ime.usp.br/~ueda/br.ispell

1.8 Quais verificadores ortogrficos o br.ispell suporta?

O br.ispell pode ser utilizado com o ispell, o aspell e o
myspell. Aplicaes como o Mozilla, o OpenOffice, o Emacs ou
outras suportam um ou mais desses verificadores. Assim, o
br.ispell pode ser utilizado normalmente nesses e em muitas
outras aplicaes.

1.9 O br.ispell funciona no Windows?

O br.ispell foi desenvolvido em sistemas do tipo Unix, mas ele
pode ser utilizado normalmente no Windows, pelas aplicaes que
suportarem ispell, aspell ou myspell (por exemplo o OpenOffice).

1.10 Como usar o br.ispell?

Para a maior parte das pessoas, o uso do br.ispell 
transparente. Ele acompanha vrios sistemas operacionais livres,
pronto para uso. Entretanto, no caso de alguns programas ou
sistemas poder haver necessidade de gerar ou obter alguns
arquivos, instal-los convenientemente, ou configurar programas
ou ambientes. A documentao do br.ispell no cobre todos esses
detalhes, mas inclui algumas dicas (veja a seo de dicas deste
FAQ se houver necessidade).

1.11 O br.ispell inclui todas as palavras do portugus?

No.  impossvel levantar todas as palavras de uma lngua,
porque a lngua est continuamente em transformao. Alm do
mais, nem  conveniente incluir todas as palavras, porque as
palavras de uso raro geram falsos positivos. Por exemplo: "carme"
significa "verso" ou "poesia". Os latinistas ficaro contentes se
"carme" for adicionada ao dicionrio. Mas para todas as outras
pessoas que nunca usam essa palavra ela s atrapalhar, porque se
por deslize escreverem "carme" ao invs de "carne", o verificador
no detetar o erro ortogrfico.

1.12 Que tal copiar as palavras de um dicionrio eletrnico?

Independentemente dessa operao ser ou no tecnicamente
possvel, copiar todas as palavras da edio eletrnica de um
dicionrio da lngua como o Aurlio  provavelmente ilegal. Alm
do mais  pouco til porque conforme j explicado, o verificador
necessita que as palavras estejam flexionadas (flexionar as
palavras  geralmente mais trabalhoso do que levant-las). Pior
ainda, pode prejudicar a verificao, em virtude dos falsos
positivos.

1.13 Ento, como fazer?

A construo do dicionrio no deve limitar-se a ir acumulando
palavras numa lista gigantesca. O levantamento do lxico deve ser
feito de forma gradual e estruturada, a fim de tornar possvel o
trabalho de depurao.

Por exemplo: a depurao manual de uma lista de dezenas de
milhares de palavras, uma a uma,  um trabalho insano. Mas a
reviso de uma lista de infinitivos verbais e de um paradigma de
conjugao que se aplica a dezenas ou centenas de verbos  um
trabalho bem mais simples.

1.14 Qual  a estratgia de desenvolvimento adotada pelo br.ispell?

O dicionrio br.ispell estrutura o seu contedo em vrios
nveis. O mais fundamental  a separao de verbos e no
verbos. Os verbos so conjugados de forma automtica, a fim de
gerar todas as formas para o verificador. As outras palavras so
flexionadas de forma semi-automtica, atravs de uma
classificao semntica e gramatical, e da anotao das
entradas. O contedo bsico do br.ispell  formado apenas por
palavras de uso comum no Brasil, a fim de evitar o problema dos
falsos positivos. As palavras de uso raro esto sendo adicionadas
de forma modular, a fim de que possam ser removidas em bloco se
houver necessidade. Mais palavras vo sendo adicionadas
paulatinamente,  medida em que vo sendo contribudas. Outros
recursos de granularidade mais fina esto disponveis tambm.

1.15 Isso no  complicado demais?

Ao lidar com a lngua, a complexidade  inevitvel. A construo
do br.ispell vem sendo trabalhosa para todas as pessoas que se
dispuseram a investir esforos nele. Em contrapartida, o
resultado tem qualidade e est livremente disponvel.

1.16 Como posso ajudar nesse trabalho?

Ao longo dos anos, a colaborao com esses trabalhos vem
acontecendo por iniciativa das pessoas que obtm o pacote na
Internet, usam-no, entendem os aspectos fundamentais do
funcionamento, e detetam e corrigem problemas, tanto ao nvel do
cdigo dos programas que acompanham o pacote, quanto ao nvel do
contedo lexical.

O projeto vem tentando materializar formas de colaborao que
dependam menos do conhecimento especfico do pacote. Isso est
acontecendo na forma de um sistema online que ainda  preliminar
mas j est disponvel no endereo provisrio

    http://www.claraocr.orb/br.ispell

A finalidade bsica desse sistema  permitir que palavras no
reconhecidas pelo verificador sejam adicionadas. Ele permite
tambm que a palavra seja anotada (exemplo: indicar a sua classe
gramatical). A anotao no  obrigatria mas  til.

Um outro modo, concreto e simples de colaborar  contribuir
textos revisados, que possam ser utilizados tanto para
levantamento de vocabulrio quanto para testes do verificador.

1.17 Quem colabora com o br.ispell abre mo dos direitos de autor?

No. Materiais livres como o br.ispell preservam os direitos de
autor (copyright). O br.ispell  copyright de seus autores, ou
seja, das pessoas que o construram, mas pode ser livremente
usado, alterado ou redistribudo segundo os termos da licena
GPL.

1.18 O que significa o br.ispell ser GPL?

O br.ispell  um pacote que inclui programas (conjugador de
verbos, lematizador, etc) e contedo lexical (no apenas uma
lista de palavras, mas tambm um padro e informaes de flexo,
uma classificao semntica, tabelas para compresso de afixos,
etc). O conjunto de programas e contedo lexical  entendido como
o fonte, e os arquivos br.hash e pt_BR.* e quaisquer executveis
so entendidos como o objeto. O pacote  aberto e disponibilizado
sob a licena GNU GPL, que  a mesma que acompanha a maior parte
dos programas livres ou abertos hoje existentes. Essa licena
permite o livre uso, cpia, alterao e redistribuio, desde que
acompanhada dos fontes e sob a mesma licena, isto , a GPL, a
fim de garantir que o uso permanea livre.

Para maiores informaes sobre a GPL veja

    http://www.gnu.org/copyleft/gpl-faq.html

1.19 O contedo lexical pode ser utilizado por programas no GPL?

Os arquivos br.hash, pt_BR.dic, pt_BR.aff e pt_BR gerados pelo
pacote so de uso irrestrito para fins de verificao
ortogrfica. O uso desses arquivos por um verificador no 
entendido pelos autores do br.ispell  semelhana de uma
linkagem, mas  semelhana da comunicao entre programas
independentes, que podem portanto ser regidos por licenas
diversas. O mesmo princpio dever ser aplicado a outros formatos
que ainda venham a ser suportados.

Note que esses arquivos no incluem todo o contedo lexical do
br.ispell, mas trazem apenas a lista dos lemas, as suas flexes e
as tabelas de compresso de afixos. O uso e redistribuio desses
arquivos pressupe que eles estejam acompanhados dos fontes, isto
, do pacote br.ispell, ou ao menos da indicao deste de forma a
possibilitar que o pacote possa ser obtido atravs da Internet.


SEO 2 - Dicas de instalao e uso

2.1 O que  coberto por esta seo do FAQ?

A seo "dicas de instalao e uso" tenta dar algumas coordenadas
para quem no estiver conseguindo instalar ou usar o
br.ispell. Como as situaes prticas variam muito, as dicas so
um pouco genricas. Ser geralmente intil tentar contatar as
pessoas que mantm o br.ispell solicitando suporte mais
especfico, porque elas no tm conhecimento detalhado das
variadas aplicaes e dos diversos ambientes.

2.2 Eu preciso instalar o br.ispell?

Provavelmente no. O processo de instalao de muitos sistemas
operacionais livres inclui de forma automtica um dicionrio de
verificao do portugus do Brasil, pronto para uso, quando se
seleciona o portugus do Brasil como lngua de instalao ou como
lngua suportada.

2.3 Como instalar o br.ispell?

Os sistemas operacionais livres geralmente trazem o br.ispell
pr-empacotado, seja na forma de um dicionrio para o ispell,
seja na forma de um dicionrio para o aspell. Levante no seu
sistema operacional quais so as ferramentas de verificao
disponveis (ispell, aspell, myspell, ou outras) e quais
dicionrios existem para cada uma delas. O modo de realizar essa
procura varia de acordo com o sistema operacional. Se existir um
dicionrio do portugus do Brasil na forma de um pacote, ento
bastar instal-lo, se isso j no tiver sido feito. O modo de
instalar um pacote depende do sistema operacional, mas geralmente
 uma tarefa simples.

Alm disso, ser necessrio provavelmente avisar as aplicaes
que elas devem utilizar o dicionrio do portugus do Brasil (e
no o de ingls ou de outra lngua). Isso normalmente  feito ou
na configurao do desktop, ou na configurao da aplicao, ou
atravs de variveis de ambiente.

2.4 Ento eu no preciso baixar o arquivo br.ispell-X.Y.tar.gz?

Na maior parte dos casos no ser necessrio nem baixar esse
arquivo, e nem tentar produzir a partir dele os arquivos que o
verificador (ispell, aspell, etc.) necessita.

2.5 O meu caso  diferente

Ento  provvel que voc no tenha tambm um verificador
ortogrfico instalado ou pr-empacotado. Procure levantar em
quais aplicaes (email, editores, etc) voc deseja utilizar a
verificao ortogrfica, e quais verificadores (ispell, aspell,
etc) elas suportam. Instale os verificadores, e em seguida
produza usando o br.ispell os arquivos de que eles necessitam
(por exemplo o br.hash, o pt_BR.aff, ou outros).

Para tanto, obtenha o arquivo br.ispell-X.Y.tar.gz onde X.Y  o
nmero da verso mais recente, extraia o contedo dele usando
gunzip e tar, leia no Makefile a descrio dos targets
principais, e no prompt do shell tente produzir aqueles que forem
necessrios. Por exemplo:

    $ make br.hash

Note que o uso do "make" pressupe um ambiente do tipo Unix. Os
arquivos produzidos tero que ser copiados para diretrios onde
os verificadores esperam encontr-los (isso tem que ser checado
na documentao do verificador), e as aplicaes geralmente tero
que ser informadas de que a lngua  o portugus do Brasil, ou
atravs das opes dos menus, ou atravs de variveis de
ambiente.

2.6 O make falhou com uma mensagem de erro

Tente obter suporte local relativo ao erro, isto , mostre a
mensagem de erro para algum tcnico. Em ltimo caso, envie a
mensagem de erro para ueda@ime.usp.br.

2.7 Como usar o br.ispell no OpenOffice?

 bem simples. Siga as instrue do mini-howto disponvel no
endereo

    http://oobr.querencialivre.rs.gov.br/docajuda_dict.php

2.8 Posso gerar os arquivos no Linux e copi-los para o Windows?

Em alguns casos sim. Por exemplo: os arquivos pt_BR.dic e
pt_BR.aff do myspell podem ser gerados no Linux e copiados para o
Windows. J o arquivo br.hash nem sempre pode ser copiado da
mquina onde foi criado para uma outra, sejam l quais forem os
sistemas operacionais em uso, devido ao formato do arquivo, que
depende da forma com que o compilador aloca estruturas na
memria.


SEO 3 - Introduo para desenvolvedores

3.1 O que  coberto por esta seo do FAQ?

A seo "introduo para desenvolvedores" explica os arquivos
principais do br.ispell de forma simples mas dirigida a
desenvolvedores. Quem deseja apenas usar o br.ispell na
verificao de textos no necessita ler esta seo.

3.2 O que  o arquivo br.aff?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

O ispell (e tambm o myspell) obtm as formas de uma palavra
aplicando a ela regras de afixos. Por exemplo: substituir a letra
final "o" por "a" para obter a flexo no feminino. Essa regra 
codificada assim:

    flag B:
    O  > -O,A

O arquivo br.aff contm todas as regras de afixos utilizadas no
br.ispell. Algumas foram compostas de forma manual, e outras de
forma automtica pelos programas que acompanham o pacote. De
fato, o arquivo br.aff no est presente no pacote br.ispell, mas
 produzido por ele atravs das regras do makefile.

3.3 O que  o arquivo br.ispell?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

As palavras que se flexionam no gnero segundo a regra
exemplificada na pergunta anterior necessitam indic-lo de forma
explcita. Por exemplo:

    menino/B

No jargo do ispell, "menino"  chamado de raiz. A aplicao da
regra de substituio da vogal final produz "menina". O arquivo
br.ispell  a lista de todas as razes, cada uma indicando as
regras que a ela se aplicam. O arquivo br.ispell no est
presente no pacote br.ispell, mas  produzido por ele atravs das
regras do makefile.

3.4 O que  o arquivo br.hash?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

O ispell constri com as razes e as regras de afixos uma
estrutura de acesso rpido (hash), que permite verificar se uma
dada forma (ex. "menina", "falara", etc)  ou no correta. Essa
estrutura  o arquivo br.hash. Ele  diretamente utilizado pelo
ispell no processo de verificao ortogrfica. Geralmente ele
reside num diretrio definido na compilao do ispell, por
exemplo /usr/dict.

O arquivo br.hash no est presente no pacote br.ispell, mas 
produzido por ele atravs das regras do makefile.

3.5 O que  o arquivo pt_BR.aff?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

 o arquivo br.aff traduzido para a sintaxe do myspell (veja a
pergunta "o que  o arquivo br.aff?").

O arquivo pt_BR.aff no est presente no pacote br.ispell, mas 
produzido por ele atravs das regras do makefile.

3.6 O que  o arquivo pt_BR.dic?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

 o arquivo br.ispell precedido por uma linha informando quantas
razes existem (veja a pergunta "o que  o arquivo br.aff?").

O arquivo pt_BR.dic no est presente no pacote br.ispell, mas 
produzido por ele atravs das regras do makefile.

3.7 O myspell tambm constri um hash?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

No. O myspell realiza a verificao usando diretamente os
arquivos pt_BR.aff e pt_BR.dic.

3.8 O que  o makefile?

Obs. essa pergunta  importante apenas para quem deseja entender
o funcionamento do ispell e do myspell.

 um arquivo formado por seqncias de regras que produzem um
determinado resultado ("target"). O makefile do br.ispell produz
uma srie de arquivos necessrios aos verificadores ortogrficos
a partir do contedo lexical do br.ispell, de ferramentas do
ispell e de ferramentas do prprio br.ispell. Por exemplo, o
arquivo br.aff  produzido atravs das regras do makefile. Para
comandar a produo do arquivo br.aff, basta executar o seguinte
comando no diretrio onde se encontram os arquivos do br.ispell:

    make br.hash

Obs. isso pressupe que vrias ferramentas tpicas do ambiente
Unix estejam presentes no seu sistema, seja ele Unix-like ou no.

3.9 O que  o arquivo pt_BR?

 a lista de palavras total no formato que o aspell necessita.


SEO 4 - O contedo lexical do br.ispell

4.1 O que  coberto por esta seo do FAQ?

A seo "o contedo lexical do br.ispell" introduz o contedo, os
recursos e a organizao do br.ispell de forma independente da
operao de verificao ortogrfica. Essa abordagem  dirigida a
linguistas e afins.

4.2 Como o contedo lexical do br.ispell est organizado?

O contedo est quase totalmente lematizado. Cada lema no verbal
inclui as flexes de forma explcita. Por exemplo:

    menin:a,as,o,os

Os lemas no verbais esto classificados semanticamente numa
forma semelhante  de obras didticas para estudo de
lnguas. Exemplo:

    #
    # hortalia [s.]
    #
    abobrinha:,s
    abbora:,s
    alface:,s

As formas de flexo dos lemas no verbais esto classificadas em
paradigmas. Isso pode ser encontrado na seo "paradigmas
nominais" do arquivo br.base.

Os verbos so tratados  parte. O arquivo "verbos" inclui a
conjugao dos paradigmas e uma lista extensa de verbos. O
conjugador gera todas as formas sintticas de todos os verbos
relacionados, aplicando os paradigmas indicados para cada verbo,
ou deduzindo um paradigma quando no h indicao de qual
utilizar.

4.3 As palavras esto classificadas gramaticalmente?

A classificao em classes gramaticais (substantivo, adjetivo,
etc.) existe mas  parcial. Alm disso, ela foi em parte obtida
de forma automtica e sujeita a erros, a partir da terminao dos
lemas (veja a opo -F da ferramenta fl).

4.3 Qual  o formato do contedo lexical?

O pacote inclui dois formatos principais para manter o contedo
lexical. Um  chamado "editvel", e tenta ser apropriado para a
manuteno manual do contedo. Todos os arquivos nesse formato
tm nomes da forma E-*.

O outro formato congrega todo contedo lexical existente no
pacote, e  dele que se derivam os arquivos de que os
verificadores necessitam. Esse formato  chamado "dicionrio
base", e imita mais ou menos o formato de um dicionrio comum da
lngua. Ele est descrito na documentao da ferramenta fl.

Todo o contedo est codificado em formato texto ordinrio
(ISO-8859-1).

4.4 Esses formatos utilizam XML?

Atualmente no.

4.5 Quais ferramentas lexicais esto presentes no br.ispell?

H um conjugador de verbos, o conversor afftoOOo do arquivo de
afixos, e uma ferramenta chamada fl (ferramenta lexical). Essa
ferramenta  basicamente um manipulador de regras de afixos, mas
ele congrega uma quantidade grande de operaes diferentes, entre
elas: lematizao, expanso de formas, separao silbica e
comparao fontica.

4.6 O br.ispell inclui um analisador morfolgico?

Atualmente no, entretanto o pacote inclui um lematizador capaz
de obter o infinitivo dos verbos conhecidos, e o lema das formas
no verbais conhecidas. H tambm um classificador de formas no
conhecidas (veja a opo -F da ferramenta fl).

4.7 O br.ispell suporta o uso de corpora?

No h atualmente nenhum suporte especfico para uso de corpora.

4.8 Quantos lemas h no br.ispell? quantos paradigmas?

Esses dados podem ser obtidos de forma aproximada utilizando o
target "stats" do Makefile. Na verso 3.0-beta4 temos:

    $ make -s stats
    aproximadamente 43730 lemas ou razes
    80 paradigmas verbais
    4006 verbos