File: ANUNCIO

package info (click to toggle)
br.ispell 3.0~beta4-25
  • links: PTS, VCS
  • area: main
  • in suites: forky, sid, trixie
  • size: 1,124 kB
  • sloc: awk: 2,425; perl: 2,337; makefile: 433
file content (288 lines) | stat: -rw-r--r-- 10,739 bytes parent folder | download | duplicates (11)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288

Este  o anncio da verso 3.0 (beta) do br.ispell, um pacote
para reviso ortogrfica do portugus do Brasil com contedo
lexical, programas e documentao, estando esse conjunto
livremente disponvel sob os termos da licena GNU GPL.

Nesta verso o pacote est ganhando diversos recursos
novos. Assim que eles estiverem melhor estabilizados, ser feito
o release 3.0 de fato. Sugestes e crticas so bem-vindas, bem
como a participao nos trabalhos. Para tanto, envie email para
ueda@ime.usp.br e/ou para a lista criada pelo Cludio (v. n. 9
abaixo). Saudaes a todos,

Ricardo Ueda.

---

COMO OBTER A NOVA VERSO
------------------------

A verso 3.0 beta pode ser obtida a partir do endereo

    http://www.ime.usp.br/~ueda/br.ispell/beta.html

Nessa pgina devero tambm ser publicadas notcias sobre os
progressos, at o release de fato da nova verso.

A extrao dos arquivos e eventuais testes com o pacote podem ser
feitos tanto no Linux quanto no Windows, mas subentendem um certo
conhecimento do ambiente e das ferramentas do Unix, bem como a
instalao, no Windows, de ferramentas que no so nativas.


NOVIDADES DA VERSO 3.0
-----------------------

  1. Vrias correes
  2. Suporte para aspell e myspell (OpenOffice)
  3. Reviso cuidadosa do conjugador de verbos
  4. Tentativa de padronizao da flexo dos nomes
  5. Lematizao e expanso de formas em perl
  6. Separao silbica e ordenao fontica
  7. Tentativa de anotao e classificao gramatical e semntica
  8. Sistema de manuteno online
  9. Lista de discusso

Dentre os novos recursos, alguns esto implementados na
ferramenta "fl" (arquivo "fl" do pacote).  um script (programa)
perl. O manual (man page) est includo no prprio script, na
forma de comentrio, no incio do arquivo. Ele traz vrios
exemplos prticos de uso (por exemplo separao silbica de uma
palavra dada, clculo do infinitivo de um verbo, etc).


DETALHES SOBRE AS NOVIDADES
---------------------------

Alguns dos arquivos citados a seguir no esto presentes no
tarball distribudo, devendo ser gerados como segue:

    $ make br.aff
    $ make br.ispell

Isso leva uns 4 minutos numa mquina de 1GHz.


1. Vrias correes
-------------------

A base para a verso 3.0 do br.ispell foi a verso 2.5, que no
chegou a ser distribuda. A verso 2.5 foi preparada por Imre
Simon, a partir da 2.4, atravs de um trabalho extenso de
reviso.


2. Suporte para aspell e myspell (OpenOffice)
---------------------------------------------

Os arquivos de que o myspell necessita so criados de forma
automtica. H mais detalhes sobre isso no Makefile. H detalhes
sobre como usar esses arquivos em

  http://www.ime.usp.br/~ueda/br.ispell/index.html#OOo
  http://oobr.querencialivre.rs.gov.br/docajuda_dict.php

Obs. O Augusto Tavares Rosa Marcacini fez um porte independente
para o myspell, que pode ser encontrado em
http://dict.progbits.com/download_dictionary.html


3. Reviso cuidadosa do conjugador de verbos
--------------------------------------------

O conjugador de verbos foi revisado de forma cuidadosa por vrias
pessoas (veja os crditos abaixo). Toda a morfologia conhecida
pelo conjugador pode agora ser exportada na forma de tabela de
afixos do ispell. Isso significa que (at certo ponto) o contedo
total do conjugador pode agora ser utilizado sem o conjugador,
isto , sem necessidade de entender, utilizar ou manusear o
cdigo do conjugador.


4. Tentativa de padronizao da flexo dos nomes
------------------------------------------------

A flexo dos nomes (substantivos e adjetivos) foi revisada,
reorganizada e ampliada.

A flexo dos nomes apresenta uma uniformidade menor e portanto
uma complexidade maior do que a conjugao verbal. A conjugao
verbal do pacote br.ispell pode hoje ser considerada completa, ou
quase. A flexo dos nomes est tentando aproximar-se disso.

A atual tentativa de ajustes na flexo dos nomes baseia-se em
blocos de afixos unvocos (flags A-Z no arquivo br.aff.nv),
seqencias de regras de afixos e listas dessas seqencias. Essas
listas so citadas na documentao como "paradigmas de flexo
nominal", e o estado delas pode ser examinado na seo
"paradigmas nominais" do arquivo br.base. Cada lema da seo de
verbetes do arquivo br.base refere um paradigma de flexo atravs
da chave par=N.

As deficincias da atual tentativa esto principalmente na flexo
de grau.


5. Lematizao e expanso de formas em perl
-------------------------------------------

O procedimento de expanso de formas do ispell e a sua inverso
foram implementados em perl. A razo principal disso  o fato do
ispell estar caindo em desuso em favor do aspell ou outros. Essa
implementao no  eficiente, mas permite que muitos testes de
volume possam ser feitos utilizando-se o formato da tabela de
afixos do ispell, que  bastante prtico, sem necessidade de
instalar o ispell manualmente, ou mesmo de conhec-lo. Em
particular, o infinitivo de um verbo pode agora ser calculado
atravs de qualquer uma das suas formas, visto que elas
encontram-se tabeladas como afixos do ispell (veja item 3 acima).

A implementao feita no  eficiente pela falta de um ndice. No
atual estado o seu uso demanda pacincia e cpu rpida. Alm
disso, ela no inclui todos os recursos do ispell, mas apenas a
expanso de formas e o clculo de razes.


6. Separao silbica e ordenao fontica
------------------------------------------

O Osmar Ritz estava organizando um dicionrio de nomes. Ao
desistir do projeto, ele enviou-me uma lista com cerca de 12000
nomes de pessoas.

Muitas entradas no esto conformes  ortografia usual ("Kaio",
"Aleksandro", etc). Na tentativa de normalizar a ortografia de
forma automtica, arriscamos escrever um procedimento de
ordenao fontica simples baseado em separao silbica.

Essa tentativa est agora no ponto dos ajustes finos da
codificao da equivalncia fontica de slabas (ex. "tha" =
"ta"). Para examin-la, observe no arquivo fl os exemplos de uso
e o cdigo das funes "vf" e "silabas".

Alm disso, o pacote agora calcula um silabrio de forma
automtica (veja a entrada "silabas" do Makefile). O pacote
inclui tambm cerca de 200 testes de separao silbica (arquivo
testesep) extrados de livros de Hndricas Nadlskis, Napoleo
Mendes de Almeida, Celso Luft, Osmar Barbosa, Celso Cunha e Jos
Oiticica.


7. Tentativa de anotao e classificao gramatical e semntica
---------------------------------------------------------------

A manuteno de um vocabulrio flexionado ao longo do tempo exige
a anotao das entradas, e uma estruturao gramatical e/ou
semntica.

Desde o surgimento do pacote br.ispell, vrias tentativas de
anotao e estruturao foram feitas. Agora todo o contedo nelas
acumulado foi convertido para um formato simples que suporta as
anotaes mais comuns.

Esse formato imita mais ou menos um dicionrio tradicional,
acrescentando informaes de origem (autor) da anotao, flexo e
uma classificao semntica.

Para examinar esse formato, basta carregar num editor de textos o
arquivo br.base do pacote e navegar um pouco nele. As abreviaes
esto descritas no arquivo fl, procedimento registre_abrevs. Se
houver necessidade, leia na documentao da ferramenta fl
(encontra-se no incio do arquivo fl do pacote) a descrio
completa do formato.

Praticamente todas as entradas do arquivo br.base esto
flexionadas no padro descrito acima (n. 4). Essa flexo foi
produzida manualmente ao longo dos anos. Um dos pontos fracos
dela, j citado acima,  a flexo de grau.

A classificao semntica adotada assemelha-se quela dos livros
didticos para aprendizado de lnguas, isto ,  feita em torno
de temas do cotidiano como "frutas", "profisses", etc. H
atualmente entre 200 e 300 classes. Uma grande quantidade de
lemas (certamente mais de 50%) no est classificada.

A classificao gramatical (isto , nas classes "substantivo",
"adjetivo", "numeral", "verbo", etc) abrange 75% dos no verbos
(os verbos so tratados  parte pelo programa conjugue). Muitas
classificaes esto, entretanto, incompletas (ex. "substantivo"
ao invs de "substantivo feminino"). A classificao gramatical
foi quase totalmente deduzida de forma automtica a partir da
classificao semntica (veja a classificao por categoria na
seo "semntica" do arquivo br.base) e das prprias formas
(ex. -o,s.f., -mente,adv., etc).


8. Sistema de manuteno online
-------------------------------

Foi criado um sistema de manuteno online. Est operando apenas
ao nvel de formas flexionadas/conjugadas, mas isso dever ser
melhorado em breve para que ele suporte a fatorao nos lemas. O
sistema est provisoriamente hospedado em

    http://www.claraocr.org/br.ispell

mas migrar para outro lugar assim que possvel.

Esse sistema quer ser uma ferramenta para a manuteno
cooperativa e, at onde isso for possvel, impessoal do
vocabulrio no longo prazo.


9. Lista de discusso
---------------------

O Cludio Ferreira Filho criou uma lista de discusso. Para
inscrever-se envie email para

    verificador-subscribe@br-pt.openoffice.org

Essa lista dever tornar-se um apoio importante para usurios e
desenvolvedores.


CRDITOS
--------

A reviso feita por Imre Simon contou com contedo obtido junto
a Edleno Silva de Moura e Nivio Ziviani.

Vrios problemas do conjugador foram reportados ou corrigidos por
Imre Simon, Raul Fernandes, Alexandre Hamada, e Augusto Tavares
Rosa Marcacini. Agradecimentos especiais para Alexandre Hamada.

Rodrigo Siqueira contribuiu listas extensas de palavras.

Raul Fernandes contribuiu um vocabulrio mdico extenso.

O suporte a OpenOffice contou com a ajuda de Olivier Hallot,
Cleber Gonalves, Claudio Ferreira Filho, Winston Leibon e
Nicolau A. S. Rodrigues.

Osmar Ritz contribuiu outras listas temticas alm dos nomes de
pessoas.

Alguns ajustes ou novos recursos deveram-se a esclarecimentos
feitos por Maria Tereza Camargo Biderman.

Carlos E. Morimoto ofereceu-nos gentilmente as palavras do
dicionrio http://www.guiadohardware.net/dicionario

Marcelo Finger emprestou a terceira edio do Cndido de
Figueiredo para testes de digitalizao. Alis, esse  um terreno
em que obtivemos progressos sensveis.

As morfolimpadas e as discusses de avaliao que surgiram por
iniciativa da Diana Santos tm sido um incentivo para os
trabalhos em torno do br.ispell.

Vrias outras pessoas fizeram observaes ou apontaram
problemas. Dentre elas gostaria de lembrar Leslie H. Watter,
E. A. Taco, Wanderlei Cavassin, e Andr Uratsuka.

Agradecimentos relativos s verses anteriores podem ser
encontrados em http://www.ime.usp.br/~ueda/br.ispell

Se esqueci algum, peo desculpas e tambm que me avisem!