1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288
|
Este o anncio da verso 3.0 (beta) do br.ispell, um pacote
para reviso ortogrfica do portugus do Brasil com contedo
lexical, programas e documentao, estando esse conjunto
livremente disponvel sob os termos da licena GNU GPL.
Nesta verso o pacote est ganhando diversos recursos
novos. Assim que eles estiverem melhor estabilizados, ser feito
o release 3.0 de fato. Sugestes e crticas so bem-vindas, bem
como a participao nos trabalhos. Para tanto, envie email para
ueda@ime.usp.br e/ou para a lista criada pelo Cludio (v. n. 9
abaixo). Saudaes a todos,
Ricardo Ueda.
---
COMO OBTER A NOVA VERSO
------------------------
A verso 3.0 beta pode ser obtida a partir do endereo
http://www.ime.usp.br/~ueda/br.ispell/beta.html
Nessa pgina devero tambm ser publicadas notcias sobre os
progressos, at o release de fato da nova verso.
A extrao dos arquivos e eventuais testes com o pacote podem ser
feitos tanto no Linux quanto no Windows, mas subentendem um certo
conhecimento do ambiente e das ferramentas do Unix, bem como a
instalao, no Windows, de ferramentas que no so nativas.
NOVIDADES DA VERSO 3.0
-----------------------
1. Vrias correes
2. Suporte para aspell e myspell (OpenOffice)
3. Reviso cuidadosa do conjugador de verbos
4. Tentativa de padronizao da flexo dos nomes
5. Lematizao e expanso de formas em perl
6. Separao silbica e ordenao fontica
7. Tentativa de anotao e classificao gramatical e semntica
8. Sistema de manuteno online
9. Lista de discusso
Dentre os novos recursos, alguns esto implementados na
ferramenta "fl" (arquivo "fl" do pacote). um script (programa)
perl. O manual (man page) est includo no prprio script, na
forma de comentrio, no incio do arquivo. Ele traz vrios
exemplos prticos de uso (por exemplo separao silbica de uma
palavra dada, clculo do infinitivo de um verbo, etc).
DETALHES SOBRE AS NOVIDADES
---------------------------
Alguns dos arquivos citados a seguir no esto presentes no
tarball distribudo, devendo ser gerados como segue:
$ make br.aff
$ make br.ispell
Isso leva uns 4 minutos numa mquina de 1GHz.
1. Vrias correes
-------------------
A base para a verso 3.0 do br.ispell foi a verso 2.5, que no
chegou a ser distribuda. A verso 2.5 foi preparada por Imre
Simon, a partir da 2.4, atravs de um trabalho extenso de
reviso.
2. Suporte para aspell e myspell (OpenOffice)
---------------------------------------------
Os arquivos de que o myspell necessita so criados de forma
automtica. H mais detalhes sobre isso no Makefile. H detalhes
sobre como usar esses arquivos em
http://www.ime.usp.br/~ueda/br.ispell/index.html#OOo
http://oobr.querencialivre.rs.gov.br/docajuda_dict.php
Obs. O Augusto Tavares Rosa Marcacini fez um porte independente
para o myspell, que pode ser encontrado em
http://dict.progbits.com/download_dictionary.html
3. Reviso cuidadosa do conjugador de verbos
--------------------------------------------
O conjugador de verbos foi revisado de forma cuidadosa por vrias
pessoas (veja os crditos abaixo). Toda a morfologia conhecida
pelo conjugador pode agora ser exportada na forma de tabela de
afixos do ispell. Isso significa que (at certo ponto) o contedo
total do conjugador pode agora ser utilizado sem o conjugador,
isto , sem necessidade de entender, utilizar ou manusear o
cdigo do conjugador.
4. Tentativa de padronizao da flexo dos nomes
------------------------------------------------
A flexo dos nomes (substantivos e adjetivos) foi revisada,
reorganizada e ampliada.
A flexo dos nomes apresenta uma uniformidade menor e portanto
uma complexidade maior do que a conjugao verbal. A conjugao
verbal do pacote br.ispell pode hoje ser considerada completa, ou
quase. A flexo dos nomes est tentando aproximar-se disso.
A atual tentativa de ajustes na flexo dos nomes baseia-se em
blocos de afixos unvocos (flags A-Z no arquivo br.aff.nv),
seqencias de regras de afixos e listas dessas seqencias. Essas
listas so citadas na documentao como "paradigmas de flexo
nominal", e o estado delas pode ser examinado na seo
"paradigmas nominais" do arquivo br.base. Cada lema da seo de
verbetes do arquivo br.base refere um paradigma de flexo atravs
da chave par=N.
As deficincias da atual tentativa esto principalmente na flexo
de grau.
5. Lematizao e expanso de formas em perl
-------------------------------------------
O procedimento de expanso de formas do ispell e a sua inverso
foram implementados em perl. A razo principal disso o fato do
ispell estar caindo em desuso em favor do aspell ou outros. Essa
implementao no eficiente, mas permite que muitos testes de
volume possam ser feitos utilizando-se o formato da tabela de
afixos do ispell, que bastante prtico, sem necessidade de
instalar o ispell manualmente, ou mesmo de conhec-lo. Em
particular, o infinitivo de um verbo pode agora ser calculado
atravs de qualquer uma das suas formas, visto que elas
encontram-se tabeladas como afixos do ispell (veja item 3 acima).
A implementao feita no eficiente pela falta de um ndice. No
atual estado o seu uso demanda pacincia e cpu rpida. Alm
disso, ela no inclui todos os recursos do ispell, mas apenas a
expanso de formas e o clculo de razes.
6. Separao silbica e ordenao fontica
------------------------------------------
O Osmar Ritz estava organizando um dicionrio de nomes. Ao
desistir do projeto, ele enviou-me uma lista com cerca de 12000
nomes de pessoas.
Muitas entradas no esto conformes ortografia usual ("Kaio",
"Aleksandro", etc). Na tentativa de normalizar a ortografia de
forma automtica, arriscamos escrever um procedimento de
ordenao fontica simples baseado em separao silbica.
Essa tentativa est agora no ponto dos ajustes finos da
codificao da equivalncia fontica de slabas (ex. "tha" =
"ta"). Para examin-la, observe no arquivo fl os exemplos de uso
e o cdigo das funes "vf" e "silabas".
Alm disso, o pacote agora calcula um silabrio de forma
automtica (veja a entrada "silabas" do Makefile). O pacote
inclui tambm cerca de 200 testes de separao silbica (arquivo
testesep) extrados de livros de Hndricas Nadlskis, Napoleo
Mendes de Almeida, Celso Luft, Osmar Barbosa, Celso Cunha e Jos
Oiticica.
7. Tentativa de anotao e classificao gramatical e semntica
---------------------------------------------------------------
A manuteno de um vocabulrio flexionado ao longo do tempo exige
a anotao das entradas, e uma estruturao gramatical e/ou
semntica.
Desde o surgimento do pacote br.ispell, vrias tentativas de
anotao e estruturao foram feitas. Agora todo o contedo nelas
acumulado foi convertido para um formato simples que suporta as
anotaes mais comuns.
Esse formato imita mais ou menos um dicionrio tradicional,
acrescentando informaes de origem (autor) da anotao, flexo e
uma classificao semntica.
Para examinar esse formato, basta carregar num editor de textos o
arquivo br.base do pacote e navegar um pouco nele. As abreviaes
esto descritas no arquivo fl, procedimento registre_abrevs. Se
houver necessidade, leia na documentao da ferramenta fl
(encontra-se no incio do arquivo fl do pacote) a descrio
completa do formato.
Praticamente todas as entradas do arquivo br.base esto
flexionadas no padro descrito acima (n. 4). Essa flexo foi
produzida manualmente ao longo dos anos. Um dos pontos fracos
dela, j citado acima, a flexo de grau.
A classificao semntica adotada assemelha-se quela dos livros
didticos para aprendizado de lnguas, isto , feita em torno
de temas do cotidiano como "frutas", "profisses", etc. H
atualmente entre 200 e 300 classes. Uma grande quantidade de
lemas (certamente mais de 50%) no est classificada.
A classificao gramatical (isto , nas classes "substantivo",
"adjetivo", "numeral", "verbo", etc) abrange 75% dos no verbos
(os verbos so tratados parte pelo programa conjugue). Muitas
classificaes esto, entretanto, incompletas (ex. "substantivo"
ao invs de "substantivo feminino"). A classificao gramatical
foi quase totalmente deduzida de forma automtica a partir da
classificao semntica (veja a classificao por categoria na
seo "semntica" do arquivo br.base) e das prprias formas
(ex. -o,s.f., -mente,adv., etc).
8. Sistema de manuteno online
-------------------------------
Foi criado um sistema de manuteno online. Est operando apenas
ao nvel de formas flexionadas/conjugadas, mas isso dever ser
melhorado em breve para que ele suporte a fatorao nos lemas. O
sistema est provisoriamente hospedado em
http://www.claraocr.org/br.ispell
mas migrar para outro lugar assim que possvel.
Esse sistema quer ser uma ferramenta para a manuteno
cooperativa e, at onde isso for possvel, impessoal do
vocabulrio no longo prazo.
9. Lista de discusso
---------------------
O Cludio Ferreira Filho criou uma lista de discusso. Para
inscrever-se envie email para
verificador-subscribe@br-pt.openoffice.org
Essa lista dever tornar-se um apoio importante para usurios e
desenvolvedores.
CRDITOS
--------
A reviso feita por Imre Simon contou com contedo obtido junto
a Edleno Silva de Moura e Nivio Ziviani.
Vrios problemas do conjugador foram reportados ou corrigidos por
Imre Simon, Raul Fernandes, Alexandre Hamada, e Augusto Tavares
Rosa Marcacini. Agradecimentos especiais para Alexandre Hamada.
Rodrigo Siqueira contribuiu listas extensas de palavras.
Raul Fernandes contribuiu um vocabulrio mdico extenso.
O suporte a OpenOffice contou com a ajuda de Olivier Hallot,
Cleber Gonalves, Claudio Ferreira Filho, Winston Leibon e
Nicolau A. S. Rodrigues.
Osmar Ritz contribuiu outras listas temticas alm dos nomes de
pessoas.
Alguns ajustes ou novos recursos deveram-se a esclarecimentos
feitos por Maria Tereza Camargo Biderman.
Carlos E. Morimoto ofereceu-nos gentilmente as palavras do
dicionrio http://www.guiadohardware.net/dicionario
Marcelo Finger emprestou a terceira edio do Cndido de
Figueiredo para testes de digitalizao. Alis, esse um terreno
em que obtivemos progressos sensveis.
As morfolimpadas e as discusses de avaliao que surgiram por
iniciativa da Diana Santos tm sido um incentivo para os
trabalhos em torno do br.ispell.
Vrias outras pessoas fizeram observaes ou apontaram
problemas. Dentre elas gostaria de lembrar Leslie H. Watter,
E. A. Taco, Wanderlei Cavassin, e Andr Uratsuka.
Agradecimentos relativos s verses anteriores podem ser
encontrados em http://www.ime.usp.br/~ueda/br.ispell
Se esqueci algum, peo desculpas e tambm que me avisem!
|