[LUGOS-SLO] aspell-ov ukaz clean

Andraz andraz at gmail.com
Sat Oct 18 11:46:15 CEST 2008


Hoj!

Se vnaprej opravičujem, ker je tole offtopic, vendar je na tej listi
največja verjetnost, da najdem uporabnike, ki se dovolj ukvarjajo z
aspell-om.

Iz aspell-ove bazeza slovenski jezik bi rad dobil seznam besed. Tega imam
seveda že, vendar bi rad iz njega filtriral samo besede, ki zares obstajajo,
se pravi da ne gre samo za prvi del neke besede.

Za dobljeni aspell drop sl sem dal še sort in uniq, da se mi nizi ne
ponavljajo, ampak če pogledamo nekaj vrstic iz seznama, zgleda takole:

abo
abolici
abolicij
abolicija
abolicijam
abolicionis
abolicionist
abolicionisti
abolicionistk
abolicionistka

V teh desetih vrsticah je samo pet pravih besed. Ostale bi rad izločil. V
man pageu aspell-a tega sicer ni, ampak --help izpis vključuje tole:

clean [strict]   cleans a word list so that every line is a valid word

Morda si tole narobe razlagam - a so vse vrstice dobljene z drop ukazom zanj
"valid word"? Sklepam, da je v pravi bazi zraven še podatek ali je beseda
prava ali ne? Za test sem si naredil datoteko s parimi vrsticami in poskusil
z ukazom "aspell clean strict -l sl < hehe", pa mi je na standardni izhod
samo izpisalo celotno datoteko. Se pravi tako prave besede kot samo dele
besed.

A mi zna kdo pomagat iz te baze dobit čim bolj okleščeno datoteko z
dejanskimi besedami?

No - zakaj to skušam naredit: omislil sem si blackberry 8110, to je tista
verzija, ki nima polne qwerty tipkovnice, po dva znaka sta na enem gumbu,
kar pomeni, da naprava sproti predlaga besede iz svoje baze. Lahko seveda
mukotrpno vnašam besede, pa mi ne diši. Naprava se bojda uči tudi iz
dobljenih e-pisem, če se ji to dopove.
Jaz bi si skratka tak lušten spisek slovenskih besed lepo poslal na mail, pa
naj ga prežveči. :)

Mi zna kdo pomagati, kako iz aspell-ove baze dobim res samo prave besede
ven?

P.S.: en problem bo sicer tudi s šumniki, ampak dokler ne dosežem cilja niti
na poenostavljenem problemu, mi za šumnike ni treba skrbeti ...

-- 
lp,

Andraž
-------------- naslednji del --------------
HTML priponka je pre?i??ena...
URL: http://liste2.lugos.si/pipermail/lugos-slo/attachments/20081018/08a6c7e5/attachment.htm 


More information about the lugos-slo mailing list