<div dir="ltr">Hoj!<br><br>Se vnaprej opravičujem, ker je tole offtopic, vendar je na tej listi največja verjetnost, da najdem uporabnike, ki se dovolj ukvarjajo z aspell-om.<br><br>Iz aspell-ove bazeza slovenski jezik bi rad dobil seznam besed. Tega imam seveda že, vendar bi rad iz njega filtriral samo besede, ki zares obstajajo, se pravi da ne gre samo za prvi del neke besede.<br>
<br>Za dobljeni aspell drop sl sem dal še sort in uniq, da se mi nizi ne ponavljajo, ampak če pogledamo nekaj vrstic iz seznama, zgleda takole:<br><br>abo<br>abolici<br>abolicij<br>abolicija<br>abolicijam<br>abolicionis<br>
abolicionist<br>abolicionisti<br>abolicionistk<br>abolicionistka<br><br>V teh desetih vrsticah je samo pet pravih besed. Ostale bi rad izločil. V man pageu aspell-a tega sicer ni, ampak --help izpis vključuje tole:<br><br>
clean [strict] cleans a word list so that every line is a valid word<br><br>Morda si tole narobe razlagam - a so vse vrstice dobljene z drop ukazom zanj "valid word"? Sklepam, da je v pravi bazi zraven še podatek ali je beseda prava ali ne? Za test sem si naredil datoteko s parimi vrsticami in poskusil z ukazom "aspell clean strict -l sl < hehe", pa mi je na standardni izhod samo izpisalo celotno datoteko. Se pravi tako prave besede kot samo dele besed.<br>
<br>A mi zna kdo pomagat iz te baze dobit čim bolj okleščeno datoteko z dejanskimi besedami?<br><br>No - zakaj to skušam naredit: omislil sem si blackberry 8110, to je tista verzija, ki nima polne qwerty tipkovnice, po dva znaka sta na enem gumbu, kar pomeni, da naprava sproti predlaga besede iz svoje baze. Lahko seveda mukotrpno vnašam besede, pa mi ne diši. Naprava se bojda uči tudi iz dobljenih e-pisem, če se ji to dopove. <br>
Jaz bi si skratka tak lušten spisek slovenskih besed lepo poslal na mail, pa naj ga prežveči. :)<br><br>Mi zna kdo pomagati, kako iz aspell-ove baze dobim res samo prave besede ven?<br><br>P.S.: en problem bo sicer tudi s šumniki, ampak dokler ne dosežem cilja niti na poenostavljenem problemu, mi za šumnike ni treba skrbeti ...<br clear="all">
<br>-- <br>lp,<br><br>Andraž<br>
</div>