[LUGOS-SLO] Wordlist za slovenščino

Jure Koren jure at hehe.si
Sun Dec 22 18:12:29 CET 2019


On Sun, Dec 22, 2019 at 05:42:59PM +0100, Matija Šuklje wrote:
> Zdravo LUGOS slovenisti,
> (CC-jam tudi Tezaver.si za vsak slučaj, če ni naročen tu)
> 
> Ker se ravnokar igram z generacijo varnih gesel¹, in sem našel možnost, da 
> mi program generira gesla iz lokalno nameščenega slovarja besed², sem takoj 
> pomislil, kako bi bilo, če bi za to porabil Slovenske besede.
> 
> Program, ki ga gledam, za to uporablja `/usr/share/dict/words`. Po kratkem 
> raziskovanju sem odkril, da so to t.i. „wordlist”, ki jih uporablja Unix 
> ukaz `words`³, in gre za 
> 
> Nakar sem naletel na zanimiv problem, da na Debian sistemu ne najdem 
> slovenskega „wordlista“.
> 
> Najbližje kot sem prišel je <http://bos.zrc-sazu.si/besede.html>, kjer bi 
> lahko enostavno HTML format predelal v plaintext seznam besed (kar trenutno 
> delam zgolj iz firbca, če deluje). Ampak vseeno je vprašanje, ali ne 
> obstaja kak boljši način.
> 
> Vsekakor pa je ostaja vprašanje, če bi bilo smotrno to zapakirat za Linux 
> (in druge Unix) distribucuje.
> 
> (Za gesla bi verjetno uporabil verzijo, kjer bi pobral ven besede s 
> šumniki, ali pa jih nadomestil s sičniki, ampak to je že izven teme te 
> e-pošte.)

Ker sem ravno potreboval slovenski wordlist za "neke druge namene", je
tule program:

curl http://bos.zrc-sazu.si/sbsj.html |
awk -F\< '{print $1}' | grep -v '^$' |
grep -v '\s\w\s\w' > slovenske-besede.txt

lp,

-- 
Jure Koren


More information about the lugos-slo mailing list