From matija at suklje.name Sun Dec 22 17:42:59 2019 From: matija at suklje.name (=?utf-8?B?TWF0aWphIMWgdWtsamU=?=) Date: Sun, 22 Dec 2019 17:42:59 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= Message-ID: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> Zdravo LUGOS slovenisti, (CC-jam tudi Tezaver.si za vsak slu?aj, ?e ni naro?en tu) Ker se ravnokar igram z generacijo varnih gesel?, in sem na?el mo?nost, da mi program generira gesla iz lokalno name??enega slovarja besed?, sem takoj pomislil, kako bi bilo, ?e bi za to porabil Slovenske besede. Program, ki ga gledam, za to uporablja `/usr/share/dict/words`. Po kratkem raziskovanju sem odkril, da so to t.i. ?wordlist?, ki jih uporablja Unix ukaz `words`?, in gre za Nakar sem naletel na zanimiv problem, da na Debian sistemu ne najdem slovenskega ?wordlista?. Najbli?je kot sem pri?el je , kjer bi lahko enostavno HTML format predelal v plaintext seznam besed (kar trenutno delam zgolj iz firbca, ?e deluje). Ampak vseeno je vpra?anje, ali ne obstaja kak bolj?i na?in. Vsekakor pa je ostaja vpra?anje, ?e bi bilo smotrno to zapakirat za Linux (in druge Unix) distribucuje. (Za gesla bi verjetno uporabil verzijo, kjer bi pobral ven besede s ?umniki, ali pa jih nadomestil s si?niki, ampak to je ?e izven teme te e-po?te.) lp in vesele praznike, Matija ? 1 Probavam tole: https://apps.nextcloud.com/apps/passwords 2 Niz naklju?nih besed naj bi bil varnej?i in la?je za zapomnit si, kot naklju?ne ?rke in ?tevilke https://pages.nist.gov/800-63-3/ 3 https://en.wikipedia.org/wiki/Words_(Unix) -- gsm: tel:+386.41.849.552 www: https://matija.suklje.name xmpp: matija.suklje na gabbler.org sip: matija_suklje na ippi.fr From jure at hehe.si Sun Dec 22 18:12:29 2019 From: jure at hehe.si (Jure Koren) Date: Sun, 22 Dec 2019 18:12:29 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> Message-ID: <20191222171228.GA8381@pndr> On Sun, Dec 22, 2019 at 05:42:59PM +0100, Matija ?uklje wrote: > Zdravo LUGOS slovenisti, > (CC-jam tudi Tezaver.si za vsak slu?aj, ?e ni naro?en tu) > > Ker se ravnokar igram z generacijo varnih gesel?, in sem na?el mo?nost, da > mi program generira gesla iz lokalno name??enega slovarja besed?, sem takoj > pomislil, kako bi bilo, ?e bi za to porabil Slovenske besede. > > Program, ki ga gledam, za to uporablja `/usr/share/dict/words`. Po kratkem > raziskovanju sem odkril, da so to t.i. ?wordlist?, ki jih uporablja Unix > ukaz `words`?, in gre za > > Nakar sem naletel na zanimiv problem, da na Debian sistemu ne najdem > slovenskega ?wordlista?. > > Najbli?je kot sem pri?el je , kjer bi > lahko enostavno HTML format predelal v plaintext seznam besed (kar trenutno > delam zgolj iz firbca, ?e deluje). Ampak vseeno je vpra?anje, ali ne > obstaja kak bolj?i na?in. > > Vsekakor pa je ostaja vpra?anje, ?e bi bilo smotrno to zapakirat za Linux > (in druge Unix) distribucuje. > > (Za gesla bi verjetno uporabil verzijo, kjer bi pobral ven besede s > ?umniki, ali pa jih nadomestil s si?niki, ampak to je ?e izven teme te > e-po?te.) Ker sem ravno potreboval slovenski wordlist za "neke druge namene", je tule program: curl http://bos.zrc-sazu.si/sbsj.html | awk -F\< '{print $1}' | grep -v '^$' | grep -v '\s\w\s\w' > slovenske-besede.txt lp, -- Jure Koren From tomaz.erjavec at ijs.si Sun Dec 22 18:03:40 2019 From: tomaz.erjavec at ijs.si (=?UTF-8?Q?Toma=c5=be_Erjavec?=) Date: Sun, 22 Dec 2019 18:03:40 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> Message-ID: ?ivijo, Matija ?uklje je 22/12/2019 ob 17:42?napisal: > Najbli?je kot sem pri?el je, kjer bi > lahko enostavno HTML format predelal v plaintext seznam besed taiste besede brez HTML so dostopne na http://hdl.handle.net/11356/1038, pa tudi sicer je na CLARIN.SI repozitoriju kar nekaj leksikalnih virov za sloven??ino. Najve?ji je Sloleks, http://hdl.handle.net/11356/1230, je pa tu problem, da je samo za nekomercialno rabo. Za kombinacije besed bi mogo?e pri?li kaj prav razni seznami n-gramov, cf. https://www.clarin.si/repository/xmlui/discover?filter=n-grams&filter_relational_operator=equals&filtertype=subject lp, Toma? From matija at suklje.name Sun Dec 22 19:25:54 2019 From: matija at suklje.name (=?utf-8?B?TWF0aWphIMWgdWtsamU=?=) Date: Sun, 22 Dec 2019 19:25:54 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: <20191222171228.GA8381@pndr> References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> <20191222171228.GA8381@pndr> Message-ID: <8b66990e-454a-49bf-9f03-4e3f4883386a@suklje.name> > curl http://bos.zrc-sazu.si/sbsj.html | > awk -F\< '{print $1}' | grep -v '^$' | > grep -v '\s\w\s\w' > slovenske-besede.txt Nekaj takega, samo bolj manualno sem se potem vseeno lotil in je delovalo :) Vseeno super hvala. Enkrat moram res awk se bolj konkretno lotit? lp, Matija -- gsm: tel:+386.41.849.552 www: https://matija.suklje.name xmpp: matija.suklje na gabbler.org sip: matija_suklje na ippi.fr From matija at suklje.name Sun Dec 22 19:29:19 2019 From: matija at suklje.name (=?utf-8?B?TWF0aWphIMWgdWtsamU=?=) Date: Sun, 22 Dec 2019 19:29:19 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> Message-ID: On nedelja, 22. december 2019 18:03:40 CET, Toma? Erjavec wrote: > taiste besede brez HTML so dostopne na http://hdl.handle.net/11356/1038, > pa tudi sicer je na CLARIN.SI repozitoriju kar nekaj leksikalnih virov > za sloven??ino. Najve?ji je Sloleks, http://hdl.handle.net/11356/1230, > je pa tu problem, da je samo za nekomercialno rabo. Fina stvar tole. Moja uporaba je povsem nekomercialna, ampak ?e bi hoteli to v razne Linux idr. distribucije zapakirati, bi se pa zataknilo. > Za kombinacije besed bi mogo?e pri?li kaj prav razni seznami n-gramov, > cf. > https://www.clarin.si/repository/xmlui/discover?filter=n-grams&filter_relational_operator=equals&filtertype=subject U, fino. To bom bolj rabil za moj dolgoletni (predvsem zaradi neaktivnost) projekt ustvariti slovenski ergonomi?ni razpored za tipkovnico! Sem vedel za Peterlinove n-grame, ampak nisem ugotovil pod katero licenco jih lahko uporabim. lp, Matija -- gsm: tel:+386.41.849.552 www: https://matija.suklje.name xmpp: matija.suklje na gabbler.org sip: matija_suklje na ippi.fr From matej.kovacic at telefoncek.si Sun Dec 22 23:23:40 2019 From: matej.kovacic at telefoncek.si (Matej Kovacic) Date: Sun, 22 Dec 2019 23:23:40 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: <20191222171228.GA8381@pndr> References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> <20191222171228.GA8381@pndr> Message-ID: <5a911913-e2f7-799d-ea26-5fa279a963c5@telefoncek.si> Pozdrav, > Ker sem ravno potreboval slovenski wordlist za "neke druge namene", je > tule program: Odli?no. Imam pa eno mogo?e malo neumno vpra?anje, zakaj so na tem seznamu besede s piko: cat slovenske-besede.txt | grep '\.' | wc -l lp, M. From tomaz.erjavec at ijs.si Mon Dec 23 15:11:47 2019 From: tomaz.erjavec at ijs.si (=?UTF-8?Q?Toma=c5=be_Erjavec?=) Date: Mon, 23 Dec 2019 15:11:47 +0100 Subject: [LUGOS-SLO] =?utf-8?q?Wordlist_za_sloven=C5=A1=C4=8Dino?= In-Reply-To: <5a911913-e2f7-799d-ea26-5fa279a963c5@telefoncek.si> References: <8e168a6b-be95-4582-8fb6-e20c28d1d864@suklje.name> <20191222171228.GA8381@pndr> <5a911913-e2f7-799d-ea26-5fa279a963c5@telefoncek.si> Message-ID: <627c7bdc-8376-3a1f-e74f-faf72116d34f@ijs.si> Matej Kovacic je 22/12/2019 ob 23:23?napisal: > Pozdrav, > >> Ker sem ravno potreboval slovenski wordlist za "neke druge namene", je >> tule program: > Odli?no. Imam pa eno mogo?e malo neumno vpra?anje, zakaj so na tem > seznamu besede s piko: > > cat slovenske-besede.txt | grep '\.' | wc -l Tale seznam ima ve? skritih for: - kraj?ave, npr. 'angl.' - predpone, npr. 'anglo...', ampak tudi 'anglo-' - duga?episnice ali kako bi se temu reklo, npr. 'avtogir (avto?ir)' lp, Toma? > > lp, M. > > > _______________________________________________ > lugos-slo mailing list > lugos-slo at lugos.si > http://liste2.lugos.si/cgi-bin/mailman/listinfo/lugos-slo