[ LUGOS ] iskalnik ht://Dig - sklanjatev

Marjan Savli majan na liste.gov.si
Sob Okt 2 21:14:02 CEST 1999


Kako usposobiti iskalnik ht://Dig, da bo iskal tudi po
razlicnih korenih besed, skratka kako ga naucimo sklanjatve.

p.s. Tudi na http://www.lugos.si/poisci.html bi se to lahko uporabilo.

http://www.htdig.org/

Iskalnik dela odlicno, poindexira recimo lokalne strani, vec razlicnih
domen ali samo direktorijev na teh domenah, za katere mu nammignemo, tako
da je iskanje zelo hitro... Manjka mu podpora sumnikov, vendar fantje
(dekleta?) pridno delajo na UTF-8. (sem ze dobil napixxek, ker jim ne
pomagam  :)) )

Torej ce mu jest vpisem, da naj isce besedo 'mesec' je prej ht://Dig iskal
v svojem indexu samo besedo 'mesec', sedaj pa isce tudi po teh besedah: 
  '(mesec or meseca or mesecu or mesecem or mesecev or 
    mesecema or mesecih or mesece or meseci or mesca or
    mescu or mescem or mescev or mescema or mescih or
    mesce or mesci)'
...in kot vidite sem ga naucil tudi sklanjetve. :))

Koliksna je uporabnost tega, lahko sami vidite.

Kako to naredim?

  -------http://www.lugos.si/novosti/-----
  Mag. Dusan Gabrijelcic in mag. Franci Mocilar sta pripravila 
    mailto:dusan na e5.ijs.si ,    mailto:franci na e5.ijs.si
  slovenski ccrkovalnik ispell z afiksnimi pravili, ki
  omogocajo 7x manjso ponsko bazo od tiste iz projekta
  GNUsl! Crkovalnik za Slovenino je dostopen v obliki
  RPM in .tar.gz na  ftp://ftp.e5.ijs.si/pub/ispell/. 
  ----------------------------------------

  Tam poberete ftp://ftp.e5.ijs.si/pub/ispell/slovensko.tar.gz
  Potrebujete samo ta dva fajla:

      slovensko.aff
      slovensko.sml  

  slovensko.sml preimenujete v slovensko.0

  Oba vrzete na /opt/www/htdig/common/slovensko/
  kjer prej naredite pod direktorij slovensko/
  oziroma tja, kjer imate ht://Dig instaliran:

    -----------------
    majan na liste:/opt/www/htdig/common/slovensko$ pwd
    /opt/www/htdig/common/slovensko
    majan na liste:/opt/www/htdig/common/slovensko$ ls -al
         313295 Aug 20 14:54 slovensko.0
          34035 Aug 20 16:12 slovensko.aff
    -----------------

  Lahko si se naredite se fajl bad_words:
  Vec o njem si poiscite pa sami tukaj: http://www.htdig.org/
  V njem imate besede kot so recimo 'je' 'ni' 'pod' 'da' 'ne',
  skratka tiste po katerih naj ne isce.
  
  * Mimogrede, ga ima ze kdo narejenega?

  In potem imamo tako ze tri fajle:  :)))
             17 Oct  2 18:39 bad_words
         313295 Aug 20 14:54 slovensko.0
          34035 Aug 20 16:12 slovensko.aff
   
  Sedaj mu rabim se dopovedati kaj smo mu storili hudega,
  pardon lepega. V fajl htdig.conf
        /opt/www/htdig/conf/htdig.conf
  (seveda bi bil lahko tudi drugje..) dopisemo tole:

    -------htdig.conf-----------
    # Set this to whatever locale you want your search database cover.
    # It affects the way international characters are dealt with.
    # On most systems a list of legal locales can be found in
    #  /usr/lib/locale.
    # http://www.htdig.org/attrs.html#locale
    locale:                 sl_SI    
    
    # How do I index documents in other languages?
    # http://www.htdig.org/FAQ.html#q4.10   
    lang_dir:             ${common_dir}/slovensko
    bad_word_list:        ${lang_dir}/bad_words
    endings_affix_file:   ${lang_dir}/slovensko.aff
    endings_dictionary:   ${lang_dir}/slovensko.0
    endings_root2word_db: ${lang_dir}/root2word.db
    endings_word2root_db: ${lang_dir}/word2root.db
    ----------------------------

  No, kot vidite smo mu napisali dva fajla prevec. Pa mu sedaj
  ukazimo, naj naredi se ta dva.

  root na liste:/opt/www/htdig/conf# /opt/www/htdig/bin/htfuzzy -c
/opt/www/htdig/conf/htdig.conf endings 

  Ualala... Po kake pol ure je moja 486/66 izpljunila se ta 
  dva fajla.

    -----------------------
    majan na liste:/opt/www/htdig/common/slovensko$ ls -al

                 1024 Oct  2 20:14 .
                 1024 Oct  2 18:23 ..
                 2707 Oct  2 18:39 bad_words
              3126272 Oct  2 20:14 root2word.db
               313295 Aug 20 14:54 slovensko.0
                34035 Aug 20 16:12 slovensko.aff
              9054208 Oct  2 20:14 word2root.db 
    -----------------------

     
Tako. In dela. Ja, samo se sumniki mu manjkajo.
Pomoc pri instalaciji ht://Dig je odlicno napisana na njihovem webu, tudi
za taksne newbies, kot ....   :)))

                                           Majan
 
================================================
2.  Sejem   rabljene   racunalniske   opreme  in
Linux install fest  http://www.kss-loka.si/sejem
     sobota, 27. november 1999, od 9.00 so 19.00  
        Skofja Loka, Osnovna sola Ivana Groharja          
================================================
                                    Marjan Savli
                       marjan.savli na liste.gov.si
http://www2.arnes.si/guest/krklubsls2/index.html
PGP:   http://www.kss-loka.si/~msavli/RSAkey.txt
   tel: +386  (0)64 624-160 int.282, 064 623-173
================================================




Dodatne informacije o seznamu Starilist