[TeX slo] Pobuda za posodobitev programov za deljenje besed: zbiranje predlogov & hroscev

Mojca Miklavec mojca.miklavec.lists na gmail.com
Pet Feb 10 02:50:17 CET 2012


Pozdravljeni,

pred kratkim se je na Nizozemskem pojavila pobuda (piše se "Grant
Proposal") za posodobitev algoritma za deljenje besed. Vključena sta
oba razvijalca - tako za TeX (LuaTeX) kot tudi za libhyphen (na njem
slonijo OpenOffice, LibreOffice, Scribus, Mozilla, v prihodnosti
verjetno tudi WebKit/Chrome).

Razlogi, zakaj so potrebne nadgradnje:
- težave s sestavljenimi besedami (tako pri nemščini kot pri
upoštevanju vezaja in apostrofa)
- nekateri jeziki hecno delijo besede (nedeljena in deljena beseda se
zapišeta drugače): če se ne motim nekaj v smislu ck->k-k
- čeprav je v besedi mogoče uporabiti več mest za deljenje, so
nekatera mesta preferenčna; trenutno je deljenje le dovoljeno ali
prepovedano, radi pa bi uvedli tudi uteževanje
- podpora mongolščini, armenščini, ...
- patgen je 8-biten (deluje le z 256 znaki in nekimi čudnimi
translacijskimi tabelami); potrebna je posodobitev na UTF-8
- ...

V tej luči se mi zdi še kar pomembno, da bi:

1.) (v kratkem času) zbrali spisek posebnosti in želja, ki se tičejo
našega jezika
  * na misel mi pride predvsem uteževanje mest - kjer je deljenje bolj zaželeno
  * besede ob vezajih (najbrž ne potrebujejo drugačnega tretmaja kot
za ostale jezike)
  * zdi se mi, da je Amebis naredil celo znanost tudi iz zapisa tujih
besed in imen
  * (problematike ne poznam dovolj, da bi vedela, če je še kakšna
pomembna posebnost)

2.) (daljnoročni cilj) sestavili primeren seznam besed z označeno
preferenco mest za deljenje;
mogoče tudi ugotovili, ali znamo napisati pravila brez seznama besed
(npr.: pred "bč" se ne sme deliti, ker "bč" ni lahko izgovorljiv
[skobčevka])

3.) Za lokalni (lahko tudi globalni) del projekta bi lahko poiskali še
kakšnega slovenskega donatorja/podpornika ali se priključili kakšnemu
razpisu. (Bivše ministrstvo je za bivšo jesen npr. napovedalo IT
razpis, ki pa je sam po sebi pretežak - minimalni znesek 50k EUR.)

Glej:
- http://tug.org/pipermail/tex-hyphen/2012-February/000821.html

Ideje?

Mojca


Dodatne informacije o seznamu TeX-list