=====================================================================
 Eksperimendid ajavljendite kaevandamisel tekstikorpusest
=====================================================================

   Eksperimendi kirjeldus
  ========================
 *) Eksperimendi lhtekorpuseks valiti Tasakaalus korpuse ajalehekorpus
 (http://www.cl.ut.ee/korpused/grammatikakorpus/). Kasutati vana korpuse
 versiooni (st versiooni, mis oli leval enne 2010 veebruari muudatusi).
 
 *) Ajavljendite kaevandamiseks loodi Perli skript tempExprMiner_koik_lehed.pl.
 Skript saab sisendiks otsitava vtmesna, snakonteksti raadiuse N ja
 sageduslvendi THRESHOLD. Skripti t tulemusena peaks leitama korpusest
 kik vtmesna sisaldavad fraasid, mille pikkus on viksem/vrdne kui 
 2*N+1 ning mille esinemissagedus on suurem kui THRESHOLD.
 
 *) Parameetreid vtmesna, raadius ja sageduslvend saab praegu muuta vaid
    skripti seest, muutes vastavaid muutujaid:
       @searchPatterns - vtmesnad regulaaravaldiste kujul;
       $n - snakonteksti raadius;
       $THRESHOLD - sageduse lvend;    
    Otsingutulemuste tiendavat filtreerimist saab tpsustada muutujates:
       @exclusionPatterns - vljaarvamis-mustrid: nendega (kasvi osaliselt) 
                            sobituvad fraasid eemaldatakse.
       @stopWords - stoppsnad: nendeni judes fraasi rohkem ei laiendata ning
                    neid ei arvata fraaside sisse.

 *) Kaevandamise tulemused raadiuse 5 ja sageduslvendi 5 korral on failides ..._l5_n5.txt
   Vib theldada, et kaevandamise tulemustes sisaldub ka hulgaliselt mitte-ajavljendifraase,
   kuna stoppsnade filtrit pole piisavalt peeneks vlja arendatud.
 
 
 Siim Orasmaa                                           15.05.2010