==================================================
 Ajavljendite tuvastaja arendus- ja testkorpused
==================================================

===============================
 Kataloogi- ja failistruktuur
===============================
 
 *) arenduskorpus - kataloogis on ajavljendite tuvastaja arendamisel 
                    kasutatud testkorpus. Mningad failid sisaldavad
                    artiklite kogumeid (8-75 artiklit hes failis).
                    Kokku peaks korpuses olema 239 artiklit.
                    Iga faili esimesel real on dokumendi loomise kuupev.
                    
 *) uus_testkorpus - kataloogis on ajavljendite tuvastaja lplikuks
                     hindamiseks kasutatud uus testkorpus. Kik
                     86 artiklit on hes failis.
                     Faili esimesel real on dokumendi loomise kuupev.

 *) tulem_uued_reeglid_arenduskorpus_*.txt - uue ssteemi viimased tulemused
                     arenduskorpuse mrgendamisel. Korrektselt joondatud
                     ning kaduma linud/leliigsed ajavljendid tuuakse 
                     vlja alamkorpuste kaupa ning samuti tuuakse iga 
                     alamkorpuse hindamise tulemus.
                     
                     Korpusele on ksitsi lisatud mrkmed veatpide kohta
                     (tulemusridade lpus, sulgudes).

 *) tulem_uus_testkorpus_*.txt - uue ssteemi tulemused uuel testkorpusel. 
                     Formaat sama, mis eelmisel failil.
                     
 *) countResults.pl - Skript, mis kuvab sagedustabelina tulemustefailis
                      ksitsi mrgitud vead. Kasutusnide pises.
                      
 *) eraldaSagedusProfiil_2.pl - Skript, mis kuvab etteantud korpuses esinevate 
                                ajavljendite semantilise esituskuju jrgi 
                                organiseeritud sagedusprofiili. Kasutusnide
                                pises.                                
 
  Mrkus tulemifailide kohta: failides raporteeritud fraasipiiride (EXTENT) 
 mramise tpsused erinevad magistrits raporteeritud tpsustest. 
  Tulemifailides on fraasipiiride mramise tpsus leitud jrgmiselt:
     {korrektselt mratud fraasipiirid} / {korrektselt eraldatud ajavljendid}
  Magistrit viimases versioonis on seda valemit parandatud ning esitatud kujul:
     {korrektselt mratud fraasipiirid} / {kik eraldatud ajavljendid}
 
  Mrkus protsentide kohta: Logifailides on enamasti tulemused raporteeritud 
 tpsusega 2 kohta prast koma. Magistrit viimases versioonis on protsentide 
 tpsust muudetud ning mardatud tulemused tpsusele 1 koht peale koma.
 
 =====================================
   Arenduskorpus
 =====================================
 
  Jrgnevalt tuuakse tiendavat informatsiooni arenduskorpuse kohta.
  
  Eesti keele koondkorpusest (http://www.cl.ut.ee/korpused/) on vetud 
 jrgnevad alamkorpused:
 
 *) "Postimees"
    2000-04-19_postimees_1.txt  (30 artiklit)
    2000-04-19_postimees_2.txt  (34 artiklit)
    
 *) "Eesti Pevaleht"
    2007-01-07_epl.txt          (8 artiklit)
    2007-02-01_epl.txt          (16 artiklit)
    2007-06-16_epl.txt          (75 artiklit - tervikvljaanne)
    2007-08-27_epl.txt          (20 artiklit)
    2007-10-19_epl.txt          (27 artiklit)

  Postimehe vrguvljaandest (www.postimees.ee) on vetud jrgmised artiklid:
  (igas failis on ks artikkel)
  
 *) 121107_tartu_postimees_294977.txt              (2007-11-12)
 
    020408_esileht_siseuudised_tallinn_321170.txt  (2008-04-02)
    170408_tartu_postimees_324624.txt              (2008-04-17)
    200508_esileht_krimi_331590.txt                (2008-05-20)
 
    2009-07-23T16-40_postimees.txt
    2009-08-30T17-20_postimees.txt
    2009-09-01T13-02_postimees.txt
    2009-10-08T13-49_postimees.txt
    2009-10-17T16-11_postimees.txt
    2009-10-18T16-32_postimees.txt
    2009-10-20T14-12_postimees.txt
    2009-12-04T12-07_postimees.txt
    2009-12-06T11-31_postimees.txt
    2009-12-06T13-00_postimees.txt
    2009-12-10T10-22_postimees.txt
    2009-12-14T07-41_postimees.txt
    2009-12-14T10-11_postimees.txt
    2009-12-14T11-19_postimees.txt
    2009-12-14T14-18_postimees.txt
    2009-12-14T15-50_postimees.txt
    2009-12-14T16-59_postimees.txt
    2009-12-15T08-15_postimees.txt
    2009-12-16T09-27_postimees.txt
  
    2010-01-11T10-14_postimees.txt
    2010-01-16T19-22_postimees.txt
    2010-01-17T15-01_postimees.txt
    2010-01-18T12-00_postimees.txt
    2010-01-25T10-54_postimees.txt
    2010-02-11T10-43_postimees.txt
    
    (Kokku 29 artiklit)

 Kokkuvte:
 
        2000  2007  2008  2009  2010   Kokku
 EPL:    -    146   -     -     -      146
 PM:     64   1     3     19    6      93
                                    ----------
                                       239 artiklit

 =====================================
   Uus testkorpus
 =====================================

   Korpus on vetu Eesti keele koondkorpusest (http://www.cl.ut.ee/korpused/),
  "Eesti Pevaleht" 2006 aasta alamkorpusest. Korpuseks on vetud kuupeva
  2006-08-12 tervikvljaanne, milles oli 86 artiklit.
  
  
 Siim Orasmaa                                           15.05.2010