Játtað í:
2003

Granskingarøki:
Mentan

Verkætlanarslag:
Verkætlan

Verkætlanarheiti:
Marking av teldutøkum tekstsavni

Játtanarnummar:
0205

Verkætlanarleiðari:
Zakaris Svabo Hansen

Stovnur/virki:
Fróðskaparsetur Føroya, Føroyamálsdeildin

Aðrir luttakarar:
Heini Justinussen, B.S. í teldufrøði, egið virki. Heini hevur staðið fyri tøkniligapartinum av verkætlanini, eins og hann hevur lagt viðgjørdu teksirnar til rættis til markingar.

Mortan Ólason Vang, stud. mag. á Føroyamáldseildini. Mortan hevur gjørt marking av teksti og hevur eisini eftirkannað sjálvirknu markingina.

Verkætlanarskeið:
Original: 1.5.2004 - 31.10.2004
Final: 1.5.2004 - 31.10.2004

Stuðul úr Granskingargrunninum:
241.848 kr.

Verkætlanarlýsing:
Original description:
Verkætlanin miðar ímóti at fáa eitt føroyskt savn av teldutøkum teksti, har teksturin er markaður við upplýsingum, sum gera hann nýtiligan í sambandi við málteld og málfrøðiligar kanningar. Eitt slíkt savn kann nýtast í nógvum ymsum sambondum m.a. til:

- Málfrøðiligar kanningar
- Leitiskipanir
- Rættstavarar
- Telduskipanir til greining av føroyskum.
- Forrit til umseting til og úr føroyskum.

Grundarlagið undir verkætlanini er verandi teldutøka tekstasavnið á Føroyamálsdeildini á Fróðskaparsetri Føroya.

Final report:
The goal of the project was:
- To create a text corpus of tagged text
- To create a full form word list
- To use the tagged corpus to test different taggers

A tagged text corpus is a necessary tool for creating NLP (natural language processing) computer applications, but has so far been missing for Faroese.

The corpus that has been created consists of ca. 100.000 words of text from the newspaper Sosialurin. Each word is tagged with grammatical information (word class, gender, number etc.)

A full form word list was also created using information from the Faroese monolingual dictionary.

The statistical gagger TNT was used to automatically tag the text before proofreading. The accuracy of the automatic tagging is 87,0% overall, 90,1% for known words and 64,7% for unknown words.

Due to time constraints we did not test any other taggers.

Støða:
Liðug



<< Back
Administration     English