Year of grant:
2003

Research Area:
Mentan

Project type:
Verkætlan

Project title:
Marking av teldutøkum tekstsavni

Grant number:
0205

Project manager:
Zakaris Svabo Hansen

Institution/company:
Fróðskaparsetur Føroya, Føroyamálsdeildin

Other participants:
Heini Justinussen, B.S. í teldufrøði, egið virki. Heini hevur staðið fyri tøkniligapartinum av verkætlanini, eins og hann hevur lagt viðgjørdu teksirnar til rættis til markingar.

Mortan Ólason Vang, stud. mag. á Føroyamáldseildini. Mortan hevur gjørt marking av teksti og hevur eisini eftirkannað sjálvirknu markingina.

Project period:
Original: 1.5.2004 - 31.10.2004
Final: 1.5.2004 - 31.10.2004

Grant from the FRC in DKK:
241.848 kr.

Project description:
Original description:
Verkætlanin miðar ímóti at fáa eitt føroyskt savn av teldutøkum teksti, har teksturin er markaður við upplýsingum, sum gera hann nýtiligan í sambandi við málteld og málfrøðiligar kanningar. Eitt slíkt savn kann nýtast í nógvum ymsum sambondum m.a. til:

- Málfrøðiligar kanningar
- Leitiskipanir
- Rættstavarar
- Telduskipanir til greining av føroyskum.
- Forrit til umseting til og úr føroyskum.

Grundarlagið undir verkætlanini er verandi teldutøka tekstasavnið á Føroyamálsdeildini á Fróðskaparsetri Føroya.

Final report:
The goal of the project was:
- To create a text corpus of tagged text
- To create a full form word list
- To use the tagged corpus to test different taggers

A tagged text corpus is a necessary tool for creating NLP (natural language processing) computer applications, but has so far been missing for Faroese.

The corpus that has been created consists of ca. 100.000 words of text from the newspaper Sosialurin. Each word is tagged with grammatical information (word class, gender, number etc.)

A full form word list was also created using information from the Faroese monolingual dictionary.

The statistical gagger TNT was used to automatically tag the text before proofreading. The accuracy of the automatic tagging is 87,0% overall, 90,1% for known words and 64,7% for unknown words.

Due to time constraints we did not test any other taggers.

Project status:
Liðug



<< Back
Administration     Faroese