Year of grant: 2003 Research Area: Mentan Project type: Verkætlan Project title: Marking av teldutøkum tekstsavni Grant number: 0205 Project manager: Zakaris Svabo Hansen Institution/company: Fróðskaparsetur Føroya, Føroyamálsdeildin Other participants: Heini Justinussen, B.S. í teldufrøði, egið virki. Heini hevur staðið fyri tøkniligapartinum av verkætlanini, eins og hann hevur lagt viðgjørdu teksirnar til rættis til markingar. Mortan Ólason Vang, stud. mag. á Føroyamáldseildini. Mortan hevur gjørt marking av teksti og hevur eisini eftirkannað sjálvirknu markingina. Project period: Original: 1.5.2004 - 31.10.2004 Final: 1.5.2004 - 31.10.2004 Grant from the FRC in DKK: 241.848 kr. Project description: Original description: Verkætlanin miðar ímóti at fáa eitt føroyskt savn av teldutøkum teksti, har teksturin er markaður við upplýsingum, sum gera hann nýtiligan í sambandi við málteld og málfrøðiligar kanningar. Eitt slíkt savn kann nýtast í nógvum ymsum sambondum m.a. til: - Málfrøðiligar kanningar - Leitiskipanir - Rættstavarar - Telduskipanir til greining av føroyskum. - Forrit til umseting til og úr føroyskum. Grundarlagið undir verkætlanini er verandi teldutøka tekstasavnið á Føroyamálsdeildini á Fróðskaparsetri Føroya. Final report: The goal of the project was: - To create a text corpus of tagged text - To create a full form word list - To use the tagged corpus to test different taggers A tagged text corpus is a necessary tool for creating NLP (natural language processing) computer applications, but has so far been missing for Faroese. The corpus that has been created consists of ca. 100.000 words of text from the newspaper Sosialurin. Each word is tagged with grammatical information (word class, gender, number etc.) A full form word list was also created using information from the Faroese monolingual dictionary. The statistical gagger TNT was used to automatically tag the text before proofreading. The accuracy of the automatic tagging is 87,0% overall, 90,1% for known words and 64,7% for unknown words. Due to time constraints we did not test any other taggers. Project status: Liðug << Back |
Administration Faroese |