Filerna dsso-X.Y.txt och dsso-unstable.txt innehåller den viktigaste informationen från DSSO-databasen, nämligen alla ord som klassificerats med ordklass samt böjningsformer, definitioner m.m.
Teckenkodningen som används i filerna är iso-8859-1.
Filerna består av poster som beskriver syntaktiska enheter. Ett exempel:
552161r5<substantiv>abonnemang:abonnemang:abonnemangs:abonnemanget:abonnemangets:abonnemang:abonnemangs:abonnemangen:abonnemangens DEFINITION 1: Förhandsbeställning BASEWORDS: abonnemangs CUSTOM: y y abonnemangs
Varje post inleds med ett heltal, följt av "r" och ett nytt heltal. (Dessa siffror kan användas för att spåra vad som ändrats mellan olika versioner av filerna; de flesta kan helt enkelt bortse från denna information.) Därefter kommer ordklass (omgivet av < och >) samt den syntaktiska enhetens grundform. Raden avslutas med en kolonseparerad lista av böjningsformer.
För substantiv anges böjningsklasserna i följande ordning:
obestämd form singularis
obestämd form singularis, genitiv
bestämd form singularis
bestämd form singularis, genitiv
obestämd form pluralis
obestämd form pluralis, genitiv
bestämd form pluralis
bestämd form pluralis, genitiv
För verb anges böjningsklasserna i följande ordning:
infinitiv
preteritum
supinum
presens
imperativ
infinitiv, passiv form
preteritum, passiv form
supinum, passiv form
presens, passiv form
perfekt particip, utrum
perfekt particip, neutrum
perfekt particip, plural
presens particip
konjunktiv
För adjektiv anges böjningsklasserna i följande ordning:
positiv utrum
positiv neutrum
bestämd form
pluralis
komparativ
superlativ
superlativ, bestämd form
maskulin
För deponens (verb med aktiv s-form) anges böjningsklasserna i följande ordning:
infinitiv
preteritum
supinum
presens
imperativ
För egennamn är böjningsformerna namnet respektive dess genitivform.
Om det står ett utropstecken i listan över böjningsformer, så är den böjningsformen obruklig. Om det finns flera alternativa varianter av en böjningsform, så anges de separerade av kommatecken.
I förekommande fall kommer sedan definitioner; varje definition inleds med "DEFINITION " följt av ett heltal. Det kan också finnas information om hur ordet böjs i sammansättningar ("BASEWORDS") eller vilka andra syntaktiska enheter denna är sammansatt av ("COMPOUND").
Posten kan avslutas med privata anteckningar, de ska i så fall inledas med "CUSTOM:". Undertecknad har lagt in en del sådana; de inleds med två blankseparerade bokstäver. Den första av dem (y eller n) anger om ordet ska tillhöra stavningsordlistan. Den andra (y eller n) anger ifall ordet får ingå i sammansättningar. Därefter kommer en blankseparerad lista av sammansättningsböjningar. Exempelvis har "ingång" posten "CUSTOM: y y ingångs". Sammansättningar som föregås av ett plustecken är sådana som kan vara mittenord i sammansättning av tre ord.
Vissa ord som kan uppfattas som anstötliga, t.ex. könsord, är markerade med "CUSTOM: b". Poster som är markerade "CUSTOM: n" kan innehålla tvivelaktiga ord, t.ex. slang, föråldrade ord, provinsiella ord, överflödiga sammansättningar, eller ord som sällan används. Om du bygger en egen version av DSSO, så granska noga de poster som är markerade "CUSTOM: n" eller "CUSTOM: b", eftersom de flesta av de posterna är skräp som av olika anledningar ändå tillåts ligga kvar i databasen.
Göran Andersson <goran@init.se>