Rättstavningsordlistor

Hur rättstavningsordlistan fungerar.

Den stora svenska ordlistan

Observera att denna ordlista är under uppbyggnad. Den är optimerad för att användas som grundmaterial till rättstavningsordlistor och är inte ännu mogen för särskilt många andra tillämpningar. (Återigen, jag kan inte hindra någon annan från att använda ordlistan i en applikation den inte är lämpad för, men skyll i så fall inte på mig utan på den som ansvarar för applikationen.)

Många sällan använda ord (i synnerhet korta sådana) finns ännu inte inlagda i DSSO eftersom de gör mer skada än nytta i en rättstavningsordlista.

De ordförklaringar som finns inlagda i DSSO är få och av dålig kvalitet. Arbetet med definitioner är helt enkelt inte prioriterat för tillfället. Förr eller senare kommer DSSO att börja hämta definitioner från andra CC-licensierade källor, bl.a. Wiktionary, Wikipedia och SALDO. Om någon är seriöst intresserad av att hjälpa till med detta arbete, så kontakta undertecknad.

Urvalet av sammansättningar i DSSO kan verka befängt eftersom många vanligt förekommande sammansättningar saknas och många märkliga ad hoc-sammansättningar finns inlagda. Skälet till detta är att rättstavningsordlistan hanterar sammansättningar med hjälp av regler, så att de inte behöver vara explicit inlagda i ordlistan förutom i form av intressanta stickprov. Den som bedömer DSSO utifrån vad den den inte är (dvs en traditionell ordbok) tar därför lätt till omdömen som "den kassa ordlistan" (Svenska Dagbladet) eller "ordlistan är helt koko" (Peter Englund, Svenska Akademien).

Fråga gärna undertecknad om råd angående hur materialet bäst kan bearbetas för att användas i en viss applikation. Felaktig bearbetning av materialet leder troligtvis till ett fiasko - som exempelvis att sammansättningsreglerna slutar fungera i ett rättstavningsprogram eller att egennamn, förkortningar, obskyra facktermer och böjningsformer betraktas som giltiga ord av ett ordspel.

Copyright © 2011 Göran Andersson. Denna ordlista är tillgänglig under licensen Creative Commons Attribution-Share Alike. Vid distribution av ordlistan, vare sig i förändrat eller oförändrat skick, ska det tydligt framgå att denna licens gäller hela det verk som distribueras.

dsso-1.51.txt (2012-01-22)
Denna fil uppdateras några gånger per år. Filformatet beskrivs här.

Koden för att bygga stavningsordlistan utifrån textfilen dsso-1.51.txt finns här. (OBS! Detta är bara intressant för utvecklare; andra bör välja en färdigbyggd ordlista.)

Rå ordlista

Varning! Denna fil är en biprodukt av DSSO-databasen vars främsta syfte är att utgöra ett råmaterial för rättstavningsordlistan. Inga garantier ges för att filens innehåll är korrekt, fullständigt eller konsekvent. I synnerhet kan urvalet av sammansättningar förefalla märkligt. Det beror dock inte på att filens upphovsman är "koko", utan på vad som är användbart i rättstavningsordlistan.

dsso_words-0.8.txt

Programmet

Programmet för lagring och versionshantering av språkdata heter "eXtensible Dictionary" och finns här. Programmet får spridas under licensen GNU GPL.

Snabbkurs i juridik

Eftersom de flesta som vill använda materialet är programmerare och (i likhet med alla journalister som förvrängt licensens innebörd i media) saknar juridisk kompetens, blir jag tvungen att själv försöka mig på en pedagogisk insats. Vad jag skriver här nedan är dock inte juridiskt bindande, utan det är CC-licensen ovan som gäller - varken mer eller mindre. Man behöver inte fråga mig om lov för att använda materialet, det räcker att respektera licensen. Jag får upp till ett tiotal förfrågningar om dagen om licensens juridiska innebörd, och vill ägna min tid åt annat än att besvara sådana frågor. Så var snäll och läs nedan i stället för att fråga mig om sådant som förklaras här. (Se även FAQ.)

Privat användning av ordlistan

Lagen har inga restriktioner för hur man förfogar över upphovsrättsskyddat material i en privat krets, och det har inte jag heller. (Tvärtom anser jag att den senaste lagändringen har en alltför snäv definition av vad som är en privat krets.) CC-Licensen ovan är endast tillämpbar då materialet på ett eller annat sätt görs tillgängligt för en större grupp. Licensen handlar om distribution (eller, som copyrightlobbyn kallar det, tillgängliggörande) av materialet, inte privat användning av det. Men eftersom jag insett att bara 10% av befolkningen i stort (och 0.01% av alla programmerare och journalister) kan förstå sådana subtiliteter, finner jag det för gott att hålla mig till den tvetydiga termen "användning" nedan.

Användning av ordlistan i fri programvara

Detta är det enda som intresserar mig personligen, och det är för detta jag skapat materialet. Kontakta gärna mig om du vill använda ordlistan som en del av något fritt/open source-program. Jag kan hjälpa till att automatisera bearbetningen av mitt råmaterial till ett format som passar programmet samt att släppa det bearbetade materialet under en licens som passar programmet. Som exempel, se rättstavningsordlistorna till Firefox och OpenOffice. Fri programvara uppfyller automatiskt villkoret "ShareAlike". Villkoret "Attribution" ska uppfyllas också av fri programvara. Självfallet kommer jag aldrig att utkräva sanktioner ifall ett open source-projekt missat denna detalj förutsatt att det rättas till då det upptäcks.

Kommersiell användning av ordlistan

Jag har inget emot kommersiell användning av ordlistan under förutsättning att licensen ovan respekteras. Lägg för övrigt märke till följande: licensen gör inte någon skillnad mellan kommersiell eller icke-kommersiell distribution. Licenstexten nämner inte ens ordet "kommersiell". Personligen tycker jag dock att man kan ställa högre krav på kommersiella projekt vad gäller ansträngningen att respektera licensen.

För att uttrycka det lite förenklat, så krävs bara att

Detta är den enda "betalning" jag begär. Tanken är att detta ska leda till ömsesidig nytta: vissa av användarna kanske bidrar till att förbättra DSSO, och förbättringar av DSSO kommer applikationen till del. (Det är inte den första, utan den andra av punkterna ovan som är viktig. Det spelar ingen roll om du tycker att du endast gjort triviala förändringar, för det är förmodligen inte trivialt för kunderna att återskapa dessa ändringar om inte just din version är tillgänglig. Om din version av ordlistan är tecken för tecken identisk med filen dsso-1.**.txt så är dock punkt 2 automatiskt uppfylld.)

Förutsatt att det tydligt framgår för användarna av den kommersiella applikationen att själva ordlistan, i den form den används av applikationen, är fri under CC-licensen ovan, kan jag i vissa fall hjälpa till med bearbetningen av materialet till ett format som passar applikationen ifråga. För att detta ska fungera behöver jag få veta hur applikationen ska fungera och framför allt behöver jag en detaljerad beskrivning av vilket urval av ordlistan applikationen kräver, samt vilket format. Jag har varken tid eller lust att be om mer information vid slarvigt ställda förfrågningar, utan de lämnas vanligtvis obesvarade.

Vid kommersiell distribution som inte respekterar Attribution ShareAlike-licensen, t.ex. så att användarna inte får veta att de köper fritt material eller att de inte får möjlighet att komma åt materialet för att studera det, lära sig av det och förbättra det, tvekar jag inte att vidta juridiska åtgärder. Observera att enligt sektion 7a av licensen förlorar man automatiskt rätten att använda mitt material om man en enda gång bryter mot licensen. Självfallet förnyar jag den rätten, och förlåter överträdelsen, ifall man övertygar mig om följande:

Av alla de projekt som använder materialet tror jag att ungefär hälften lyckas följa licensen fullt ut. Jag hinner inte ge gratis juridisk utbildning åt alla dem som bryter mot den, men för att inte respekten för licensen ska urholkas helt måste jag någon gång då och då insistera på att dess villkor efterlevs.

Vid kommersiell distribution som sker utan min vetskap vill jag särskilt påminna om följande del av CC-licensen: det ska framgå att det är en bearbetad version av ordlistan, och det får inte framstå som om användningen av den specifika versionen av ordlistan i det specifika sammanhanget är rekommenderat eller sanktionerat av mig, för då är risken stor att jag drunknar i mejl med klagomål och krav på support från uppretade användare.

Måste hela vår applikation släppas under CC-licensen?

DSSO får inte distribueras kommersiellt annat än under CC-licensen som anges ovan. Den som vill distribuera DSSO kommersiellt och inte förstår licensen bör ta hjälp av en jurist. Undertecknad har inte möjlighet att erbjuda gratis juridisk rådgivning. Frågor om hur man enklast distribuerar mitt material kommersiellt utan att dela med sig av de egna ändringarna lämnar jag obesvarade.

En vanlig missuppfattning kan jag dock reda ut: om DSSO distribueras på ett sätt som inte är tecken för tecken identiskt med filen ovan, så gäller ShareAlike-regeln - "If you alter, transform, or build upon this work, you may distribute the resulting work only under the same or similar license to this one." För den som inte vill att denna licens ska "smitta" hela applikationen, finns ett enkelt kryphål: distribuera själv den modifierade ordlistan som ett separat verk under CC-licensen, och låt sedan applikationen inkludera exakt denna version samt referera till den i någon "fotnot" eller "about"-sida.


Göran Andersson <goran@init.se>