Frågor och svar
- Q: Vad är poängen med DSSO?
A: Ordlistan är till för att användas för datoriserat skrivstöd som rättstavning, grammatikkontroll och avstavning. DSSO är också tänkt som råmaterial i all slags smarta tjänster och program som behöver en ordlista. DSSO används exempelvis av ordbehandlingsprogrammet LibreOffice och webbläsaren Firefox samt ett stort antal mobilappar. För närvarande ligger fokus helt på rättstavning - materialet är ännu inte redo för andra tillämpningar med mindre än att man lägger viss möda på att bearbeta det för det specifika syftet.
- Q: Varför inte använda SAOL (eller någon annan ordlista av hög kvalitet) i stället?
A: För att bara ordlistor som får distribueras fritt kan ingå i LibreOffice och annan fri programvara.
Om Svenska Akademien hade tillåtit fri spridning av SAOL, så skulle DSSO inte behövas.
- Q: Hur kan jag hjälpa till?
A: Genom att meddela mig om du upptäcker felstavade ord som inte rödmarkeras av rättstavningsordlistan. Eller genom att korrekturläsa valfri del av den nedladdningsbara ordlistan. Om du är mycket duktig på språk och har gott om tid, så är du också välkommen att hjälpa till att redigera själva ordlistan - mejla i så fall undertecknad för att få inloggningsuppgifter.
- Q: Förut kunde vem som helst logga in och redigera ordlistan, varför går inte det längre?
A: Mer än 90% av de ändringar som gjorts sedan 2011-09-15 har varit felaktiga. I många fall har det rört sig om medvetet sabotage. Undertecknad har viktigare saker att syssla med än att rensa bort skräp från databasen.
- Q: Varför har din sajt så usel design?
A: Webbdesign är inte mitt intresseområde. Om någon vill hjälpa till att förbättra designen, eller bygga en egen motsvarande sajt med bättre design, så välkomnar jag det. Eftersom DSSO inte är reklamfinansierad kvittar det hur många "klick" sajten får. Jag byggde sajten år 2003 (långt innan begreppet "webb 2.0" myntades) med en enkel design, och har inte ändrat den sedan dess. Sajten är mer till för att samla in språkdata än att vara någon uppslagsbok. Data samlar jag in för att sprida det som rådata så att andra kan förädla det och hitta på nya smarta användningsområden. Min egen begränsade tid ägnas annars nästan enbart åt ett enda användningsområde, nämligen stavningskontroll.
Frågor om språket
- Q: Vilka språkliga riktlinjer gäller för DSSO?
A: Endast skriftspråk godkänns, inte talspråk, vardagliga uttryck eller slang. Endast ord som fortfarande används i löpande svensk text godkänns.
En hel del poster med vardagliga eller ålderdomliga stavningar förekommer om man söker på sajten, men de är markerade som sådana i
den nedladdningsbara versionen. Könsord, svordomar och vulgära uttryck godkänns, men är också uppmärkta så att de lätt kan filtreras bort eller t.ex. undantas från rättelseförslagen vid stavningskontroll.
- Q: Varför saknas ordet "femtio" och andra vanliga ord i din ordlista?
A: Varifrån kommer denna galna missuppfattning? Alla någorlunda vanligt förekommande ord finns i DSSO och det är befängt att påstå något annat.
Ett tips till alla som vägrar att tro på detta är att först testa i stavningskontrollen, och endast störa mig med sådant som
faktiskt inte blir korrekt där.
- Q: Men hur vet du vilka ord och böjningsformer som är vanligt förekommande?
A: Jag har byggt en databas med flera TB av svensk text. Denna databas uppdateras dygnet runt, bl.a. med text från svenska webbsajter. Databasen är det viktigaste underlaget för arbetet med DSSO. I övrigt kontrollerar jag vanligtvis också mot Googles gigantiska databaser.
- Q: Varför saknas så många giltiga svenska ord?
A: DSSO är inte en ordbok utan ett maskinläsbart råmaterial som främst är utformat för att användas vid skapandet av rättstavningsprogram.
En massa ord som kanske finns i andra ordböcker, men som i princip aldrig används i löpande svensk text, har jag helt enkelt väntat med att lägga in. Vidare har DSSO bara ett mycket litet antal sammansatta ord eftersom sammansättningar hanteras med hjälp av logiska regler i ställer för att listas explicit i rättstavningsordlistan. Någon gång i framtiden kommer jag kanske att komplettera och städa upp i DSSO så att den fungerar som ordbok också.
- Q: DSSO är fel, för den är inte identisk med SAOL!
A: SAOL är kanske Sveriges starkaste varumärke. Ett tryckfel i SAOL skulle omedelbart upphöjas till språknorm av 90% av Sveriges befolkning. Det föreligger ett "moment 22" för alla som vill distribuera en svensk ordlista utan att ansöka om licens från Svenska Akademien: om den egna ordlistan skiljer sig mycket från urvalet i SAOL, så kommer kunderna att klaga. Om den egna ordlistan är för lik SAOL, så gör man sig till måltavla för Svenska Akademiens jurister.
I princip har alltså Svenska Akademien skaffat sig monopol på det svenska ordförrådet. Vad DSSO beträffar så är syftet inte att kopiera SAOL, utan att bygga en databas över de ord och böjningsformer som ofta används nuförtiden och som faktiskt uppfattas som korrekta av en majoritet av kunniga skribenter.
- Q: DSSO innehåller en massa konstiga ord som inte finns i verkligheten. T.ex. "kalpa", "hunna", "eta", "lopps". Varför stoppar du inte helt enkelt undan DSSO någonstans där man aldrig hittar den igen?
A: Visst finns det en del fel i DSSO, och jag är mycket tacksam för hjälp att hitta dem. Men de flesta poster i DSSO-databasen har ändå någon form av berättigande.
För den som vill sammanställa en egen version av DSSO utan konstigheter kan jag nämna att de flesta "underliga" poster är uppmärkta med "CUSTOM: n" i den nedladdningsbara versionen av DSSO, varför de lätt kan filtreras bort. Detta står också i dokumentationen.
F.ö. finns ordet "hunna" i SAOL, som en böjningsform av "hinna" - har du inte ens läst första stycket i "Den gudomliga komedin"? Och "lopps" är naturligtvis genitivformen av det relativt vanliga ordet "lopp".
Svaret på frågan är dock att DSSO inte kommer att läggas ner förrän det finns någon annan fri rättstavningsordlista som är lika bra.
- Q: Varför inte använda Språkbankens Saldo i stället för en ordlista skapad av amatörer?
A: Det har jag för avsikt att göra i framtiden, åtminstone på ett eller annat sätt. Materialet i Saldo ligger dock på en tämligen akademisk nivå och kräver
omfattande bearbetning för att fungera väl som rättstavningsordlista för ordinära skribenter. Det mesta av DSSO byggdes f.ö. upp långt innan Saldo släpptes under en fri licens. Om jag någon gång får tillräckligt med tid, ska jag ta mig an det enorma jobb det innebär att migrera rättstavningsordlistan till Saldo som grundmaterial.
Rättstavningsordlistan
- Q: Rättstavningsordlistan är kass, eller hur? DSSO, som den bygger på, är ju kass. Svenska Akademien har tillkännagett genom sin ständige sekreterare Peter Englund att DSSO "är helt koko".
A: Rättstavningsordlistan är inte perfekt ännu, men min uppfattning är att den, åtminstone i vissa program, fungerar ganska bra. Om du ändå hittar en brist i rättstavningsordlistan, så beskriv den gärna för mig så rättar jag felet genast. Allmänt gnäll om att ordlistan är "kass" eller "koko" utan någon konkret beskrivning
av vad som är dåligt leder dock ingen vart. F.ö. måste det betraktas som en viktig milstolpe att kallas för "koko" av sin främsta konkurrent.
- Q: Visst hittar den alla stavfel, men rättelseförslagen är galna!
A: Jag låter medvetet rättelseförslagen inkludera automatgenererade sammansättningar, varav de flesta är helt galna.
De är syntaktiskt korrekta, men ingen artificiell intelligens finns inbyggd för att försöka lista
ut vilket ord användaren egentligen hade för avsikt att skriva. Därför ska man som skribent självfallet lita mer på sitt eget omdöme än på "rättelseförslagen",
som oftast är felaktiga. (De program som använder rättstavningsordlistan borde vara tydligare med att förklara detta, och kanske inkludera en varningstext
som säger att man inte ska lita blint på rättelseförslagen utan i stället se dem som ledtrådar till varför ordet blev rödmarkerat!)
Vissa ovanliga egennamn och facktermer rödmarkeras av rättstavningsordlistan eftersom inte alla sådana ord finns med i listan. Rättelseförslagen kommer i
sådana fall att bestå enbart av skräp. Men vid stav- eller skrivfel är nästan alltid det korrekta ordet med bland rättelseförslagen.
Om jag, i likhet med kommersiella rättstavningsprogram, hade censurerat rättelseförslagen och inte inkluderat autogenererade sammansättningar skulle rättelsefunktionen bli nästan värdelös eftersom man vid felstavning av komplicerade ord inte skulle få det korrekta ordet som rättelseförslag. Personligen föredrar jag att bli idiotförklarad av en miljon användare (hälften av mina två miljoner användare tycks ge omdömen i stil med "stavningskontrollen på Open Office är helt jävla efterbliven") framför att försämra rättstavningsordlistan. (Min plan är dock att för varje ny version av ordlistan minska antalet sammansättningar som hanteras med regler och öka antalet explicita sammansättningar i ordlistan. Detta kommer att gradvis minska antalet konstiga rättelseförslag. Tyvärr måste detta göras med stor försiktighet för att inte de svagaste användarna i stället ska lockas att särskriva mindre vanliga sammansättningar.)
- Q: Hur kan jag använda rättstavningsordlistan?
A: T.ex. i ordbehandlingsprogrammet Libre Office eller i webbläsaren Firefox.
Om ordlistan inte är förinstallerad, så hämta den här och öppna den sedan i respektive program.
I Firefox används den i flerradiga inmatningsfält och rödmarkerar ord som misstänks vara stav- eller skrivfel. Detta kan vara användbart t.ex. när man använder en webbmejlklient eller skriver artiklar och kommentarer på bloggar.
- Q: En rättstavningsordlista baserad på SAOL skulle vara 1000 gånger bättre.
A: Den bästa tänkbara ordlistan (SAOL) mot en som är "koko" (DSSO), det kan väl bara utfalla på ett sätt? Om någon vänlig själ ändå orkar genomföra ett jämförande test, så berätta gärna för undertecknad vilka brister DSSO har jämfört med SAOL, så kan jag försöka rätta till dem.
- Q: Varför kan man inte använda DSSO utan att du börjar bråka om en massa obegripliga "Attribution ShareAlike"-licenser?
A:
DSSO syftar till att skapa ett öppet material, som alla kan studera, lära sig av och förbättra. Den som distribuerar en version av DSSO utan att berätta det för sina kunder (licensvillkoret "Attribution") eller att göra den modifierade versionen tillgänglig under samma licens (villkoret "ShareAlike") har tagit ifrån kunderna deras frihet och skaffat sig otillbörliga konkurrensfördelar.
Jag har lagt ner motsvarande miljonbelopp av egna privata resurser för att bygga upp DSSO och skapa en fri rättstavningsordlista av hög kvalitet. Detta har jag inte tjänat ett enda öre på.
I syfte att garantera materialets fortsatta frihet har jag valt att distribuera det under en Creative Commons-licens. Om jag aldrig värnar om att licensvillkoren följs, så tycks alltför många tappa respekten för dem.
Mitt material används av hundratals projekt, såväl kommersiella som "fria". Om det kommer till min kännedom att ett projekt, vare sig fritt eller kommersiellt, bryter mot licensen, händer det ibland att jag direkt eller via ombud kontaktar dem och begär att de ska respektera licensen.
Jag "bråkar" dock inte med någon som har en uppriktig vilja att respektera licensvillkoren, vilka f.ö. är lätta att uppfylla.
- Q: Vår applikation lägger ordlistan på en server i stället för att distribuera den till våra kunder. Alltså kan vi strunta i licensen.
A:
Allt som är tillåtet enligt lagen får man naturligtvis också göra med DSSO. Men om man inte stödjer sig på CC-licensen, så finns det inget som säger
att man kan förfoga över mitt material i strid mot upphovsrätten. Tänk så här: kan jag enligt upphovsrätten göra en kopia av SAOL, och skapa en egen sajt som bygger på denna kopia, utan att ha licens för det? Om inte, så gäller detsamma för DSSO.
Att bygga en webbapp kring en ordlista faller under vad som kallas "Publicly Perform" i licenstexten.
Mitt råd är därför att man i någon "about"-sida skriver varifrån materialet kommer samt gör den egna versionen av materialet nedladdningsbar under samma licens. Då är man på den säkra sidan. Hur svårt kan det vara?
- Q: Jag har läst/hört i alla större media att man inte behöver dela med sig av sina uppdateringar, det räcker att länka till DSSO.
A: Om du tror på vad journalister säger, så är du nog bortom all räddning. Sådan dumhet är heller inget försvar i en domstol.
CC-licensen har två huvuddelar, "Attribution" och "ShareAlike". En genomsnittlig journalist orkar på sin höjd sätta sig in i begreppet "Attribution"
och lämnar det betydligt viktigare villkoret "ShareAlike" därhän. Den som vill distribuera mitt material kommersiellt gör dock klokast i
att sätta sig in i båda licensvillkoren, inte bara det första.
- Q: Upphovsrätten gäller inte för kassa ordlistor som DSSO.
A: Jo. Just det faktum att DSSO är väldigt olik andra ordlistor som exempelvis SAOL gör att frågan om verkshöjd är solklar.
Händelsevis tar lagen annars ingen hänsyn till subjektiv kvalitet utan skyddar dåliga verk som DSSO i samma utsträckning som den skyddar andra, bättre verk.
- Q: Upphovsrätten gäller inte, för vi har servern utomlands.
A: Det beror på. Risken är snarare att användningen faller under mer än en jurisdiktion. Dessutom har de flesta länder upphovsrättslagar som ungefär motsvarar de svenska.
- Q: CC-licensen är anpassad för USA och är inte giltig i Sverige. Alltså gäller inte upphovsrätten för DSSO!
A: Det första påståendet kan diskuteras, men om man inte stödjer sig på licensen, så gäller som sagt den vanliga lagen om upphovsrätt.
- Q: CC-licensen är anpassad för USA och är inte giltig i Sverige, så vi kan bli stämda om vi förlitar oss på den!
A: Nej. Andemeningen i licensen är klar. Om jag har gillrat en fälla i licensen och sedan stämmer dem som förlitar sig på den, så
blir jag utskrattad i domstolen.
- Q: CC-licensen är anpassad för konstnärliga verk och kan inte tillämpas på en maskinläsbar ordlista.
A: Mitt material är ett mellanting mellan datorprogram och ett konstnärligt verk. Varken GPL eller CC-licensen passar perfekt,
men min bedömning är att CC-licensen passar bättre och är tillämplig i mitt fall.
För sidan ansvarar Göran Andersson <goran@init.se>.