Datorlingvistik

I  begreppet universitetsdatacentral ingick i slutet av 60-talet installation och drift av en kraftfull elektronisk datamaskinanläggning. Men dessutom tillkom en så kallad stödprogrammerargrupp, med uppgiften att initiera användningen av en sådan facilitet inom andra vetenskapliga områden än – som traditionellt – naturvetenskapen.

Universitetsdatacentralerna fick dessutom uppgiften att med hjälp av denna stödprogrammerargrupp sprida kunskap om den nya tekniken till det regionala näringslivet och den offentliga sektorn samt – på kommersiella villkor – hjälpa till med användningen av tekniken.

Det var den delen av infrastrukturen som lade grunden till de flesta väsentliga och uthålliga innovationerna som har sina rötter i Uppsala. Datorlingvistik är en av dessa.

Introduktionen av datoranvändning inom forskningsområden där en sådan ännu inte förekom skedde i form av så kallade stödprogrammerarseminarier. Detta innebar att UDAC-chefen kontaktade en viss institution med förslag till en serie av minst tre seminarier, enligt följande schema:

  1. En presentation av mäktigheten av det nya forskningshjälpmedlet, om möjligt med hänvisning till vad som redan var på gång ute i världen.
  2. En representant för institutionen presenterade den pågående och planerade forskningen, samt var man hade tankar om att med hjälp av det nya hjälpmedlet kunna möjliggöra något som hitintills – tyvärr – varit omöjligt.
  3. Utifrån de två första mötena diskuterades vilka pilotprojekt som var tänkbara. Minst två sådana var Schneiders villkor, man kunde ju vid denna tidpunkt inte bedöma om projekten skulle lyckas eller inte. Men åtminstone ett av tre borde bli framgångsrikt.

Av de språkvetenskapliga institutionerna vid Uppsala universitet som driftchefen Schneider under hösten 1965 erbjöd en sådan seminarieserie samt stöd till igångsättningen av två till tre pilotprojekt, var det institutionen för slaviska språk som var mest intresserad. Pionjär där var docenten Carin Davidsson.

Det första projektet som specificerades och som påbörjades tämligen omgående var en ”baklängessorterad” tjeckisk ordbok.

Det andra projektet var mycket mera ambitiöst. Målet var att utveckla datorbaserade verktyg för olika lingvistiska specialiteter, t.ex. ett system för analys av ordklasser. Som övergripande mål hägrade ju helt klart maskinell översättning av texter, särskilt mellan ryska och svenska. Carin Davidsson föreslog en person som hon ansåg mycket lämpad för att leda ett sådant projekt, med stöd av en stödprogrammerare. Personen var en ung forskarstuderande med pionjäranda, Anna-Lena Sågvall, som just då gick en forskarutbildning i strukturell lingvistik och maskinöversättningar i Leningrad.

Anna Sågvall blir datorlingvist

År 1966 skulle Anna Sågvall från Åtvidaberg söka in på gymnasiet i Linköping. Valet av gymnasielinje var besvärligt; hon var intresserad av såväl språk som matematik.  Svårt att kombinera, kan man tycka. Men det går, som vi ska se.

Hon valde först reallinjen, men ändrade sig och gick i stället latinlinjens halvklassiska gren. Därefter blev det studier i matematik och numerisk analys vid Uppsala universitet. I numerisk analys ingick en liten kurs i databehandling, den första av sitt slag vid Uppsala universitet.

Under studietiden fick hon sommaren 1962 praktisera som operatör på Facits EDB-central (EDB = Elektronisk DataBehandling) på Karlavägen i Stockholm. I hennes uppgift ingick att arbeta med maskinkod. Det här var på den tiden då det ansågs nödvändigt att den som använde en datamaskin visste hur den och programmen fungerade i alla minsta detalj. Arbetsamt, men säkert nyttigt. Och Anna Sågvall tyckte det var roligt.

Men språkintresset fanns kvar, och hon började läsa ryska, ”för Sovjet var ju fascinerande”. Det blev raskt fyra akademiska betyg i ryska (motsvarar dagens 80 poäng), men dåligt med praktisk träning i ryska. Hon sökte då ett licentiatstipendium via Svenska Institutet för ett års studier i Leningrad.

Det var svårt att hitta ett lämpligt ämne att ta upp i stipendieansökan. Men Anna Sågvall råkade få tag i en bok, Datamaskinen och språket, av matematikern Carl-Eric Fröberg och lingvisten Bengt Sigurd. I boken stod det hur man skulle kunna göra maskinöversättningar av språk. Det här passade ju perfekt om man tänker på hennes bakgrund och intressen.

Anna Sågvall fick stöd av sin mentor och lärare, Carin Davidsson, som var docent i slaviska språk. Den här hjälpen var nog nödvändig eftersom det var fråga om ett nytt ämne och ingen egentligen förstod vad det hela handlade om. Ansökan kom på så vis att handla om datoröversättningar mellan ryska och svenska, och hon tilldelades stipendiet för läsåret 1965–66. Hon fick en grundlig utbildning i strukturell lingvistik och maskinöversättningar och förbättrade samtidigt successivt sin ryska.

Under juluppehållet 1965 reste Anna Sågvall hem och förhörde sig om möjligheterna att få studera maskinöversättning när hon kom hem efter året i Sovjet. Hon hänvisades till en viss Werner Schneider, vid den här tiden ung fysikdocent och nytillträdd chef för Uppsala Datacentral, UDAC. (Länk) Som tur är vände hon sig till en person som har som valspråk ”Inget är omöjligt”. Så det gick ju bra.

Via Schneider fick hon kontakt med flera yngre, lovande personer inom dataområdet. Bland dessa fanns Erik Sandewall, som studerade i USA (och så småningom blev professor i datavetenskap i Linköping). Schneider tipsade Sandewall om Anna Sågvall och hennes inriktning och det hela utmynnade i i en omfattande korrespondens. Alltså två svenskar som under det kalla krigets värsta år satt i USA respektive Sovjet och samarbetade!

När Anna Sågvall kom hem från Sovjet anställde Schneider henne som systemman (byrådirektör) på halvtid vid UDAC. Dessutom ställde han upp med en programmerare, Bengt Hagman, så att hon inte själv behövde programmera sina idéer. Med hans hjälp genomförde hon sin första studie, ett analysprogram som kunde känna igen och analysera verb i löpande rysk text. Så här i efterskott kan man konstatera att detta är en viktig del om man vill åstadkomma maskinöversättning av texter. Och det blev så småningom hennes arbete för licentiatexamen, som hon avlade 1970.

Situationen var ganska egendomlig; alla andra på UDAC fick minsann sköta sin egen programmering. Så det var naturligt att Anna Sågvall via internutbildning började lära sig programmering och behärskade snart FORTRAN och så småningom andra programmeringsspråk som PL/I och LISP.

Halvtidstjänsten på UDAC kombinerades med en halvtid på den slaviska institutionen vid Uppsala universitet, där hon undervisade i bl.a. grammatik. Men det blev jobbigt att arbeta på två ställen och hon valde då att helhjärtat satsa på UDAC, där det enligt hennes mening var ”högre i tak”. Hon gick till Werner Schneider och sa helt enkelt att hon ville arbeta heltid. Och det var inga problem. Det fanns i själva verket redan en överenskommelse mellan UDAC och den språkvetenskapliga sektionen inom humanistiska fakulteten. Den gick ut på att datacentralen skulle ge service åt språkforskare som hade användning av datorer. Detta arrangemang var sannerligen ingen vanlig företeelse på den här tiden.

Anna Sågvall utvidgade nu sin forskning till att bygga ett system som analyserade alla ordklasser i ryska. Och under tiden bildades det en liten arbetsgrupp som under hennes ledning sysslade med vad vi i dag skulle kalla datorlingvistik (Computational Linguistics).

Verksamheten i Uppsala efter 1971

Anna Sågvalls  forskargrupp, som alltså var placerad på UDAC, bestod av tre personer (”flickorna”), som bl.a. utvecklade ett läromedel som kunde underlätta inlärningen av ryska genom att via dator systematisera ordförrådet. I övrigt gav gruppen service till språkvetare, även sådana som sysslade med andra språk än ryska.

Så småningom integrerades gruppen i den språkvetenskapliga sektionen. Men Anna Sågvall arbetade fortfarande ihop med UDAC-folket, och skickades bl.a. av Werner Schneider på konferenser i datorlingvistik som nu började dyka upp överallt i världen. Det var vid den här tiden som relationsdatabaser började bli aktuella, och här låg UDAC lämpligt nog i forskningsfronten genom utvecklingen av Mimer. (Länk)

Anna Sågvall kom på det här visat att stå med ena benet i språkvetenskap och det andra i datorvetenskap. Det här utmynnade i att hon 1981 blev docent och föreståndare för något man kallade Centrum för datorlingvistik.

Centrumet stod till förfogande för språkvetare som på eget initiativ ville ha datorhjälp. Dessutom arrangerade man fristående kurser, t.ex. under rubriken ”Språk och datorer”. Och centrumet kom också med i ett EG-samarbete om datorlingvistik.

År 1986 blev en vändpunkt för Anna Sågvall. Då blev Sture Allén ständig sekreterare i Svenska Akademien och han undrade då om hon skulle kunna tänka sig vikariera för honom på professuren i Göteborg. Hon accepterade och flyttade – som ensamstående mor till två barn – till Göteborg. Där fick hon större resurser och en inte fullt så splittrad verksamhet som i Uppsala.

Under tiden utvecklades datorlingvistiken som vetenskap i Sverige och utomlands, och 1989 ansåg man i Uppsala att tiden var mogen att utlysa en professur i datorlingvistik. Anna Sågvall sökte tjänsten och tillträdde den 1 januari 1990.

Professuren var från början placerad vid Centrum för datorlingvistik, men efter ett par år slogs centrumet samman med institutionen för lingvistik. År 2002 ombildades den språkvetenskapliga fakulteten och det blev en institution för lingvistik och filologi, där förutom datorlingvistik även lingvistik, klassiska språk och orientaliska språk ingick.

Det har visat sig att Mimers relationsdatabas (Länk) och den internationella standarden SQL (Länk) även i dag passar väldigt bra när det gäller forskning inom datorlingvistik. De data man matar in är oberoende av språk, och det är heller inget problem att införa alla tänkbara typer av bokstäver.

Forskningen handlar bl.a. om att bygga upp texter på svenska och motsvarande texter på andra språk. Sedan datoriserar man texterna och kopplar ihop dem, mening för mening. På så vis kan man hitta en lämplig översättning för ett visst ord. Genom att bygga på med information om grammatiska egenskaper i texterna kan man underlätta språkvetenskapliga sökningar av olika slag. Men dessutom får man ett utmärkt underlag för maskinöversättning, och har till och med startat ett aktiebolag som ägnar sig åt maskinöversättning. En kund är Uppsala universitet, som får kursplaner översatta från svenska till engelska.

Det allra senaste är ett program som undersöker maskinöversatt text och ger tips om hur man ska förbättra översättningen.