Projektets formål er at udvikle et værktøj der kan anvendes til automatisk resummering af videnskabelige dokumenter. Arbejdstitlen på dette værktøj til automatisk resumering af danske tekster er Defsum. Ved hjælp af tekstresumering vil det med tiden blive muligt at overskue og finde præcis og relevant information uden alt for store omkostninger.
I Defsum skal værktøjet i første omgang bruges til at gøre information om sprogteknologi tilgængelig for forskere, studerende, udviklere mm. på DanDokCenters hjemmeside, en hjemmeside der er et virtuelt informationscenter om sprogteknologi i Danmark. På længere sigt skal resumeringen indgå i større systemer til dokumenthåndtering, automatisk indeksering og søgning.
Konkret går projektet ud på at lave en dansk version af det svenske system SweSum ved dels at tilpasse den danske SprogTeknologiske Ordbase (STO) til systemet og dels at indføre forskellige danske sprogteknologiske værktøjer (som fx POS-tagger , lemmatiser og evt. navnegenkender) i systemet. Vi vil først teste systemet på avisartikler og derefter udvide det til videnskabelige dokumenter om sprogteknologi.
Det virtuelle dokumentations- og informationscenter om sprogteknologi DanDokCenter er internationalt orienteret ved at være knyttet til det nordiske netværk NorDokNet, der er knude i det verdensomspændende netværk om sprogteknologi i Saarbrücken Language Technology World. Det er målet med det internationale netværk at man skal kunne søge information på tværs af nationale sprog, hvilket gør sprogspecifikke værktøjer til en nødvendighed.