Bør du sjekke liksen?

Av Aage Rognsaa, språkkonsulent og forfatter av «Kunsten å formidle forskning» (2020)

Flere oppslag i Klassekampen nylig har omtalt en debatt mellom redaksjonen i Aftenposten og noen av deres eksterne anmeldere om bruk av nettbaserte analyseverktøy. Anmelderne har særlig reagert på at de må bruke en lesbarhetsberegner som angir et tall for hvor lett- eller tunglest teksten deres er. Lesbarhetsindeksen (liks) legger til grunn to kriterier for å vurdere lesbarhet – setningslengde og ordlengde.

Gammel kritikk av liks

Er det mulig å analysere lesbarheten til en tekst ut fra bare setningslengde og ordlengde? Nei, mener flere kritikere, blant dem Språkrådets direktør Åse Wetås. Et langt ord kan godt være lettlest, mens et kort fagord kan være vanskelig. Et vanlig ord som utvikling slår ut på liksen (det har mer enn seks bokstaver), mens fagordet doksa ikke gjør det.

Kritikken av liks-beregnere er ikke ny. Leseforskningen har beskjeftiget seg med lesbarhetstester i mange tiår. I den engelskspråklige verden brukes den såkalte Flesh-Kinkaid Grade level, som likner den liksberegneren vi bruker i Norge. Testene er blitt brukt til å sjekke læreboktekster for barn og unge. Men mange tekstforskere har kritisert dem for å være for unyanserte.

Björnsons metode

Den likstesten vi bruker i Norge, ble opprinnelig lansert av den svenske pedagogen Carl-Hugo Björnsson i boken Läsbarhet fra 1968. Han analyserte i alt 168 tekster, inkludert lærebøker, fiksjon og teknisk litteratur. Flere språktrekk ble analysert: setningslengde, ordlengde, hvor vanlige eller sjeldne ordene var, og om setningene hadde en enkel eller kompleks struktur. Men siden alle disse faktorene var vanskelige å finne en formel for, fant han at flere av språktrekkene kunne kokes ned til to, setningslengde og ordlengde. Vanskelige setninger er nemlig som oftest lange, og uvanlige ord, som fremmedord og fagtermer, er ofte lange. Dermed gir antall ord mellom store skilletegn (punktum, spørsmålstegn og utropstegn) og ord på mer enn seks bokstaver et godt, om enn litt upresist, uttrykk for hvor lett eller vanskelig en tekst er å lese.

Nyere forskning om lesbarhet

Hva kan forskningen fortelle om nytten av slike tester? De fleste nyere studier viser at enkle lesbarhetstester til en viss grad overensstemmer med hvordan ulike lesere vurderer tekstenes lesbarhet. I slike tester får forsøkspersonene lese tekster med ulik vanskegrad og må etterpå vurdere hvor lette eller vanskelige de var å lese. Da stemmer ikke alltid opplevd vanskegrad med liksen.

Hvorfor ikke? Det skyldes at det også er andre språktrekk enn setnings- og ordlengde som influerer på hvor lettlest en tekst er. I tillegg betyr forhåndskunnskap om temaet og kjennskap til konteksten en viktig rolle. Også leserens motivasjon og kjennskap til sjangeren spiller inn.

Mange språktrekk bestemmer lesbarheten

Hvilke andre trekk ved språket enn ord- og setningslengde er viktige for lesbarheten? Ett slikt trekk er om teksten har eller ikke har fortellende elementer, det vil si personer, hendelser og kjente steder. Tekster der noen gjør noe (handler) er mer lettleste enn dem uten fortellende elementer. Et annet trekk som tekstforskerne legger vekt på, er ordenes frekvens, altså hvor vanlige eller sjeldne ordene i teksten er. Sjeldne ord er vanskeligere å lese enn kjente. (Dette hadde også Björnson sett.) Et tredje trekk er forholdet mellom konkrete og abstrakte ord. Jo flere konkrete ord, jo mer lettlest er teksten.

I tillegg til disse språktrekkene må man også vurdere om teksten henger godt sammen ved at ord og ideer overlapper fra en setning til den neste, og om den inneholder få eller mange bindeord og logiske markører (derfor, senere, ofte osv.). Dette kalles kohesjon (sammenheng, sammenbinding).

Når alle disse språktrekken tas med i tillegg til ord- og setningslengde, får man et svært presist uttrykk for tekstens lesbarhet. Kan alt dette bakes inn i et dataprogram og gi oss et presist svar? Ja, de senere års utvikling av maskinlærende systemer (AI) og dataprogrammer som kan håndtere store tekstmengder (korpus) har ført til utviklingen av en lesbarhetsberegner for engelske tekster, dataprogrammet Coh-Metrix. Programmet ble utviklet ved universitetet i Memphis mellom 2002 og 2011. Det har vist seg at analysene til programmet samsvarer med vurderingene til trente lesere.

Hva gjør Coh-Metrix?

Det som gjør Coh-Metrix mye mer treffsikker enn den tradisjonelle liksberegneren, er at den klarer å beregne hvor god sammenhengen er mellom ordene, setningene og de større tekstavsnittene. Coh står for kohesjon, som betegner de mekanismene som kopler ord og setninger sammen til en meningsfull helhet.

En slik mekanisme er referentkopling: covid-19 er betegnelsen på et farlig virus. Det smitter mye lettere enn andre virus. Det første temaordet (covid-19) er referenten, som substantivet virus og pronomenet Det etterpå viser tilbake til. Gjennom en slik variert gjentakelse koples temaordene sammen. Vi lesere skjønner hva som er sakens kjerne. Coh-Metrix har innebygd en algoritme som finner slike koplinger i teksten.

En annen koplingsmekanisme programmet analyserer, er bruk av bindeord som og, men, fordi og etterpå. En tredje mekanisme er i hvilken grad teksten etablerer noen overordnede logiske forbindelser som tids-, årsaks-, sammenliknings- og motsetningsforhold. Også slike forhold kan Coh-Metrix analysere.

Men Coh-Metrix gjør enda mer. Programmet analyserer ikke bare setningslengde, men også hvor kompleks setningsbygningen er. Det finner den grammatiske strukturen i setningene, teller antall ord og analyserer fordelingen mellom substantiver, pronomen, verb og adjektiv. Videre tar programmet hensyn til ordenes frekvens, graden av konkret-abstrakt og på hvilket alderstrinn et ord blir lært.

Trenger trente lesere en liksberegner?

De som vanligvis har vært best til å vurdere lesbarhet, er redaktører, desksjefer, forlagskonsulenter og andre med lang erfaring i å vurdere og redigere tekster. Mange journalister er også flinke til å skrive leservennlige tekster fordi de må. De lever jo av å skrive leservennlig. Litteraturkritiker Marte Norheim i NRK, sier: «Jeg har vanligvis alltid et mål om å skrive tekster som folk får lyst til å lese, men da er det andre ting enn det liks fanger opp, som er viktig». Utmerket, men lar de seg måle?

Ja, med språkteknologi som Coh-Metrix kan man nå analysere flere språktrekk enn Björnsons liksberegner fra 1968. I Norge er språkteknologiselskapet Tansa i ferd med å utvikle liksberegneren videre. I første omgang har Tansas liksberegner bakt inn frekvens, altså hvor vanlig ordet er i bruk. Dermed får vi et mer presist resultat.

Jeg anbefaler noen ganger likstesten for deltakere på mine klarspråkskurs, særlig for rutinerte skribenter som jurister, økonomer og andre saksbehandlere. Men liks-beregneren må brukes med vett og forstand. Det må alltid være et menneske der som vurderer teksten. Å bare stole på en liksberegner kan bli for enkelt, iallfall ennå. Men kanskje kommer det snart et Coh-Metrix-program for norsk eller nordiske språk?

Var denne teksten passe lettlest? Liksberegneren viser 45, Middels vanskelig.

Tilbake til bloggartikler