148. löggjafarþing — 23. fundur,  7. feb. 2018.

höfundalög.

36. mál
[15:37]
Horfa

Flm. (Björn Leví Gunnarsson) (P):

Virðulegi forseti. Þetta er gríðarlega mikilvægt mál og að mínu áliti tímaspursmál. Lögð er til svohljóðandi undantekning frá höfundaréttarlögum:

„Heimilt er án endurgjalds að gera rafræn eintök af verki sem nýtur höfundaréttar, enda sé tilgangur slíkra eintaka að útbúa sjálfvirkar gagnagreiningar og vinnsla málfræðilegra og tölfræðilegra upplýsinga. Óheimilt er að nota slík eintök í öðrum tilgangi.“

Framboð rafrænna gagna, þar á meðal vísindagreina, fer ört vaxandi. Áætlað er að fleiri en 2,5 milljónir ritrýndra fræðigreina á ensku séu nú birtar á hverju ári. Fyrir vikið er orðið erfitt fyrir rannsakendur að komast sjálfir yfir allt efni á tilteknu rannsóknarsviði, sérstaklega þegar krafist er vinnu milli ákveðinna rannsóknarsviða. Þá er það enn erfiðara. Þess í stað notast þeir í auknum mæli við sjálfvirka gagnagreiningu tölva (e. „data mining“ eða „data analysis“) til að sækja gagnlegar upplýsingar úr stórum gagnasöfnum. Sjálfvirk gagnagreining gerir rannsakendum einnig kleift að finna ýmiss konar fylgni og mynstur sem ella væri erfitt að greina.

Sjálfvirk gagnagreining krefst þess almennt að gerð séu afrit af þeim gögnum sem á að skoða. Torsótt væri fyrir rannsakendur að afla í hvert sinn samþykkis fyrir því frá öllum rétthöfum efnis í gagnasafni sem geta hæglega hlaupið á þúsundum. Eins og sagt er í frumvarpinu er um 2,5 milljónir ritrýndra fræðigreina að ræða, ef ætti að skoða þær allar er það ansi mikið verk og augljóst að gerist bara ekki. Því er mjög aðkallandi að veita undanþágu frá einkarétti höfunda til eintakagerðar vegna sjálfvirkrar gagnagreiningar í þágu tækniþróunar og vísindarannsókna.

Miklar framfarir hafa verið á undanförnum árum í máltækni. Þetta varðar ekki bara rannsóknargreinar, þetta varðar líka bækur. Þess vegna kvikmyndir, talað mál, útvarp, sjónvarp, ræður á Alþingi, hvað það nú er — ræður á Alþingi eru náttúrlega ekki höfundavarðar. Ein helsta hindrun sem máltækni stendur frammi fyrir er takmarkaður aðgangur að efni fyrir tölvur til úrvinnslu. Þetta frumvarp leggur til að hægt verði að gera rafræn eintök af verkum sem njóta höfundaréttar til þess að vinna úr þeim málfræðilegar og tölfræðilegar upplýsingar.

Þá virkar það í rauninni þannig að tölva tekur upp bækur og les þær. Við það að lesa bækurnar býr tölvan til eintak. Það er óhjákvæmilegt. Hún notar síðan þær upplýsingar sem hún les til þess að þjálfa einhvers konar reiknirit, tauganet eða eitthvað því um líkt. Það er tauganetið sem skiptir öllu máli. Gögnin sem tölvan les gleymast síðan, bara eins og við munum ekki nákvæmlega orð fyrir orð bækurnar sem við lesum. Það sem þetta frumvarp gerir er að gera tölvunum heimilt að lesa bókina án þess að hafa keypt hana, því að þá þarf hver aðili að kaupa milljónir bóka til að geta gert það, og það er mjög tímabundið eintak. Það er bara rétt á meðan tölvan les sem tekur kannski örstuttan tíma, það fer eftir því hvernig útlit bókarinnar er. Þegar því er lokið hefur hún ekkert við þau gögn að gera. Hún er búin að búa til tauganetið, búa til tölfræðilegu upplýsingarnar um orðin og orðasamsetningarnar sem þarf að nota sem kemur efni bókarinnar nákvæmlega ekkert við.

Það er algert lykilatriði að átta sig á því að tölva les hundruð þúsunda bóka og safnar hvernig orð tengjast, hvernig tungumálið virkar, en ekki nauðsynlega hvernig sagan byggist upp. Jú, það væri hægt að nota þetta til að þjálfa tölvu til að semja sögur, það er alveg hægt, ekkert mál. Því fleiri bækur sem tölva les, þeim mun betri verður hún í að semja sögur. Að einhverju leyti væri hægt að rekja einhvers konar smábrot af einhverri bók sem hún las einhvers staðar, en í öllum þessum fjölda er samasemmerki á milli margra bóka í raun það mikið að ekki er hægt að segja að þetta hafi komið út úr nákvæmlega þessari bók. Það er í rauninni ómögulegt að ætlast til þess, bæði að það hafi einhvers konar áhrif á tölvuna nákvæmlega hvaða einu bók af öllum þeim fjölda tölvan las og þá að ætlast til þess að í raun sé verið að greina frá því hvaðan efnið kom. Það er ekki til tenging þar á milli. Það eru í rauninni minni tengsl þarna á milli en ef við, ef við værum tónlistarmenn, værum að hlusta á tónlist í útvarpinu og hlustuðum á fullt af lögum. Smám saman myndast einhvers konar hugmynd um lag sem við semjum síðan sjálf, tónlist eða texta eða eitthvað annað. Það má með sanni segja að við höfum fengið þá hugmynd út frá þeim lögum sem við hlustuðum á, en við getum ómögulega bent nákvæmlega á hvaðan sú hugmynd kom, hvernig hún púslaðist saman. Þetta er ákveðin nýsköpun. Á sama hátt er tölvu gert kleift að fara í gegnum bókasöfn og hvað annað, lesa bækur sér til skemmtunar þess vegna, en líka til þess að skilja tungumálið.

Arðurinn af þessu er gríðarlegur. Við þurfum í raun ekki að gera þetta nema einu sinni. Að sjálfsögðu er ákveðin þróun en þetta er fyrsta skrefið. Þegar tölvan kann orðið tungumálið er það ákveðin auðlind, þá er það tæki sem kemur til með að nýtast í þúsundir ára. Núna kann tölvan íslensku. Það er ekki smá mikilvægt í nútímaheimi og þeim framtíðarheimi sem við sjáum fyrir okkur.

Þetta er mjög lítil breyting. Það er enginn að glata tekjum út af þessu, ekki er verið að taka neitt frá neinum sem ekki er verið að nota núna að neinu marki. Þannig að við erum bara að búa til verðmæti með þessu, búa til þann eiginleika og möguleika að íslenskan verði stafræn.

Ég segi að þetta sé tímaspursmál af því að tækninni fleygir það hratt fram. Erlendir aðilar eru komnir mun lengra í þessu en við. Miklu lengra. Aðila á Íslandi skortir það aðgengi sem aðilar erlendis hafa einhvern veginn að íslenskum texta, að ná upp þeirri íslenskuþekkingu, þekkingu á málinu sem er nauðsynleg til þess að íslenskan lifi af í stafrænum heimi. Við þurfum það til að geta gert íslenskuna stafræna. Þannig lifir hún af. Hún gleymist aldrei þannig. Á þann hátt kemur hún til með að varðveitast um þúsundir ára. Við komum til með að sjá rosalega góð og skemmtileg gögn yfir það hvernig tungumálið þróast yfir árin; eftir því sem við þjálfum meiri gervigreind á framtíðartexta getum við mun auðveldlegar borið saman texta dagsins í dag, fyrir 30 árum síðan, og framtíðar. Þetta er að mínu mati eitt besta málið sem við getum samþykkt núna nýsköpunarlega séð fyrir þá tækniþróun sem er í gangi akkúrat eins og er.

Nú hefur verið samþykkt máltæknistefna fyrir Ísland. Hún er að fullu fjármögnuð eins og hefur verið sagt í fjármálaáætlun og á komandi árum. En þessi viðbót er algert lykilatriði til þess að hún skili sér af fullum krafti í stafrænt form. Ef aðgengið að gögnunum er ekki tryggt og ekki ókeypis eins og er lagt til með frumvarpinu, að undanþága sé frá höfundarétti, þá gerist ekki neitt. Þá erum við að hjakka áfram í sama litla gagnasettinu sem skilar okkur ekki þeim árangri á komandi árum þar sem önnur tungumál eru komin. Þetta er spurning um samkeppnisstöðu. Ég sé því enga ástæðu til að þingheimur ætti að tefja þetta mál að einhverju leyti. Þetta er ekki aukinn kostnaður fyrir ríkissjóð, þetta er augljós valmöguleiki til að styðja og styrkja íslensku í stafrænum heimi, til að styðja og styrkja íslensku til framtíðar og nýsköpun í landinu.