Izziv #2: Datoteka = spomin / 1. del

Cilj vzpostavitve semantičnega spleta (torej različice 3.0) je vzpostavitev okolja, v katerem bodo informacije strojem ne samo dostopne ampak tudi ‘razumljive’. Izziv, o katerem bo tekla beseda, pa je, kako narediti informacije ljudem ne samo razumljive, ampak tudi dostopne na bolj intuitiven (domač) način. Bolj preprosto povedano, kako spremeniti zastarel način upravljanja z datotekami tako, da bo čim bolj podoben upravljanju s spomini.

Raziskovalci ob takšnih izzivih črpajo neizmerno inspiracijo iz poskusa poustvarjanja človekovih možganov. Kaj se torej dogaja s spomini – zaključenimi celotami informacij, ki jih shranjujemo v glavi – od trenutka, ko nastanejo, do trenutka, ko jih potrebujemo? Nad njimi izvajamo naslednje funkcije:

umeščanje
(poleg shranjevanja sta ključnega pomena opis oz. klasifikacija in povezovanje z drugimi zapisi);
priklic
(v priklicu se skrivata dve komponenti, iskanje in izpis);
spreminjanje
(poleg novih informacij, ki vplivajo na spreminjanje zapisov in povezav med njimi, je ključen dejavnik, ki spreminja spomine, čas).

Enake funkcije kot jih izvajamo nad spomini v glavi, izvajamo v računalnikih nad datotekami. Datoteke v tem primeru predstavljajo elektronski zapis zaključene celote informacij in jih omenjam zgolj zaradi lažjega razumevanja problema. Nikakor pa ne želim namigovati, da je sistem datotek/map kot ga poznamo danes edini pravilen ali celo najboljši način urejanja informacij.

Umeščanje

Pri današnjem konceptu upravljanja z datotekami v procesu umeščanja izvedemo dve operaciji: datoteko poimenujemo in shranimo v mapo. S spomini ne naredimo niti prve, niti druge operacije. Spomin zapišemo v skupno ‘mapo’ in ga takoj povežemo z ostalimi zapisi. Če bi se torej želeli približati temu sistemu, bi morali datoteko, ko jo shranimo, razčetveriti (angl. quarter). Mape in druge datoteke bi morale prežati na nove datoteke in se z njimi – če bi algoritem ocenil, da je smiselno – povezati. Ponudba za Microsoft bi se tako lahko v hipu znašla v mapah: ponudbe, microsoft, wordovi dokumenti, tomasz, danes … in bi bila povezana z drugimi sorodnimi datotekami.

Poleg tega, da moramo(?!) datoteko poimenovati in jo shraniti v točno določeno mapo, obstaja v obtoječem sistemu še nekaj nenavadnih omejitev: datoteka ne more biti brez imena ali imeti več imen, ne more biti hkrati v dveh mapah ali v nobeni, isto ime kot druga pa ima lahko le, če nista v isti mapi.

Tudi s klasificiranjem datotek imamo težave, saj to ponavadi storimo le s pripenjanjem pripone. Tako definiramo le, s katerim programom smo jo ustvarili in kateri program jo bo znal odpreti. No, v resnici naš stroj datoteko avtomatsko opiše še z datumom, avtorjem in nekaj sistemskimi atributi, ki uporabniku koristijo bore malo ali pa le občasno (velikost datoteke na primer samo, ko praznimo diskovje).

Zagotovo pa preveč energije vlagamo v iskanje novega unikatnega imena za datoteko. Ali kot pravi Gelerntner: “If you have three pet dogs, give them names. If you have 10.000 head of cattle, don’t bother.” Bolje bi se bilo posvetiti klasificiranju oz. označevanju (angl. tagging) datotek. Saj si tudi informacije v spomin prikličemo po vsebini, ne pa po imenu.

Kako koncept označevanja datotek izgleda v praksi, lahko preizkusite z Google Docs. Ko začnete pisati, vam dokumenta ni treba poimenovati, ampak ga v enem trenutku preprosto samo shranite. Seveda, da ga boste lahko kasneje – ko se bo nabralo sto in več dokumentov – našli, vam bosta pomagala Googleov iskalnik in oznake (angl. tag). Dokument “označite” tako, da zanj preprosto vnesete poljubno število ključnih besed, ki jih ločite z vejico. Google tako ponovno orje ledino in uporabnika vzpodbuja k označevanju dokumentov in ne k iskanju imena.
[Pripis dodan 13.10.2006 in črtan 3.7.2007, ko je Google spremenil način upravljanja z datotekami]

Priklic

Kot že rečeno, je priklic sestavljen iz iskanja in prikaza rezultatov. Na nivoju iskanja gre za izpis najbolj relevantnih enot informacij glede na podane parametre (glej PageRank na Wikipedii, kako Google prihaja do relevantnih rezultatov). O tem obstaja precej pametnih besedil, zato ne bi rad zašel preveč v detajle. Ključen problem, ki ga še ni uspelo v celoti rešiti, izhaja iz dejstva, da je mogoče relevantnost ugotavljati tako iz vsebine kot iz tega, kdo je avtor informacije. O boleznih srca se bo verjetno veliko bolj relevantno opredeljeval kardiolog kot ekonomist. PageRank sicer upošteva ‘moč’ reference, ki kaže na stran, a še vedno gre tu le(?) za oceno, ki jo daje stroj. Sicer je mogoče kompetentnost avtorja ugotavljati iz same vsebine, a se tudi tu pojavijo težave. Mimogrede, nezmožnost ugotavljanja kakovosti vira je ena od najbolj resnih hib Wikipedie, saj moje mnenje o erupcijah vulkanov šteje enako kot mnenje priznanega geologa.

Pri izpisih se težave pojavljajo predvsem takrat, ko želimo rezultate različnega tipa izpisati na različne načine. Gre za to, da lahko rezultate na poizvedbo ‘Fidel’ (res je, Castro je prvi rezultat tega iskanja po moji glavi) izpišem kot podobo (slika bradatega moža v SMB obleki) ali kot podatek v nekem besedilu (naslov članka, ki sem ga prebral pred kratkim v reviji The Economist). V iskalnikih ta problem rešujejo z zavihki: podatke tipa slika iščem na enem, video posnetke na drugem, novice na tretjem, lokacijo na zemljevidu pod četrtim zavihkom in tako naprej. Kako torej te podatke prikazovati ne glede na tip, pa kljub temu na urejen način?

***
Se nadaljuje … o spreminjanju, toku spominov in iskanju pravih rešitev.
***

Tomasz

3.7.2007

Google Docs se je odpovedal konceptu označevanja dokumentov, ki je omenjen v pripisu v zgornjem članku. Dokumente se zdaj ureja na enak način kot v Windows okolju, torej z mapami. To lahko pomeni, da so se uklonili uporabnikom (njihovim navadam), ali pa preprosto, da se koncept v praksi ne obnese. :-(

Reply to Tomasz

Published

11.10.2006

Tomasz in Izzivi | 11.10.2006

Izziv #2: Datoteka = spomin / 1. del

Umeščanje

Priklic

Cancel Reply

Let's talk