
Grootdata – geleenthede en slaggate
Dis makliker as ooit om data te versamel maar om dit sinvol aan te wend is meer ingewikkeld.
Deur Anna Mouton
Mense is uitblinkers wanneer dit kom by patrone identifiseer. Ons skep algemene beginsels uit ons ervarings en gebruik dit om nuwe situasies baas te raak. “Mense is ongelooflik in sommige kontekste,” sê prof.
Anton Basson. “Maar ons kan nie baie groot hoeveelhede data hanteer waar die patrone nie ooglopend is nie.” Basson is die hoof van die Megatroniese, Outomatisasie en Ontwerp Navorsingsgroep in die Departement Meganiese en Megatroniese Ingenieurswese aan Universiteit Stellenbosch.
As deel van sy navorsing help hy maatskappye om hul data te organiseer en met masjienleer te ontsyfer. “Masjienleer is patroonherkenning,” verduidelik hy.
“Die masjien sê, as ek hierdie patroon het, dan is daardie die resultaat. En die masjien kan baie komplekse patrone herken wat mense nie kan nie, maar hy het baie patrone nodig om van te leer.”
Read MoreMasjienleervoor- en nadele
“Masjienleermodelle is baie goed met voorspellings,” sê landbou-ekonoom prof. Jan Greyling. Hy lei die AgroInformatika Inisiatief binne die Fakulteit AgriWetenskappe aan Universiteit Stellenbosch. “ChatGPT is net ’n statistiese model wat die volgende woord voorspel gegrond op ’n opleidingstel,” sê hy.
“Die probleem is dat ons nie heeltemal verstaan hoe die model van die inset tot by die uitset kom nie.” Dis een rede waarom moderne data-wetenskap ’n spanpoging is. “Daar’s ’n spesifieke rol vir die masjienleerspesialis, maar jy het ook vakkundiges nodig,” sê Basson. Vakkundiges sluit tegniese raadgewers soos hortoloë en grondkundiges in wat die data en resultate in konteks kan plaas. Alhoewel mense nie die berekeningskrag van masjiene het nie, kan ingeligte en ervare mense nog steeds beter onderskei of iets sin maak of nie.
Masjienleer kan van bo na onder of onder na bo toegepas word. Die eerste manier is nader aan die tradisionele wetenskaplike metode, waar data-insameling op die formulering van spesifieke vrae of hipoteses volg. Die tweede manier – data-ontginning – soek nuttige inligting in data wat vir ’n ander doel versamel is.
Dr. Albert Strever van die Departement Wingerd- en Wynkunde en SAGWRI (South African Grape and Wine Research Institute) aan Universiteit Stellenbosch gebruik masjienleer en natuurlike taalverwerking in afstandswaarnemingverwante navorsing in wingerde en om toepassings vir belowende nuwe tegnologieë te identifiseer. Hy vind dat masjienleer soms vinniger en goedkoper as tradisionele eksperimente is. “Ek dink daar’s ’n plek vir beide,” sê Strever. “Jy moet die rol van tradisionele wetenskap met eksperimente onderskei van die rol van skandering – van data saamgooi en patrone sien of temas ontdek.”
Die AgroInformatika Inisiatief
Greyling definieer ’n datawetenskaplike as iemand wat met groot datastelle werk, maar hy plaas nie homself in daai kategorie nie. “Ek is baie meer van ’n datahanteerder. Ek maak data skoon en integreer dit,” sê hy. “In my ervaring is dit 95% van die werk. Die pas van algoritmes en dies meer beslaan slegs 5%.”
Hy sou graag wou sien dat elke navorsingsgroep binne AgriWetenskappe data-intensiewe navorsing doen. As deel van sy rol in die AgroInformatika Inisiatief adviseer hy navorsingsgroepe en reël navorsingsdae om ’n groter bewustheid van datawetenskap te kweek. “Daar’s verbasend min interaksie tussen departemente en individue binne die Fakulteit,” sê hy.
“Sommige mense werk op soortgelyke probleme, maar hulle weet nie van mekaar nie. So die eerste doelwit van die Inisiatief is om ’n gemeenskap van praktisyns te skep.” Die tweede doelwit is om studente in datawetenskap te skool. Greyling het opgemerk dat AgriWetenskapstudente meestal voldoende kennis van wiskunde en statistiek het, maar meer programmering- en implementasievaardighede kort. Gedurende die jaar bied die AgroInformatika Inisiatief werkswinkels aan wat op nagraadse studente vanuit al die AgriWetenskapdepartemente gemik is.
Datawetenskapvaardighede is egter nie net van waarde vir akademiese navorsing nie. Volgens Strever worstel groot produsente-groepe ook met die massas data wat hulle besighede genereer. “Ons moet kapasiteit skep, maar daarvoor kort ons befondsing,” sê hy. “Die AgroInformatika Inisiatief moet groei, anders kan ons nie al die departemente in die Fakulteit en al die verskillende landboubedrywe bedien nie.”
Intussen hardloop dataversameling ons vermoë om data te bestuur ver vooruit. “Mense raak baie opgewonde oor fisiese goed soos hommeltuie en veranderlike strooi- ers,” sê Greyling. “Al daai dinge versamel data. Die toekoms sal groot geleenthede bied as ons daardie data kan integreer.” Hy sien data as ’n bate en dink dat die mees belangrike rol van die AgroInformatika Inisiatief waarskynlik is om ’n databewaar- plek te skep met ’n platform om data te deel.
Hoe om data reg te bestuur
Wetenskaplike data behoort só bestuur te word dat dit maklik gevind, vrylik toeganklik, funksioneel tussenwerkbaar en hergebruikbaar is. Hiervoor moet die korrekte metadata aan die datastel verbind wees. “Die metadata sê vir jou wie die data ingesamel het, waar, met watter proses en tegnologie, en hoe dit gemanipuleer is,” sê Greyling.
“Want as jy nie tyd en plek aanteken nie, kan jy nie verskillende data-stelle saam sit nie.” Om ’n datastel sonder metadata te soek is soos om ’n boek in ’n biblioteek te soek as al die boeke lukraak gestoor word, en geen boeke omslae of titelbladsye het nie. En wanneer jy die datastel gevind het, moet dit funksioneel tussenwerkbaar wees – die boek moet in ’n taal wees wat jy kan verstaan. Gebrek aan funksionele tussenwerk-baarheid is een rede waarom dit so moeilik kan wees om data tussen toepassings te migreer.
“Daar’s kommersiële belang om gebruikers in een toepassing vas te hou,” sê Basson. “Maar in sommige gevalle is die probleem meer fundamenteel.” Struikelblokke wissel van verskillende meeteenhede of tyd-intervalle tot verskillende datastrukture. Die data-struktuur word dikwels deur ’n aanvanklike probleemstelling of navorsingsvraag bepaal en dit kan heelwat ekstra berekening en koste verg om ander vrae met daardie data te beantwoord. “’n Ander groot probleem is die langlewendheid van data,” sê Basson.
“Tot watter digitale inligting van 10 jaar gelede het jy nog toegang? Dis ’n reusagtige ontwrigting as ’n besigheid sy inligting en operasionele beheer in ’n stelsel belê het wat aan die einde van sy lewe kom.” Hy gebruik die voorbeeld van data-langlewendheid in die konteks van digitale tweelinge. “As jou digitale tweeling ’n fisiese stelsel wat vir 20 jaar gaan hou verteenwoordig, dan gaan die fisiese stelsel en die tegnologie van die digitale stelsel verander.”
Sit data in die bank
“Navorsers word al hoe meer verplig om hulle navorsingsdata publiek te maak of in een of ander databank te stoor,” sê Greyling. “Mense stort dikwels ’n spul data iewers, maar as jy data nie sorgvuldig oppas nie, dan is dit uiteindelik net nommers. Dis nie meer data nie.” Strever reken dat dit onverantwoordelik is om data te versamel sonder om te besin oor hoe dit weer herwin gaan word.
“Universiteit Stellenbosch het nou ’n databestuursbeleid, so ons moet dink oor hoe ons met data werk en dit deel. Dis ’n goeie ding, maar moeilik vir wetenskaplikes – ons is nie so grootgemaak nie!” skerts hy. Befondsers wil ook weet hoe projekdata bestuur gaan word. Privaatheid en bewaring – insluitende stoorkoste – moet deel vorm van ooreenkomste. “Wat ek met my eie navorsing gesien het, is dat jy allerhande data versamel, dit analiseer, ’n verslag of tesis skryf, en dis die einde daarvan,” sê Greyling.
“So baie data gaan verlore en word nooit weer gebruik nie omdat ons nie tyd en geld belê om dit op te pas nie.” ’n Tekort aan hoëkwaliteitdata belemmer tans die toepassing van masjienleer om probleme in landbou op te los. ’n Beter stelsel om data wat navorsers, produsente, diensverskaffers en bedryfsorganisasies genereer te bestuur, sou die sagtevrugtebedryf help om soortgelyke voordele uit grootdata te trek as dié wat baie ander industrieë al reeds geniet.
“Ek dink massiewe geleenthede word geskep wanneer jy masjienleer gebruik om sin te maak van baie data,” sê Basson. “Daar is heelwat praktiese oorwegings vir datastelsels. Mens moenie die moeite en koste onderskat nie, maar die potensiaal is aansienlik.”
Related Posts
Volhoubare swamdodergebrui
Botritis is een van die mees algemene oorsake van naoesbederf in vars groente en vrugte wêreldwyd.
Research Outputs
The main goal of SATI’s Research and Technical Transfer Programme is to generate credible, impactful knowledge by funding relevant and targeted projects that align with industry needs and opportunities.