Latam-GPT: model umjetne inteligencije koji želi dati Latinskoj Americi vlastiti glas

  • Latam-GPT je prvi veliki model otvorenog jezika dizajniran iz i za Latinsku Ameriku i Karibe.
  • Projekt vodi CENIA u Čileu, uz podršku CAF-a, AWS-a, Data Observatoryja i više od 60 institucija iz 15 zemalja.
  • Treniran je na Llama 3.1 (70.000 milijardi parametara) s regionalnim korpusom od oko 300.000 milijardi tokena na španskom, portugalskom i lokalnim jezicima.
  • Njegov cilj je smanjenje pristranosti, jačanje digitalnog suvereniteta i služenje kao javno dobro za obrazovanje, javnu upravu i inovacije.

Latam-GPT model umjetne inteligencije

Čile je zvanično predstavio Latam-GPT, prvi veliki model otvorenog jezika dizajniran posebno za Latinsku Ameriku i KaribeInicijativa ima za cilj da pomakne regiju dalje od pukog korištenja sistema stvorenih na drugim kontinentima i da zauzme vlastito mjesto u razvoju vještačke inteligencije.

Ovaj projekat je nastao s jasnom namjerom da tehnološki i kulturni suverenitetObezbijediti vladama, univerzitetima, kompanijama i društvenim organizacijama bazu vještačke inteligencije obučenu za latinoameričke podatke, jezike i kontekste, smanjujući pristranosti i stereotipe povezane s modelima izgrađenim uglavnom na osnovu informacija na engleskom jeziku i iz takozvanog globalnog sjevera.

Jezički model napravljen od regije za regiju

Potjeran iz Santiaga, Čile, Latam-GPT se definira kao veliki jezički model otvorenog koda dizajniran „iz i za“ Latinsku Ameriku i Karibe.Nije zamišljen kao jednostavan komercijalni chatbot, već kao ogromna baza znanja na kojoj će se zasnivati ​​aplikacije, asistenti i specijalizirani alati prilagođeni lokalnim realnostima.

Liderstvo je odgovornost Nacionalni centar za umjetnu inteligenciju (CENIA), čileanska korporacija privatne prirode, ali sa javno finansiranjeOko nje je formirana regionalna mreža, koja uključuje univerzitete, istraživačke centre, fondacije, biblioteke, javna tijela i subjekte civilnog društva iz zemalja kao što su Čile, Brazil, Meksiko, Kolumbija, Peru, Ekvador, Urugvaj, Argentina, Kostarika, Panama ili Dominikanska Republika.

Tokom događaja lansiranja, čileanski predsjednik Gabriel Borić Naglasio je političku i stratešku prirodu projekta, navodeći da sa Latam-GPT „Regija zauzima svoje mjesto za stolom digitalne ekonomije budućnosti i više nije samo meni.“Poruka sugerira da umjetna inteligencija više nije uvezeni proizvod, već područje u kojem Latinska Amerika želi postaviti vlastita pravila.

U istom smislu, čileanski ministar nauke, Aldo ValleNaglasio je da Regija ne može jednostavno konzumirati tehnologije razvijene u inostranstvujer to riskira gubitak tradicija, jezika i načina razmišljanja koji nisu dobro zastupljeni u globalnim modelima.

Prezentacija Latam-GPT-a u Čileu

Podaci, jezici i regionalni korpus: odgovori iz latinoameričkog iskustva

Jedan od ključeva Latam-GPT-a je njegova obuka. Dominantni poslovni modeli su uglavnom zasnovani na podacima na engleskom jeziku i evropskom ili američkom kontekstu.Procjene koje je navela Razvojna banka Latinske Amerike i Kariba (CAF) pokazuju da španski i portugalski jezik čine samo oko 4% i 2% materijala koji se koristi u mnogim trenutnim sistemima.

Suočeni s ovim nedostatkom, CENIA tim i njegovi partneri su se okupili specifičan korpus za regiju, poznat kao Latam-GPT korpusTo je skladište nekih 300.000 miliona tokena -ekvivalentno desetinama milijardi riječi- dobijeno pod eksplicitnim dozvolama i licencama, odabrano radi uklanjanja osjetljivih podataka, toksičnog sadržaja i dezinformacija.

Taj set uključuje tekstove iz humanističke nauke, društvene nauke, zdravstvo, obrazovanje, javna politika, ekonomija, okoliš, umjetnost i autohtoni narodisa snažnim naglaskom na materijalu na španskom i portugalskom jeziku. Namjera je da model bude u stanju da obradi ne samo standardni jezik, već i idiome, regionalne varijacije i načine govora specifične za različite zemlje.

U svojoj prvoj fazi, Latam-GPT se fokusira na španski i portugalski jezikiako je srednjoročni cilj uključiti autohtone jezike i drugi jezici koji se govore u Latinskoj Americi. Promotori vjeruju da je ova jezička raznolikost ključni dio identiteta koji žele sačuvati u digitalnom okruženju.

Tokom demonstracija lansiranja, prikazani su primjeri kako globalni modeli detaljno opisuju evropske bitke ili epizode u američkoj historijiMeđutim, oni nude površne ili pogrešne odgovore u vezi s ključnim prekretnicama nezavisnosti Latinske Amerike. Latam-GPT ima za cilj ispraviti upravo takve neslaganja.

Tehnička arhitektura: Llama 3.1 i 70.000 milijardi parametara

Sa tehničkog stanovišta, Latam-GPT je izgrađen na arhitekturi Llama 3.1, sa 70.000 milijardi parametara.Ovo ga stavlja u istu ligu veličine kao i neke od najnaprednijih dostupnih jezičkih modela otvorenog koda, omogućavajući mu da se nosi sa složenim zadacima razumijevanja i generiranja teksta.

Proces razvoja je pratio uobičajene faze za ovu vrstu sistema: prikupljanje i obrada podataka, prethodna obuka osnovnog modela i naknadna faza finog podešavanja, uključujući mjerila prilagođena latinoameričkom kontekstu i specifičnu dokumentaciju o etici i upravljanju.

Da bi podržao ovaj napor, tim se u početku poslužio Amazon Web Services (AWS) infrastruktura u oblakuPredstavnici kompanije su objasnili da je korištenje resursa optimizirano kako bi se značajno smanjilo vrijeme obuke, sa planiranih otprilike tri sedmice na oko devet efektivnih dana.

Projekat takođe ima tehnološku podršku od Opservatorija podatakašto donosi stručnost u obradi velikih količina podataka i upravljanju kritičnom infrastrukturom. Kombinacija računarstva u oblaku i regionalnog superračunarstva smatra se ključnom za regiju kako bi mogla održavati i razvijati model bez potpunog oslanjanja na vanjsku infrastrukturu.

Iako je budžet Latam-GPT-a daleko manji od budžeta industrijskih giganata, oni koji su na vlasti naglašavaju da Ključ projekta nije u direktnom takmičenju s najvećim modelima, već u izgradnji nečega prilagođenog potrebama i resursima Latinske Amerike., s fokusom na kulturnu relevantnost, a ne na sirovu veličinu.

Finansiranje, partnerstva i zajedničko upravljanje

Projekat je izgrađen kombinacijom javno finansiranje, multilateralna podrška i doprinosi tehnoloških partneraCentralni dio budžeta dolazi iz Razvojna banka Latinske Amerike i Kariba (CAF)koja Latam-GPT vidi kao konkretan korak ka većem digitalnom suverenitetu i vlastitim kapacitetima u oblasti vještačke inteligencije.

CAF je insistirao da, u kontekstu u kojem umjetna inteligencija redefinira produktivnost i funkcioniranje ekonomija, Latinskoj Americi je potrebna vlastita računarska, podatkovna i infrastruktura za povezivanje.Latam-GPT se uklapa u taj plan kao zajedničko javno dobro koje mogu iskoristiti više zemalja i sektora.

Pored CAF-a i AWS-a, ekosistem uključuje i Opservatorija podatakaMeđunarodne organizacije, ministarstva nauke i tehnologije, digitalne agencije, univerziteti, laboratorije i tehnološke kompanije iz više od 15 zemalja. Ukupno, Više od 100 stručnjaka i više od 60 institucija učestvovali su u izgradnji modela 1.0.

Na političkom frontu, nekoliko vlada u regiji – uključujući Brazil, Meksiko, Kolumbija, Peru, Kostarika ili Panama– potpisali su formalne sporazume o pridruživanju inicijativi ili korištenju modela kao zajedničke infrastrukture. U drugim slučajevima, kao što je Argentina, Uključenost dolazi prvenstveno od univerziteta i civilnih organizacijabez ekvivalentne vladine obaveze.

Promotori naglašavaju da je Latam-GPT organiziran putem javno-privatno upravljanje koji nastoji uravnotežiti ulogu države, akademske zajednice i privatnog sektora, sa specifičnim pravilima o etici, transparentnosti i upravljanju podacima, te s namjerom da projekt ostane iznad političkih ciklusa Svake zemlje.

Javno dobro otvorenog koda za obrazovanje, javnu upravu i inovacije

Jedna od najznačajnijih razlika u odnosu na druge modele je njegov pristup, tj. otvorena infrastruktura i javno dobroZa razliku od zatvorenih komercijalnih rješenja, Latam-GPT se nudi kao baza univerzitetima, administracijama, startupima i zajednicama za razvoj vlastitih aplikacija., na osnovu dokumentovanog i sljedivog modela.

Direktor CENIA-e, Álvaro Soto, insistira da Latam-GPT To nije cilj sam po sebi, već platforma na kojoj se mogu graditi izvedeni modeli i specifični alati.Ideja je da se obezbijede materijali, dokumentacija i resursi koji omogućavaju regionalnim timovima da ga iteriraju i prilagođavaju različitim potrebama.

Među planiranim upotrebama, polja kao što su obrazovanje -od asistenata u učenju do sistema podrške nastavnicima prilagođenih lokalnim nastavnim planovima i programima-, Javni menadžment -za poboljšanje usluga građanima, izrade dokumenata ili analize politika - i produktivne inovacije u sektorima kao što su zdravstvo, logistika ili usluge.

Već su najavljene konkretne saradnje, poput one s čileanskom kompanijom Digevo, koji planira da razvije konverzacijski roboti za korisničku podršku aviokompanija i trgovačkih kompanija, koristeći sposobnost modela da razumije sleng, idiomi i govorni ritmovi specifični za svaku zemlju.

Potencijalni primjeri se također pojavljuju na stolu u bolnice s logističkim problemima, optimizacija medicinskih resursa, automatizacija procedura i podrška malim i srednjim preduzećima koja žele uvesti vještačku inteligenciju bez potpune zavisnosti od stranih dobavljača.

Predrasude, identitet i digitalni suverenitet kao srž projekta

Jedan od ponavljajućih argumenata u prezentaciji Latam-GPT je kritika kulturne i geografske pristranosti prisutne u mnogim globalnim modelimaVećina ih je obučena uz pomoć informacija generiranih u Sjedinjenim Državama i Europi te, kao rezultat toga, imaju tendenciju reproducirati stereotipe ili praznine u znanju o drugim regijama.

Tokom lansiranja, dati su konkretni primjeri: modeli sposobni za detaljno prikazivanje događaja u evropskoj historijiali oni nude loše ili čak netačne odgovore kada raspravljaju o historijskim procesima u Latinskoj Americi. Za promotore Latam-GPT-a, ova asimetrija se prevodi u djelimična nevidljivost regije u digitalnom prostoru.

Novi model pokušava riješiti ovaj problem integrirajući od samog početka podatke i kontekste specifične za Latinsku Amerikuumjesto naknadnog dodavanja zakrpa. Ovaj pristup, tvrde oni, ne samo da poboljšava tačnost odgovora, već i Prepoznaje vrijednost jezika, tradicija i historijskih sjećanja koja su često gurnuta u drugi plan..

Predsjednik Borić je direktno povezao ovaj napor s idejom odbrana latinoameričkog identiteta u digitalnom okruženjuNjegovim riječima, izgradnja prilagođenog generatora jezika nije tehnička neobičnost, već način da se osigura da glasovi regije ostanu prisutni kada vještačka inteligencija postane glavni sloj jezičkog posredovanja.

Organizacije poput CAF-a i akteri u regionalnom tehnološkom ekosistemu vjeruju da projekti ovog tipa mogu poslužiti i kao agenda regionalne integracijenudeći zajednički cilj gdje se infrastruktura, talenti i etički standardi dijele umjesto konkurencije između država.

Infrastruktura i podaci Latam-GPT-a

Ograničenja, izazovi i potencijalni uticaji na tržište umjetne inteligencije

Uprkos institucionalnom i medijskom entuzijazmu, i sami nadležni priznaju da Latam-GPT ne namjerava direktno konkurirati najvećim svjetskim poslovnim modelima.Akademski stručnjaci ističu da je teško premostiti jaz u budžetu i infrastrukturi kod tehnoloških giganata koji ulažu stotine ili hiljade miliona dolara.

Umjesto fokusiranja debate na direktnu konkurenciju, projekat se predstavlja kao komplementarna alternativa sa snažnim regionalnim korijenimakoji mogu koegzistirati s drugim modelima, pa čak i biti integrirani u hibridne arhitekture gdje se kombiniraju opće mogućnosti i lokalna specijalizacija.

Jedan od kratkoročnih izazova bit će održavati i ažurirati korpus podataka odražavati društvene, zakonodavne ili kulturne promjene, sprječavajući da model zastari. Također će biti ključno osigurati da Otvoreni pristup ne bi trebao dovesti do neodgovornog korištenja.U tu svrhu se definiraju pravila korištenja i specifična ograničenja za velike komercijalne kompanije.

U međuvremenu, vlade i tehnološke kompanije naglašavaju važnost razviti lokalne talente sposobne za razumijevanje i rad s ovim sistemimaBez specijaliziranih timova u regiji, upozoravaju, dostupnost otvorenog modela neće biti dovoljna za generiranje željenog utjecaja na produktivnost i razvoj.

Međutim, početne projekcije ukazuju na to da Alati zasnovani na Latam-GPT-u mogli bi poboljšati produktivnost značajnog dijela latinoameričke radne snage, posebno u zadacima koji zahtijevaju puno teksta, uslugama građanima, analizi dokumenata i generiranju sadržaja.

Pokretanje Latam-GPT-a pozicionira Čile i cijelu Latinsku Ameriku na drugačijoj poziciji na globalnoj mapi vještačke inteligencijePored brojeva parametara ili uloženog budžeta, projekat postavlja presedan: model otvorenog jezika velikih razmjera, kolaborativno obučen na latinoameričkim podacima, koji teži da postane zajednički alat za obrazovanje, javnu upravu, preduzeća i civilno društvo, te da ojača digitalnu autonomiju regije u vrijeme kada vještačka inteligencija počinje posredovati u gotovo svim aspektima svakodnevnog života.

Apple Intelligence
Vezani članak:
Apple Intelligence: Trenutno stanje, funkcije i budući izazovi

Pratite nas na Google Vijestima