Napredak računalnog vida potiče autonomiju prijevoza

Autonomni samovozeći automobil prepoznaje prometne znakove. Računalni vid i umjetna inteligencija … [+] koncept.

Getty

Vizija je snažan ljudski senzorni input. Omogućuje složene zadatke i procese koje uzimamo zdravo za gotovo. S povećanjem AoT™ (Autonomy of Things) u različitim primjenama, od prijevoza i poljoprivrede do robotike i medicine, uloga kamera, računalstva i strojnog učenja u pružanju vizije i spoznaje poput ljudskog postaje značajna. Računalni vid kao akademska disciplina uzeo je maha 1960-ih, prvenstveno na sveučilištima koja su se bavila novim područjem umjetne inteligencije (AI) i strojnog učenja. Dramatično je napredovao u sljedeća četiri desetljeća kako je postignut značajan napredak u poluvodičkim i računalnim tehnologijama. Nedavni napredak u dubokom učenju i umjetnoj inteligenciji dodatno je ubrzao primjenu računalnog vida za pružanje percepcije i spoznaje okoline u stvarnom vremenu, niske latencije, omogućujući autonomiju, sigurnost i učinkovitost u različitim aplikacijama. Promet je jedno područje koje je imalo značajne koristi.

LiDAR (Light Detection and Ranging) je pristup aktivnog optičkog snimanja koji koristi lasere za određivanje 3D okruženja oko objekta. To je jedna od tehnologija koju rješenja računalnog vida (koja se oslanjaju isključivo na ambijentalno svjetlo i ne koriste lasere za 3D percepciju) pokušavaju poremetiti. Zajednička tema je da ljudski vozači ne trebaju LiDAR za percepciju dubine, pa ne trebaju ni strojevi. Trenutne komercijalne značajke autonomne vožnje L3 (potpuna autonomija u određenim zemljopisnim područjima i vremenskim uvjetima, s vozačem spremnim preuzeti kontrolu u roku od nekoliko sekundi) proizvodi danas koristiti LiDAR. Tehnike koje se isključivo temelje na viziji još uvijek nisu bile u mogućnosti komercijalno ponuditi ovu mogućnost.

OGLAS

TeslaTSLA
dominantan je zagovornik korištenja računalnog vida temeljenog na pasivnoj kameri za pružanje autonomije putničkog vozila. Tijekom nedavnog događaja AI Day-a, Elon Musk i njegovi inženjeri pružili su impresivnu prezentaciju svoje AI, upravljanje podacima i računalne mogućnosti koje podržavaju, između ostalih inicijativa, značajku Full Self Driving (FSD) na više Teslinih modela. FSD zahtijeva da ljudski vozač cijelo vrijeme bude uključen u zadatak vožnje (što je u skladu s autonomijom L2). Trenutno je ova opcija dostupna na 160,000 vozila koje su kupili kupci u SAD-u i Kanadi. Paket od 8 kamera na svakom vozilu daje mapu popunjenosti od 360°. Podaci kamere (i drugi) iz tih vozila koriste se za treniranje njegove neuronske mreže (koja koristi automatsko označavanje) za prepoznavanje objekata, iscrtavanje potencijalnih putanja vozila, odabir optimalnih i aktiviranje odgovarajućih kontrolnih radnji. ~75 tisuća ažuriranja neuronske mreže dogodilo se tijekom proteklih 12 mjeseci (~1 ažuriranje svakih 7 minuta) jer se neprestano prikupljaju novi podaci i otkrivaju pogreške u označavanju ili greške u manevriranju. Uvježbana mreža izvršava radnje planiranja i kontrole putem ugrađene, redundantne arhitekture namjenske računalne elektronike. Tesla očekuje da će FSD na kraju dovesti do autonomnih vozila (AV), koja pružaju potpunu autonomiju u određenim domenama operativnog dizajna bez potrebe za ljudskim vozačem (također se naziva autonomija L4).

Druge tvrtke kao što su Phiar, Helm.ai i NODAR također idu u smjeru računalnog vida. NODAR ima za cilj značajno proširiti raspon slike i 3D percepciju sustava stereo kamera učenjem prilagodbe za neusklađenost kamere i efekte vibracija putem patentiranih algoritama strojnog učenja. Nedavno je prikupljeno 12 milijuna dolara za proizvodnju svog vodećeg proizvoda, Hammerhead™, koji koristi "gotove" kamere za automobile i standardne računalne platforme.

Osim cijene i veličine, čest argument protiv korištenja LiDAR-a je taj što ima ograničen domet i razlučivost u usporedbi s kamerama. Na primjer, danas su dostupni LiDAR-i s dometom od 200 m i 5-10 M točaka/sekundi (PPS sličan rezoluciji). Na 200 m male prepreke poput cigli ili krhotina guma registrirat će vrlo malo točaka (možda 2-3 u okomitom i 3-5 u vodoravnom smjeru), što otežava prepoznavanje predmeta. Stvari postaju još grublje na većim udaljenostima. Za usporedbu, standardne megapikselne kamere koje rade na 30 Hz mogu generirati 30M piksela/sekundi, omogućujući vrhunsko prepoznavanje objekata čak i na velikim udaljenostima. Naprednije kamere (12 M piksela) mogu to još više povećati. Pitanje je kako iskoristiti ove ogromne podatke i proizvesti djelotvornu percepciju s latencijama na razini milisekundi, niskom potrošnjom energije i lošijim uvjetima osvjetljenja.

OGLAS

Prepoznati, tvrtka sa sjedištem u Kaliforniji, pokušava riješiti ovaj problem. Prema riječima izvršnog direktora Marka Bolitha, njegova misija je "pružaju nadljudsku vizualnu percepciju za potpuno autonomna vozila.” Tvrtka je osnovana 2017. godine, do danas je prikupila 75 milijuna dolara i ima 70 zaposlenih. RK Anand, bivši student Juniper Networksa, jedan je od suosnivača i glavni direktor za proizvode. On vjeruje da korištenje kamera veće razlučivosti, s > 120 dB dinamičkog raspona, koje rade s visokim brojem sličica (na primjer, OnSemi, Sony i Omnivision) osigurava podatke potrebne za stvaranje 3D informacija visoke razlučivosti, što je ključno za realizaciju AV-a. Omogućivači ovoga su:

Prilagođeno dizajnirani ASIC-ovi za učinkovitu obradu podataka i proizvodnju točnih 3D karata visoke razlučivosti okoline automobila. Proizvedeni su u TSMC 7 nm procesu, s veličinom čipa od 100 mm², radeći na frekvenciji od 1 GHz.
Vlasnički algoritmi strojnog učenja za obradu milijuna podatkovnih točaka izvan mreže kako bi se stvorila obučena neuronska mreža, koja zatim može učinkovito raditi i kontinuirano učiti. Ova mreža pruža percepciju i uključuje klasifikaciju i detekciju objekata, semantičku segmentaciju, detekciju trake, prometne znakove i prepoznavanje semafora
Minimiziranje pohranjivanja izvan čipa i operacija množenja koje su energetski intenzivne i stvaraju veliku latenciju. Recognijev ASIC dizajn optimiziran je za logaritamsku matematiku i koristi zbrajanje. Daljnje učinkovitosti se ostvaruju optimalnim grupiranjem težina u uvježbanoj neuronskoj mreži.

Tijekom faze uvježbavanja, komercijalni LiDAR koristi se kao temeljna istina za uvježbavanje podataka stereo kamere visoke razlučivosti i visokog dinamičkog raspona kako bi se izvukle informacije o dubini i učinile ih robusnim protiv učinaka neusklađenosti i vibracija. Prema g. Anandu, njihova implementacija strojnog učenja toliko je učinkovita da može ekstrapolirati procjene dubine izvan raspona obuke koje pruža kalibracijski LiDAR (koji pruža istinitost tla do raspona od 100 m).

OGLAS

Slika 1: Zeleni okviri prikazuju 3D izvedbu Recognijevog skupa percepcije na uvježbanim podacima na 100 … [+] m raspona. Plava strelica pokazuje percepciju dubine na udaljenostima izvan podataka o vježbanju na 130 m.

Prepoznati

Gore navedeni podaci o obuci provedeni su danju sa stereo parom kamera od 8.3 megapiksela koje rade pri brzini kadrova od 30 Hz (~0.5B piksela po sekundi). Pokazuje sposobnost uvježbane mreže da izvuče 3D informacije u sceni izvan raspona od 100 m s kojim je uvježbana. Recognijevo rješenje također može ekstrapolirati svoje učenje s dnevnim podacima na noćne performanse (Slika 2).

Slika 2: Recognijev skup percepcije treniran na dnevnim podacima također radi pod nižom razinom osvjetljenja … [+] noćnim uvjetima

Prepoznati

OGLAS

Prema g. Anandu, podaci o dometu točni su unutar 5% (na velikim udaljenostima) i blizu 2% (na kraćim udaljenostima). Rješenje pruža 1000 TOPS (trilijuna operacija u sekundi) s latencijom od 6 ms i potrošnjom energije od 25 W (40 TOPS/W), što je vodeće u industriji. Natjecatelji koji koriste matematiku cjelobrojnih brojeva su > 10X niži u ovoj metrici. Recognijevo rješenje trenutno je u fazi testiranja kod više dobavljača Tier 1 automobilske industrije.

Proročica ("predviđanje i gledanje gdje je akcija"), sa sjedištem u Francuskoj, koristi svoje kamere temeljene na događajima za AV, napredne sustave pomoći vozaču (ADAS), industrijsku automatizaciju, aplikacije za široku potrošnju i zdravstvo. Osnovan 2014. godine, tvrtka je nedavno zatvorila svoju C rundu financiranja od 50 milijuna dolara, s ukupno prikupljenih 127 milijuna dolara do danas. Xiaomi, vodeći proizvođač mobilnih telefona, jedan je od investitora. Propheseejev cilj je oponašati ljudski vid u kojem receptori u mrežnici reagiraju na dinamičke informacije. Ljudski se mozak usredotočuje na obradu promjena u sceni (osobito za vožnju). Osnovna ideja je koristiti arhitekture kamere i piksela koje otkrivaju promjene u intenzitetu svjetla iznad praga (događaja) i daju samo te podatke računskom skupu za daljnju obradu. Pikseli rade asinkrono (ne uokvireni kao u običnim CMOS kamerama) i mnogo većim brzinama budući da ne moraju integrirati fotone kao u konvencionalnoj kameri koja se temelji na okviru i čekati da cijeli okvir to završi prije očitavanja podataka. Prednosti su značajne – manja propusnost podataka, latencija odluke, pohrana i potrošnja energije. Tvrtkin prvi komercijalni VGA senzor vida temeljen na događajima imao je visok dinamički raspon (>120 dB), nisku potrošnju energije (26 mW na razini senzora ili 3 nW/događaj). Također je lansirana HD (High Definition) verzija (zajedno razvijena sa Sonyjem), s veličinom piksela koja je vodeća u industriji (< 5 μm).

Slika 3: Format slike visoke rezolucije temeljen na događajima s razmakom piksela od 5 um, zajednički razvijen … [+] sa Sonyjem

Proročica

OGLAS

Ovi senzori čine jezgru Metavision® senzorske platforme, koja koristi umjetnu inteligenciju za pružanje pametne i učinkovite percepcije za aplikacije autonomije, a procjenjuje je više kompanija u transportnom prostoru. Osim percepcije usmjerene prema naprijed za AV i ADAS, Prophesee je aktivno uključen u kupce za nadzor vozača u kabini za L2 i L3 aplikacije, vidi sliku 4:

Slika 4: XPERI nadzor vozača u kabini na temelju neuromorfne vizije inspirirane Numanom

Proročica

Automobilske mogućnosti su unosne, ali ciklusi u dizajnu su dugi. Tijekom protekle dvije godine, Prophesee je primijetio značajan interes i privlačnost u prostoru strojnog vida za industrijske primjene. To uključuje brzo brojanje, inspekciju površine i praćenje vibracija.

OGLAS

Slika 5: Visoko brojanje pomoću kamera temeljenih na događajima

Proročica

Prophesee je nedavno najavio suradnju s vodećim programerima sustava strojnog vida za iskorištavanje prilika u industrijskoj automatizaciji, robotici, automobilskoj industriji i IoT (Internet of Things). Druge neposredne mogućnosti su ispravljanje zamućenja slike za mobilne telefone i AR/VR aplikacije. Oni koriste senzore nižeg formata od onih koji se koriste za dugoročne ADAS/AV mogućnosti, troše čak nižu energiju i rade sa znatno nižom latencijom.

Izrael je vodeći inovator u visokoj tehnologiji, sa značajnim venture ulaganjima i aktivnim start-up okruženjem. Od 2015. ostvareno je oko 70 milijardi dolara ulaganja u tehnološkom sektoru. Dio toga je u području računalnog vida. Mobileye je predvodio ovu revoluciju 1999. godine kada je Amnon Shashua, vodeći istraživač umjetne inteligencije na Hebrejskom sveučilištu, osnovao tvrtku kako bi se usredotočio na percepciju temeljenu na kameri za ADAS i AV. Tvrtka je podnijela zahtjev za IPO 2014. godine, a kupio ju je IntelINTC
u 2017. za 15 milijardi dolara. Danas je lako vodeći igrač u domeni računalnog vida i AV, au posljednje vrijeme objavila svoju namjeru da podnese zahtjev za IPO i postati samostalan subjekt. Mobileye je imao prihod od 1.4 milijarde dolara godišnje i skromne gubitke (75 milijuna dolara). Omogućuje mogućnosti računalnog vida za 50 proizvođača originalne opreme za automobile koji ga postavljaju na 800 modela automobila za mogućnosti ADAS-a. U budućnosti namjeravaju biti vodeći u autonomiji vozila L4 (nije potreban vozač) koristeći ovu stručnost računalnog vida i mogućnosti LiDAR-a temeljene na Intelovoj platformi za silicijsku fotoniku. Vrijednost Mobileyea procjenjuje se na ~50 milijardi dolara kada konačno izađu na berzu.

OGLAS

Glavni grad Champel, sa sjedištem u Jeruzalemu, na čelu je ulaganja u tvrtke koje razvijaju proizvode temeljene na računalnom vidu za različite primjene od transporta i poljoprivrede do sigurnosti i zaštite. Amir Weitman suosnivač je i upravljački partner, a svoju je rizičnu tvrtku pokrenuo 2017. Prvi je fond uložio 20 milijuna dolara u 14 tvrtki. Jedno od njihovih ulaganja bilo je u Innoviz, koji je 2018. izašao na burzu spajanjem SPAC-a i postao LiDAR jednorog. Na čelu s Omerom Keilafom (koji je došao iz tehnološke jedinice Obavještajnog korpusa Izraelskih obrambenih snaga), tvrtka je danas vodeća u postavljanju LiDAR-a za ADAS i AV, s višestrukim pobjedama u dizajnu kod BMW-a i Volkswagena.

Drugi fond Champel Capitala (Impact Deep Tech Fund II) pokrenut je u siječnju 2022. i do danas je prikupio 30 milijuna dolara (cilj je 100 milijuna dolara do kraja 2022.). Dominantan fokus je na računalni vid, s 12 milijuna dolara raspoređenih u pet tvrtki. Tri od njih koriste računalni vid za transport i robotiku.

TankU, sa sjedištem u Haifi, započela je s radom 2018. i prikupila je 10 milijuna dolara financiranja. Dan Valdhorn je izvršni direktor i diplomirao je na Jedinici 8200, elitnoj visokotehnološkoj skupini unutar Izraelskih obrambenih snaga odgovornoj za obavještajne signale i dešifriranje koda. TankU-ovi SaaS (softver kao usluga) proizvodi automatiziraju i osiguravaju procese u složenim vanjskim okruženjima servisirajući vozila i vozače. Ove proizvode koriste vlasnici voznih parkova, osobnih automobila, postaja za gorivo i električnih punionica za sprječavanje krađe i prijevara u automatiziranim financijskim transakcijama. Usluge goriva za vozila generiraju ~2T$ globalnih prihoda godišnje, od čega vlasnici privatnih i komercijalnih vozila troše 40% ili 800B$. Trgovci na malo i vlasnici voznih parkova gube ~100 milijardi dolara godišnje zbog krađe i prijevare (na primjer, korištenje kartice za gorivo voznog parka za neovlaštena privatna vozila). Prijevara s CNP-om (kartica nije prisutna) i neovlašteno mijenjanje/krađa goriva dodatni su izvori gubitka, posebno kada se za plaćanja koriste podaci o ukradenoj kartici u mobilnim aplikacijama.

OGLAS

Tvrtkin proizvod TUfuel omogućuje sigurno plaćanje jednim dodirom, blokira većinu vrsta prijevara i upozorava korisnike kada posumnjaju na prijevaru. To čini na temelju AI mehanizma obučenog na podacima s postojećih CCTV-a u tim objektima i podataka o digitalnim transakcijama (uključujući POS i druge pozadinske podatke). Parametri kao što su putanja i dinamika vozila, ID vozila, vrijeme putovanja, kilometraža, vrijeme punjenja goriva, količina goriva, povijest goriva i ponašanje vozača neki su od atributa koji se nadziru radi otkrivanja prijevare. Ovi podaci također pomažu trgovcima da optimiziraju rad stranice, povećaju lojalnost kupaca i implementiraju marketinške alate temeljene na viziji. Prema riječima glavnog izvršnog direktora Dana Valdhorna, njihovo rješenje otkriva 70% flote, 90% slučajeva prijevare s kreditnom karticom i 70% slučajeva prijevare.

Slika 6: TUfuel koristi podatke u stvarnom vremenu s CCTV kamera na benzinskim postajama i druge digitalne podatke iz … [+] Aktivnosti Point of Service i mobilne aplikacije

TankU

Sonol je tvrtka za energetske usluge koja posjeduje i upravlja mrežom od 240 postaja i trgovina diljem Izraela. TUfuel je implementiran na njihovim lokacijama i pokazao je poboljšanu sigurnost, sprječavanje prijevara i lojalnost kupaca. U SAD-u su u tijeku ispitivanja proizvoda u suradnji s vodećim svjetskim dobavljačem opreme za benzinske postaje i trgovine. Slične inicijative također su u tijeku u Africi i Europi.

OGLAS

Sa sjedištem u Tel-Avivu ITC osnovali su 2019. akademici strojnog učenja sa Sveučilišta Ben-Gurion. ITC stvara SaaS proizvode koji "izmjerite protok prometa, predvidite gužve i ublažite ih pametnom manipulacijom semaforima - prije nego što se počnu stvarati gužve." Slično TankU-u, koristi se podacima sa standardnih kamera (koje su već instalirane na brojnim prometnim raskrižjima) za dobivanje podataka o prometu uživo. Analiziraju se podaci s tisuća kamera diljem grada, a parametri poput vrste vozila, brzine, smjera kretanja i redoslijeda vrsta vozila (kamioni naspram automobila) izdvajaju se primjenom vlasničkih algoritama umjetne inteligencije. Simulacije predviđaju protok prometa i potencijalne situacije zastoja u prometu do 30 minuta unaprijed. Semafori se prilagođavaju pomoću ovih rezultata kako bi se ujednačio protok prometa i spriječile gužve.

Slika 7: Podatke s tisuća kamera prikuplja VMS unutar gradske kontrole prometa … [+] soba. ITC poslužitelji obrađuju ove podatke putem obučenih AI algoritama za kontrolu semafora

ITC

Obuka sustava umjetne inteligencije traje mjesec dana vizualnih podataka u tipičnom gradu i uključuje kombinaciju nadziranog i nenadziranog učenja. Rješenje ITC-a već je implementirano u Tel-Avivu (25. na ljestvici najzagušenijih gradova u svijetu 2020.), s tisućama kamera postavljenih na stotinama raskrižja kontroliranih semaforima. ITC-ov sustav trenutno upravlja sa 75 tisuća vozila, a očekuje se da će taj broj nastaviti rasti. Tvrtka instalira a sličnu sposobnost u Luksemburgu i počinje ispitivanja u većim gradovima SAD-a. Globalno, njegovo rješenje upravlja s 300,000 vozila s operativnim mjestima u Izraelu, SAD-u, Brazilu i Australiji. Dvir Kenig, tehnički direktor, strastveno želi riješiti ovaj problem – vratiti ljudima osobno vrijeme, smanjiti stakleničke plinove, povećati ukupnu produktivnost i što je najvažnije, smanjiti nesreće na zakrčenim raskrižjima. Prema riječima g. Keniga, "Naše implementacije pokazuju smanjenje prometnih gužvi za 30%, smanjujući neproduktivno vrijeme vožnje, stres, potrošnju goriva i zagađenje."

OGLAS

Robotika u zatvorenom prostoru je bio osnovan u 2018 i nedavno prikupio 18 milijuna dolara financiranja. Tvrtka, sa sjedištem u blizini Tel-Aviva, Izrael, razvija i prodaje rješenja autonomnih dronova za unutarnju sigurnost, sigurnost i nadzor održavanja. Glavni izvršni direktor i suosnivač, Doron Ben-David, ima značajno iskustvo u robotici i aeronautici prikupljeno u IAI-juIAI
(glavni izvođač obrane) i MAFAT (napredna istraživačka organizacija unutar izraelskog Ministarstva obrane), koja je slična DARPA-i u Sjedinjenim Državama. Rastuća ulaganja u pametne zgrade i komercijalna sigurnosna tržišta potiču potrebu za autonomnim sustavima koji mogu koristiti računalni vid i druge senzorske ulaze u malim i velikim unutarnjim komercijalnim prostorima (uredi, podatkovni centri, skladišta i maloprodajni prostori). Indoor Robotics cilja na ovo tržište korištenjem unutarnjih bespilotnih letjelica opremljenih standardnim kamerama te toplinskim i infracrvenim senzorima dometa.

Slika 8: Autonomna flota dronova tvrtke Indoor Robotics može se napajati kroz stropnu montažu … [+] docking tile. Tando Control Bridge obrađuje podatke i kontrolira putanju leta

Robotika u zatvorenom prostoru

Ofir Bar-Levav je glavni poslovni direktor. Objašnjava da je nedostatak GPS-a spriječio bespilotne letjelice za zatvorene prostore da se lokaliziraju unutar zgrada (obično s GPS-om odbijenim ili netočnim). Osim toga, nedostajala su praktična i učinkovita rješenja za spajanje i napajanje. Indoor Robotics to rješava s četiri kamere montirane na dronove (gore, dolje, lijevo, desno) i jednostavnim senzorima dometa koji precizno mapiraju unutarnji prostor i njegov sadržaj. Podatke s kamere (kamere pružaju podatke o lokalizaciji i kartiranju) i toplinske senzore (također montirane na dron) analizira AI sustav kako bi se otkrili potencijalni problemi sigurnosti, sigurnosti i održavanja te upozorio kupca. Dronovi se sami napajaju preko stropne "priključne ploče", koja štedi dragocjeni podni prostor i omogućuje prikupljanje podataka tijekom punjenja. Financijske prednosti automatizacije ovih ovozemaljskih procesa u kojima je ljudski rad složen i skup u smislu zapošljavanja, zadržavanja i obuke su očite. Korištenje zračnih dronova u odnosu na zemaljske robote također ima značajne prednosti u smislu kapitalnih i operativnih troškova, boljeg korištenja prostora, slobode kretanja bez nailaženja na prepreke i učinkovitosti snimanja podataka kamerom. Prema g. Bar-Levavu, Indoor Robotics TAM (Total Addressable Market) u unutarnjim inteligentnim sigurnosnim sustavima iznosit će 80 milijardi dolara do 2026. Ključne lokacije kupaca danas uključuju skladišta, podatkovne centre i uredske kampuse vodećih globalnih korporacija.

OGLAS

Računalna vizija donosi revoluciju u igri autonomije – u automatizaciji kretanja, sigurnosti, nadzoru pametnih zgrada, otkrivanju prijevara i upravljanju prometom. Snaga poluvodiča i AI moćni su pokretači. Jednom kada računala ovladaju ovim nevjerojatnim osjetilnim modalitetom na skalabilan način, mogućnosti su beskrajne.

Izvor: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/