AI 101
Cos'è la visione artificiale?
Cos'è la visione artificiale?
Al momento, gli algoritmi di visione artificiale sono uno dei sistemi di intelligenza artificiale più trasformativi e potenti al mondo. Sistemi di visione artificiale vedere l'uso in veicoli autonomi, navigazione robotica, sistemi di riconoscimento facciale e altro ancora. Tuttavia, cosa sono esattamente gli algoritmi di visione artificiale? Come funzionano? Per rispondere a queste domande, approfondiremo la teoria alla base della visione artificiale, degli algoritmi di visione artificiale e delle applicazioni per i sistemi di visione artificiale.
Come funzionano i sistemi di visione artificiale?
Per apprezzare appieno il funzionamento dei sistemi di visione artificiale, prendiamoci un momento per discutere di come gli esseri umani riconoscono gli oggetti. La migliore spiegazione che la neuropsicologia ha per come riconosciamo gli oggetti è un modello che descrive la fase iniziale di riconoscimento degli oggetti come quello in cui i componenti di base degli oggetti, come forma, colore e profondità, vengono interpretati per primi dal cervello. I segnali provenienti dall'occhio che entrano nel cervello vengono analizzati per evidenziare prima i bordi di un oggetto, e questi bordi vengono uniti insieme in una rappresentazione più complessa che completa la forma dell'oggetto.
I sistemi di visione artificiale funzionano in modo molto simile al sistema visivo umano, distinguendo prima i bordi di un oggetto e poi unendo questi bordi insieme nella forma dell'oggetto. La grande differenza è che poiché i computer interpretano le immagini come numeri, un sistema di visione artificiale ha bisogno di un modo per interpretare i singoli pixel che compongono l'immagine. Il sistema di visione artificiale assegnerà valori ai pixel nell'immagine ed esaminando la differenza di valori tra una regione di pixel e un'altra regione di pixel, il computer può discernere i bordi. Ad esempio, se l'immagine in questione è in scala di grigi, i valori andranno dal nero (rappresentato da 0) al bianco (rappresentato da 255). Un improvviso cambiamento nell'intervallo di valori dei pixel vicini l'uno all'altro indicherà un bordo.
Questo principio di base del confronto dei valori dei pixel può essere eseguito anche con immagini a colori, con il computer che confronta le differenze tra i diversi canali di colore RGB. Quindi, sapendo che sappiamo come un sistema di visione artificiale esamina i valori dei pixel per interpretare un'immagine, diamo un'occhiata all'architettura di un sistema di visione artificiale.
Reti neurali convoluzionali (CNN)
Il tipo principale di intelligenza artificiale utilizzato nelle attività di visione artificiale è uno basato su reti neurali convoluzionali. Cos'è esattamente una convoluzione?
Le convoluzioni sono processi matematici utilizzati dalla rete per determinare la differenza di valori tra i pixel. Se immagini una griglia di valori in pixel, immagina una griglia più piccola che viene spostata su questa griglia principale. I valori sotto la seconda griglia vengono analizzati dalla rete, quindi la rete esamina solo una manciata di pixel alla volta. Questa è spesso chiamata la tecnica delle "finestre scorrevoli". I valori analizzati dalla finestra scorrevole vengono riepilogati dalla rete, il che aiuta a ridurre la complessità dell'immagine e facilita l'estrazione dei modelli da parte della rete.
Le reti neurali convoluzionali sono divise in due sezioni diverse, la sezione convoluzionale e la sezione completamente connessa. Gli strati convoluzionali della rete sono gli estrattori di caratteristiche, il cui compito è analizzare i pixel all'interno dell'immagine e formare rappresentazioni di essi da cui gli strati densamente connessi della rete neurale possono apprendere modelli. Gli strati convoluzionali iniziano semplicemente esaminando i pixel ed estraendo le caratteristiche di basso livello dell'immagine come i bordi. Gli strati convoluzionali successivi uniscono i bordi insieme in forme più complesse. Alla fine, si spera che la rete abbia una rappresentazione dei bordi e dei dettagli dell'immagine che può passare agli strati completamente connessi.
Annotazione di immagine
Mentre una rete neurale convoluzionale può estrarre da sola modelli dalle immagini, la precisione del sistema di visione artificiale può essere notevolmente migliorata annotando le immagini. Annotazione dell'immagine è il processo di aggiunta di metadati all'immagine che assiste il classificatore nel rilevare oggetti importanti nell'immagine. L'uso dell'annotazione dell'immagine è importante ogni volta che i sistemi di visione artificiale devono essere estremamente accurati, ad esempio quando si controlla un veicolo autonomo o un robot.
Esistono vari modi in cui le immagini possono essere annotate per migliorare le prestazioni di un classificatore di visione artificiale. L'annotazione dell'immagine viene spesso eseguita con riquadri di delimitazione, un riquadro che circonda i bordi dell'oggetto di destinazione e indica al computer di focalizzare la sua attenzione all'interno del riquadro. La segmentazione semantica è un altro tipo di annotazione dell'immagine, che funziona assegnando una classe di immagine a ogni pixel in un'immagine. In altre parole, ogni pixel che potrebbe essere considerato “erba” o “albero” verrà etichettato come appartenente a quelle classi. La tecnica fornisce precisione a livello di pixel, ma la creazione di annotazioni di segmentazione semantica è più complessa e richiede tempo rispetto alla creazione di semplici riquadri di delimitazione. Esistono anche altri metodi di annotazione, come linee e punti.












