AI 101
Che cosa sono i Big Data?
Che cosa sono i Big Data?
"Big Data" è una delle parole d'ordine comunemente usate della nostra era attuale, ma cosa significa veramente?
Ecco una definizione rapida e semplice di big data. Big dati sono dati troppo grandi e complessi per essere gestiti con i tradizionali metodi di elaborazione e archiviazione dei dati. Sebbene questa sia una definizione rapida che puoi utilizzare come euristica, sarebbe utile avere una comprensione più profonda e completa dei big data. Diamo un'occhiata ad alcuni dei concetti alla base dei big data, come l'archiviazione, la struttura e l'elaborazione.
Quanto sono grandi i Big Data?
Non è così semplice come dire "qualsiasi dato di dimensioni superiori a 'X' è un big data", l'ambiente in cui i dati vengono gestiti è un fattore estremamente importante in determinare ciò che si qualifica come big data. La dimensione che i dati devono avere, per essere considerati big data, dipende dal contesto o dall'attività in cui vengono utilizzati i dati. Due set di dati di dimensioni molto diverse possono essere considerati "big data" in contesti diversi.
Per essere più concreti, se provi a inviare un file da 200 megabyte come allegato di posta elettronica, non saresti in grado di farlo. In questo contesto, il file da 200 megabyte potrebbe essere considerato un big data. Al contrario, la copia di un file da 200 megabyte su un altro dispositivo all'interno della stessa LAN potrebbe non richiedere molto tempo e, in tale contesto, non sarebbe considerata un big data.
Tuttavia, supponiamo che 15 terabyte di video debbano essere pre-elaborati per essere utilizzati nell'addestramento delle applicazioni di visione artificiale. In questo caso, i file video occupano così tanto spazio che anche un computer potente impiegherebbe molto tempo per elaborarli tutti, quindi l'elaborazione verrebbe normalmente distribuita su più computer collegati tra loro per ridurre i tempi di elaborazione. Questi 15 terabyte di dati video si qualificherebbero sicuramente come big data.
Tipi di strutture di Big Data
I big data sono disponibili in tre diverse categorie di struttura: dati non strutturati, dati semi-strutturati e strutturati.
I dati non strutturati sono dati che non possiedono una struttura definibile, il che significa che i dati si trovano essenzialmente solo in un unico grande pool. Esempi di dati non strutturati potrebbero essere un database pieno di immagini senza etichetta.
I dati semi-strutturati sono dati che non hanno una struttura formale, ma esistono all'interno di una struttura libera. Ad esempio, i dati delle e-mail potrebbero essere conteggiati come dati semi-strutturati, perché potresti fare riferimento ai dati contenuti nelle singole e-mail, ma non sono stati stabiliti modelli di dati formali.
I dati strutturati sono dati che hanno una struttura formale, con punti dati classificati in base a caratteristiche diverse. Un esempio di dati strutturati è un foglio di calcolo Excel contenente informazioni di contatto come nomi, e-mail, numeri di telefono e siti web.
Se desideri saperne di più sulle differenze in questi tipi di dati, controlla il link qui.
Metriche per la valutazione dei Big Data
I big data possono essere analizzati in termini di tre diverse metriche: volume, velocità e varietà.
Il volume si riferisce alla dimensione dei dati. La dimensione media dei set di dati è spesso in aumento. Ad esempio, il disco rigido più grande nel 2006 era un disco rigido da 750 GB. Al contrario, si pensa che Facebook generi oltre 500 terabyte di dati in un giorno e il più grande disco rigido consumer disponibile oggi è un disco rigido da 16 terabyte. Ciò che viene quantificato come big data in un'epoca potrebbe non esserlo in un'altra. Oggi vengono generati più dati perché sempre più oggetti che ci circondano sono dotati di sensori, telecamere, microfoni e altri dispositivi di raccolta dati.
La velocità si riferisce alla velocità con cui i dati si muovono o, per dirla in altro modo, alla quantità di dati generati in un determinato periodo di tempo. I flussi di social media generano centinaia di migliaia di post e commenti ogni minuto, mentre la tua casella di posta elettronica avrà probabilmente molta meno attività. I flussi di big data sono flussi che spesso gestiscono centinaia di migliaia o milioni di eventi più o meno in tempo reale. Esempi di questi flussi di dati sono le piattaforme di gioco online e gli algoritmi di trading azionario ad alta frequenza.
La varietà si riferisce ai diversi tipi di dati contenuti all'interno del set di dati. I dati possono essere costituiti da molti formati diversi, come audio, video, testo, foto o numeri di serie. In generale, i database tradizionali sono formattati per gestire uno o solo un paio di tipi di dati. In altre parole, i database tradizionali sono strutturati per contenere dati abbastanza omogenei e con una struttura coerente e prevedibile. Man mano che le applicazioni diventano più diversificate, ricche di funzionalità diverse e utilizzate da più persone, i database hanno dovuto evolversi per archiviare più tipi di dati. I database non strutturati sono ideali per contenere big data, in quanto possono contenere più tipi di dati non correlati tra loro.
Metodi di gestione dei Big Data
Esistono diverse piattaforme e strumenti progettati per facilitare l'analisi dei big data. I pool di big data devono essere analizzati per estrarre modelli significativi dai dati, un compito che può rivelarsi piuttosto impegnativo con i tradizionali strumenti di analisi dei dati. In risposta alla necessità di strumenti per analizzare grandi volumi di dati, diverse aziende hanno creato strumenti di analisi dei big data. Gli strumenti di analisi dei big data includono sistemi come ZOHO Analytics, Cloudera e Microsoft BI.












