Dołącz do czytelników
Brak wyników

ZARZĄDZANIE

20 maja 2019

Co kryją dane? kilka słów o Big Data

44
Wszystkie otaczające nas zjawiska mierzymy, analizujemy, wizualizujemy. W tej walce od wielu lat wspomagają nas komputery. Uzbrojeni w narzędzia sztucznej inteligencji wkraczamy w świat Przemysłu 4.0.

Autor: Krzysztof Bielas, analityk danych, APA Group

 

Dane, wszędzie dane!

Powiew wiatru, promienie słoneczne, praca robota, kursy na giełdzie. Gdy je zmierzymy, każde można zamienić w strumień danych. Ale dane same w sobie są bezużyteczne – dopiero zinterpretowane dostarczą nam informacji o prędkościach, natężeniu, liczbie cykli pracy czy wystąpieniu krachu. Czy zawsze zgodnie z prawdą? Analitycy muszą zmierzyć się ze zjawiskami takimi jak mniejsze lub większe braki danych, ich niewłaściwy format, irracjonalne wartości czy jednostki. Bywają one trudne do wykrycia i zazwyczaj stanowią potencjalne uszczuplenie naszej wiedzy. Jakość danych jest absolutnie kluczowa.

Nasze obserwacje łączy jeszcze jedna ważna własność – wszystkie odbywają się w czasie. Czas jest podstawowym parametrem, opisującym związki przyczynowo-skutkowe, przynajmniej w znanej nam części Wszechświata. Na jednej osi czasu możemy wykreślić temperaturę i wilgotność w hali produkcyjnej, tętno serca pracownika czy interwał potrzebny na wykonanie przez niego konkretnej pracy.

Praktycznie jesteśmy w stanie rejestrować współwystępowanie wielu, często pozornie niezwiązanych ze sobą zjawisk. Są tylko dwa problemy: po pierwsze, danych jest dużo. Żadna ludzka percepcja nie jest w stanie wydajnie monitorować tak wielu informacji. Po drugie, samo przyswojenie danych nie stanowi klucza do sukcesu. Dane trzeba zrozumieć.

Lawinowy wzrost

Rozważmy linię produkcyjną, na której pracuje kilka robotów. Załóżmy, że monitorujemy ich parametry elektryczne i dynamiczne oraz parametry otoczenia. Z łatwością naliczymy kilkadziesiąt, jeśli nie kilkaset takich parametrów. Jak często musimy je mierzyć? Przykładowo, pomiar temperatury otoczenia z częstotliwością 1 kHz (czyli 1000 pomiarów w każdej sekundzie) brzmi absurdalnie; taka sama częstotliwość zastosowana do pomiaru natężenia prądu może już mieć swoje uzasadnienie. Częstotliwość pomiaru powinna być więc dostosowana do charakteru mierzonego procesu. Na potrzeby szacowania załóżmy jednak po prostu rejestrację w odstępach sekundowych. Po jednym dniu musimy liczyć się już z gigabajtami danych – tylko dla kilku urządzeń! Jeżeli chcemy przeprowadzać analizę strumieniowo, i to dla danych różnego typu (od grafiki, np. z kamer fabrycznych, po dane dźwiękowe), to jesteśmy o krok od pojęcia Big Data, które definiuje się z grubsza przez tzw. 3V (Volume, Velocity, Variety). Będziemy potrzebowali komputera.

Od komputera do dziecka i z powrotem

Zdolności arytmetyczne komputerów od dawna przewyższają wielokrotnie możliwości przeciętnego człowieka. Mnożenie dużych liczb, optymalizacja numeryczna, a nawet rachunki symboliczne to dziedziny, w których komputer nie ma sobie równych. Z drugiej strony, zadania trywialne dla rocznego dziecka, takie jak rozpoznawanie twarzy czy wyczuwanie nastroju bliskiej osoby, okazują się trudne do wykonania przez maszynę. Stanowi to ilustrację tzw. Paradoksu Moraveca i zazwyczaj tłumaczy się ewolucyjną genezą ludzkości.

Wróćmy do naszych danych. Na pierwszy rzut oka znamy dobrze dziedzinę, która opisuje oraz pomaga w zrozumieniu prawidłowości zachowań większych zbiorów elementów – to statystyka. Dzięki niej szacujemy np. średnie zachmurzenie oraz jego potencjalną korelację z napięciem na ogniwach fotowoltaicznych. Uzbrojeni w rachunek prawdopodobieństwa możemy pokusić się np. o prognozowanie zużycia energii elektrycznej w następnym miesiącu. Ale jak przekazać komputerowi, co jest typowym zachowaniem robota, a co anomalią w jego pracy? Który dzienny profil mocy przedsiębiorstwa jest typowy, a któremu należy się przyjrzeć bliżej? Które dane wskazują na kradzież energii elektrycznej? Metody czysto statystyczne mogą okazać się tu niewystarczające. W sukurs przychodzą nam narzędzia sztucznej inteligencji, takie jak drążenie danych (data mining) i uczenie maszynowe (machine learning).

Obserwuj i ucz się

Najogólniej mówiąc, u...

Czasopismo jest dostępne dla zalogowanych użytkowników.

Jak uzyskać dostęp? Wystarczy, że założysz bezpłatne konto lub zalogujesz się.
Czeka na Ciebie pakiet inspirujących materiałów pokazowych.
Załóż bezpłatne konto Zaloguj się

Przypisy