AI sztuczna inteligencja
Modele sztucznej inteligencji
Modele AI (sztucznej inteligencji) to algorytmy i systemy stworzone w celu rozwiązywania różnych problemów, podejmowania decyzji lub wykonywania zadań, które zazwyczaj wymagają ludzkiej inteligencji. Modele AI wykorzystują dane do nauki, rozpoznawania wzorców i podejmowania działań na ich podstawie.
Podział modeli AI:
Modele AI można klasyfikować w oparciu o różne kryteria, takie jak typ zadań, sposób działania lub rodzaj uczenia.
1. Modele AI według rodzaju uczenia:
- Uczenie nadzorowane (Supervised Learning):
- Model uczy się na podstawie danych wejściowych i odpowiadających im etykiet (np. obrazy kotów i psów z przypisaną kategorią).
- Przykłady zastosowań:
- Klasyfikacja (np. rozpoznawanie twarzy, analiza sentymentu).
- Regresja (np. prognozowanie cen, analizy trendów).
- Przykłady modeli:
- Drzewa decyzyjne.
- Sieci neuronowe (np. perceptrony wielowarstwowe).
- Uczenie nienadzorowane (Unsupervised Learning):
- Model uczy się na podstawie danych bez przypisanych etykiet, próbując znaleźć wzorce lub grupy.
- Przykłady zastosowań:
- Klasteryzacja (np. segmentacja klientów).
- Redukcja wymiarowości (np. PCA – analiza głównych składowych).
- Przykłady modeli:
- K-means.
- Algorytmy hierarchicznej klasteryzacji.
- Uczenie ze wzmocnieniem (Reinforcement Learning):
- Model uczy się przez próbę i błąd, otrzymując nagrody za dobre działania i kary za złe.
- Przykłady zastosowań:
- Gry komputerowe (np. AlphaGo).
- Systemy autonomiczne (np. autonomiczne pojazdy).
- Przykłady modeli:
- Deep Q-Networks (DQN).
- Algorytmy Monte Carlo.
- Uczenie półnadzorowane (Semi-Supervised Learning):
- Kombinacja danych oznaczonych i nieoznaczonych do treningu modelu.
- Przykład zastosowania: Rozpoznawanie obrazów przy ograniczonej liczbie oznaczonych danych.
- Uczenie transferowe (Transfer Learning):
- Wykorzystanie już wytrenowanego modelu na jednym zadaniu do rozwiązania innego, pokrewnego zadania.
- Przykład: Wykorzystanie modelu ResNet do rozpoznawania nowych obiektów.
2. Modele AI według struktury i architektury:
- Modele oparte na regułach (Rule-based AI):
- Oparte na predefiniowanych zasadach i regułach logicznych.
- Przykład: Systemy eksperckie w diagnostyce medycznej.
- Modele statystyczne:
- Korzystają z metod matematycznych do analizy danych.
- Przykłady:
- Regresja liniowa i logistyczna.
- Naive Bayes.
- Sieci neuronowe (Neural Networks):
- Wzorowane na biologicznych neuronach; złożone z warstw wejściowych, ukrytych i wyjściowych.
- Przykłady:
- Perceptrony wielowarstwowe (MLP).
- Recurrent Neural Networks (RNN) – do przetwarzania sekwencji (np. teksty, dane czasowe).
- Convolutional Neural Networks (CNN) – do analizy obrazów.
- Modele głębokiego uczenia (Deep Learning):
- Złożone modele neuronowe z wieloma warstwami.
- Przykłady:
- GPT (Generative Pre-trained Transformer) – modele językowe.
- BERT (Bidirectional Encoder Representations from Transformers).
- GAN (Generative Adversarial Networks) – generowanie obrazów, wideo, itp.
- Modele probabilistyczne:
- Pracują z niepewnością w danych, np. modele Bayesowskie.
- Przykład: Hidden Markov Models (HMM) w analizie sekwencji.
3. Modele generatywne i dyskryminacyjne:
- Modele generatywne:
- Tworzą nowe dane na podstawie istniejących przykładów.
- Przykłady:
- GAN (np. generowanie obrazów realistycznych).
- VAEs (Variational Autoencoders).
- Modele dyskryminacyjne:
- Rozróżniają różne klasy w danych.
- Przykład: Regresja logistyczna, SVM.
4. Przykłady znanych modeli AI:
- GPT-3/GPT-4 (OpenAI): Modele językowe do generowania tekstu, tłumaczeń, itd.
- BERT (Google): Model językowy do analizy tekstu i jego zrozumienia.
- YOLO: Model do rozpoznawania obiektów na obrazach w czasie rzeczywistym.
- AlphaGo (DeepMind): Model do gry w Go oparty na uczeniu ze wzmocnieniem.
- DALL-E (OpenAI): Generowanie obrazów na podstawie opisów tekstowych.
Przykłady zastosowań modeli AI:
- Analiza tekstu: Automatyczne tłumaczenia, chatboty, analiza sentymentu.
- Rozpoznawanie obrazów: Diagnostyka medyczna, systemy bezpieczeństwa.
- Przetwarzanie dźwięku: Asystenci głosowi (np. Alexa, Siri), transkrypcje.
- Prognozowanie: Analizy rynkowe, przewidywanie popytu.
- Systemy autonomiczne: Samojeżdżące samochody, roboty.
Modele AI to szeroka dziedzina, a ich wybór zależy od specyfiki problemu, dostępnych danych i oczekiwanych rezultatów.
Modele sztucznej inteligencji
Modele sztucznej inteligencji to programy, które zostały przeszkolone na zestawie danych w celu rozpoznawania określonych wzorców lub podejmowania określonych decyzji bez dalszej interwencji człowieka. Każdy model sztucznej inteligencji stosuje różne algorytmy do odpowiednich danych wejściowych, aby osiągnąć zadania lub wyniki, do których zostały zaprogramowany.
Mówiąc prościej, model sztucznej inteligencji jest definiowany przez jego zdolność do autonomicznego podejmowania decyzji lub przewidywania, a nie symulowania ludzkiej inteligencji. Jednymi z pierwszych udanych modeli sztucznej inteligencji były programy do gry w warcaby i szachy we wczesnych latach pięćdziesiątych XX wieku: modele te umożliwiły programom wykonywanie ruchów w bezpośredniej reakcji na ludzkiego przeciwnika, zamiast podążać za wcześniej zaprogramowaną serią ruchów.
Każdy model sztucznej inteligencji jest specjalnie dostosowany do konkretnych zadań lub dziedzin, dla których jego szczególna logika podejmowania decyzji jest najbardziej przydatna lub istotna. Złożone systemy często wykorzystują wiele, różnych modeli sztucznej inteligencji jednocześnie, korzystając z technik uczenia zespołowego.
W miarę jak narzędzia sztucznej inteligencji stają się coraz bardziej złożone i wszechstronne, wymagają one coraz większych ilości danych i mocy obliczeniowej do trenowania i wykonywania. W odpowiedzi systemy zaprojektowane do wykonywania określonych zadań w jednej dziedzinie ustępują miejsca modelom podstawowym, wstępnie wytrenowanym na dużych, nieoznakowanych zbiorach danych i zdolnym do szerokiego zakresu zastosowań. Te wszechstronne modele bazowe można następnie dostroić do konkretnych zadań.
Modele sztucznej inteligencji. Algorytmy a modele
Chociaż te dwa terminy są często używane zamiennie w tym kontekście, nie oznaczają tego samego.
- Algorytmy to procedury, często opisane w języku matematycznym lub pseudokodzie, stosowane do zbioru danych w celu osiągnięcia określonej funkcji lub celu.
- Modele są wynikiem algorytmu, który został zastosowany do zbioru danych.
Model AI służy do przewidywania lub podejmowania decyzji, a algorytm jest logiką, według której działa ten model AI.
Modele sztucznej inteligencji i uczenie maszynowe
Modele AI mogą automatyzować podejmowanie decyzji, ale tylko modele zdolne do uczenia maszynowego (ML) są w stanie autonomicznie optymalizować swoją wydajność w czasie.
Wszystkie modele uczenia maszynowego są sztuczną inteligencją, ale nie każda sztuczna inteligencja wymaga uczenia maszynowego. Najbardziej elementarne modele sztucznej inteligencji to seria instrukcji if-then-else, z regułami zaprogramowanymi przez analityka danych. Takie modele są alternatywnie nazywane silnikami reguł, systemami eksperckimi, grafami wiedzy lub symboliczną sztuczną inteligencją.
Modele uczenia maszynowego wykorzystują raczej statystyczną sztuczną inteligencję niż symboliczną sztuczną inteligencję. Podczas gdy modele sztucznej inteligencji oparte na regułach muszą być wyraźnie zaprogramowane, modele ML są "trenowane" poprzez zastosowanie ich matematycznych ram do przykładowego zbioru danych, którego punkty danych służą jako podstawa przyszłych prognoz modelu w świecie rzeczywistym.
Techniki uczenia maszynowego można podzielić na trzy kategorie: uczenie nadzorowane, uczenie bez nadzoru i uczenie ze wzmocnieniem.
- Uczenie nadzorowane: znane również jako "klasyczne" uczenie maszynowe, wymaga ludzkiego eksperta do oznaczania danych treningowych. Naukowiec zajmujący się danymi, szkolący model rozpoznawania obrazów w celu rozpoznawania psów i kotów, musi oznaczyć przykładowe obrazy jako "pies" lub "kot", a także kluczowe cechy - takie jak rozmiar, kształt lub futro - które informują o tych podstawowych etykietach. Model uczenia maszynowego może następnie, podczas uczenia, wykorzystać te etykiety do wnioskowania o cechach wizualnych typowych dla "psa" i "kota".
- Uczenie bez nadzoru: W przeciwieństwie do technik uczenia nadzorowanego, uczenie bez nadzoru nie zakłada zewnętrznego istnienia "dobrych" lub "złych" odpowiedzi, a zatem nie wymaga etykietowania. Algorytmy te wykrywają nieodłączne wzorce w zbiorach danych w celu grupowania punktów danych w grupy i informowania o przewidywaniach. Na przykład firmy zajmujące się handlem elektronicznym, wykorzystują nienadzorowane modele asocjacyjne do zasilania silników rekomendacji.
- Uczenie ze wzmocnieniem: w uczeniu ze wzmocnieniem model uczenia maszynowego uczy się całościowo metodą prób i błędów poprzez systematyczne nagradzanie poprawnych wyników (lub karanie nieprawidłowych wyników). Modele uczenia ze wzmocnieniem są wykorzystywane do informowania o sugestiach w mediach społecznościowych, algorytmicznym handlu akcjami, a nawet samochodach autonomicznych.
Uczenie głębokie
Uczenie głębokie (ang. deep learning) to rozwinięty podzbiór uczenia bez nadzoru, którego struktura sieci neuronowych stara się naśladować strukturę ludzkiego mózgu. Wiele warstw połączonych ze sobą węzłów stopniowo pobiera dane, wyodrębnia kluczowe cechy, identyfikuje relacje i udoskonala decyzje w procesie zwanym propagacją do przodu. Inny proces zwany propagacją wsteczną stosuje modele, które obliczają błędy i odpowiednio dostosowują wagi i odchylenia systemu. Większość zaawansowanych aplikacji sztucznej inteligencji, takich jak duże modele językowe (LLM) zasilające nowoczesne chatboty, wykorzystuje uczenie głębokie. Wymaga to ogromnych zasobów obliczeniowych.
Modele uczenia maszynowego. Modele generatywne a modele dyskryminacyjne
Jednym ze sposobów rozróżnienia modeli uczenia maszynowego jest ich podstawowa metodologia: większość z nich można sklasyfikować jako generatywne lub dyskryminacyjne. Rozróżnienie polega na sposobie modelowania danych w danej przestrzeni.
Modele generatywne
Algorytmy generatywne, które zwykle wiążą się z nienadzorowanym uczeniem się, modelują rozkład punktów danych, mając na celu przewidywanie łącznego prawdopodobieństwa P(x,y) pojawienia się danego punktu danych w określonej przestrzeni. Generatywny model widzenia komputerowego może w ten sposób identyfikować korelacje, takie jak "rzeczy, które wyglądają jak samochody, zwykle mają cztery koła" lub "oczy raczej nie pojawiają się nad brwiami".
Przewidywania te mogą informować o generowaniu wyników, które model uznaje za wysoce prawdopodobne. Na przykład, model generatywny wytrenowany na danych tekstowych może zasilać sugestie pisowni i autouzupełniania; na najbardziej złożonym poziomie może generować zupełnie nowy tekst. Zasadniczo, gdy duży model językowy (LLM) generuje tekst, oblicza wysokie prawdopodobieństwo, że ta sekwencja słów zostanie złożona w odpowiedzi na podpowiedź, którą otrzymał.
Inne powszechne przypadki użycia modeli generatywnych obejmują syntezę obrazu, kompozycję muzyki, transfer stylu i tłumaczenie języka.
Przykłady modeli generatywnych:
- Modele dyfuzyjne: modele dyfuzyjne stopniowo dodają szum gaussowski do danych treningowych, aż staną się nierozpoznawalne, a następnie uczą się odwróconego procesu "odszumiania", który może syntetyzować dane wyjściowe (zwykle obrazy) z losowego szumu.
- Autoenkodery wariacyjne (Variational autoencoders - VAE): VAE składają się z kodera, który kompresuje dane wejściowe i dekodera, który uczy się odwracać proces i mapować prawdopodobny rozkład danych.
- Modele transformatorowe: Modele transformatorowe wykorzystują techniki matematyczne zwane "uwagą" lub "samo-uwagą" w celu określenia, w jaki sposób różne elementy w serii danych wpływają na siebie nawzajem.
Modele dyskryminacyjne
Algorytmy dyskryminacyjne, które zwykle wiążą się z uczeniem nadzorowanym, modelują granice między klasami danych (lub "granice decyzyjne"), mając na celu przewidywanie warunkowego prawdopodobieństwa P(y|x) danego punktu danych (x) należącego do określonej klasy (y). Model dyskryminacyjny może nauczyć się różnicy między "samochodem" a "nie samochodem", dostrzegając kilka kluczowych różnic (takich jak "jeśli nie ma kół, to nie jest samochodem"), co pozwala mu zignorować wiele korelacji, które musi uwzględnić model generatywny. Modele dyskryminacyjne wymagają zatem mniejszej mocy obliczeniowej niż modele generatywne.
Modele dyskryminacyjne są dobrze dostosowane do zadań klasyfikacyjnych, takich jak analiza nastrojów, ale mają wiele zastosowań. Na przykład, modele drzew decyzyjnych i lasów losowych dzielą złożone procesy decyzyjne na szereg węzłów, w których każdy "liść" reprezentuje potencjalną decyzję klasyfikacyjną.
Przypadki użycia modeli uczenia maszynowego
Podczas gdy modele dyskryminacyjne lub generatywne mogą przewyższać się nawzajem w niektórych rzeczywistych przypadkach użycia, wiele zadań można osiągnąć za pomocą dowolnego typu modelu. Na przykład modele dyskryminacyjne mają wiele zastosowań w przetwarzaniu języka naturalnego (NLP) i często przewyższają generatywną sztuczną inteligencję w zadaniach takich jak tłumaczenie maszynowe (które obejmuje generowanie przetłumaczonego tekstu).
Modele generatywne mogą być wykorzystywane do klasyfikacji przy użyciu twierdzenia Bayesa. Zamiast określać, po której stronie granicy decyzyjnej znajduje się instancja (jak zrobiłby to model dyskryminacyjny), model generatywny mógłby określić prawdopodobieństwo każdej klasy generującej instancję i wybrać tę o wyższym prawdopodobieństwie.
Wiele systemów sztucznej inteligencji wykorzystuje obie te metody w tandemie. Na przykład w generatywnej sieci kontradyktoryjnej model generatywny generuje przykładowe dane, a model dyskryminacyjny określa, czy dane te są "prawdziwe" czy "fałszywe". Dane wyjściowe z modelu dyskryminacyjnego są wykorzystywane do trenowania modelu generatywnego, dopóki dyskryminator nie będzie już w stanie rozpoznać "fałszywych" wygenerowanych danych.
Model sztucznej inteligencji. Modele klasyfikacji a modele regresji
Innym sposobem kategoryzacji modeli jest charakter zadań, do których są wykorzystywane. Większość klasycznych algorytmów modeli AI wykonuje klasyfikację lub regresję. Niektóre nadają się do obu, a większość modeli fundamentalnych wykorzystuje oba rodzaje funkcji.
Terminologia może być czasami myląca. Na przykład regresja logistyczna jest modelem dyskryminacyjnym używanym do klasyfikacji.
Modele regresji
Modele regresji przewidują wartości ciągłe (takie jak cena, wiek, rozmiar lub czas). Są one przede wszystkim wykorzystywane do określenia związku między jedną lub kilkoma zmiennymi niezależnymi (x) a zmienną zależną (y): biorąc pod uwagę x, należy przewidzieć wartość y.
- Algorytmy takie jak regresja liniowa i powiązane warianty, takie jak regresja kwantylowa, są przydatne w zadaniach takich jak prognozowanie, analiza elastyczności cenowej i ocena ryzyka.
- Algorytmy takie jak regresja wielomianowa i regresja wektorów wspierających (SVR) modelują złożone nieliniowe zależności między zmiennymi.
- Niektóre modele generatywne, takie jak autoregresja i autoenkodery wariacyjne, uwzględniają nie tylko korelacyjne związki między przeszłymi i przyszłymi wartościami, ale także związki przyczynowe. Dzięki temu są one szczególnie przydatne do prognozowania scenariuszy pogodowych i przewidywania ekstremalnych zdarzeń klimatycznych.
Modele klasyfikacji
Modele klasyfikacji przewidują wartości dyskretne. W związku z tym są one wykorzystywane przede wszystkim do określenia odpowiedniej etykiety lub kategoryzacji (tj. klasyfikacji). Może to być klasyfikacja binarna - jak "tak lub nie", "akceptuj lub odrzuć" - lub klasyfikacja wieloklasowa (jak silnik rekomendacji, który sugeruje produkt A, B, C lub D).
Algorytmy klasyfikacji znajdują szeroki wachlarz zastosowań, od prostej kategoryzacji po automatyzację ekstrakcji funkcji w sieciach głębokiego uczenia się, po postępy w opiece zdrowotnej, takie jak klasyfikacja obrazów diagnostycznych w radiologii.
Typowe przykłady modele klasyfikacji:
- Naïve bayes: generatywny algorytm uczenia nadzorowanego powszechnie stosowany w filtrowaniu spamu i klasyfikacji dokumentów.
- Liniowa analiza dyskryminacyjna: stosowana do rozwiązywania sprzecznego nakładania się wielu cech, które mają wpływ na klasyfikację.
- Regresja logistyczna: przewiduje ciągłe prawdopodobieństwa, które są następnie wykorzystywane jako zastępstwa dla zakresów klasyfikacji.
Model sztucznej inteligencji. Trenowanie modeli AI
"Uczenie się" w uczeniu maszynowym osiąga się poprzez trenowanie modeli na przykładowych zestawach danych. Probabilistyczne trendy i korelacje dostrzeżone w tych przykładowych zestawach danych są następnie stosowane do wydajności funkcji systemu.
W uczeniu nadzorowanym i pół-nadzorowanym, dane szkoleniowe muszą być starannie oznaczone przez naukowców zajmujących się danymi, aby zoptymalizować wyniki. Biorąc pod uwagę właściwą ekstrakcję cech, uczenie nadzorowane wymaga mniejszej ilości danych treningowych niż uczenie bez nadzoru.
Idealnie byłoby, gdyby modele ML były trenowane na rzeczywistych danych. Intuicyjnie zapewnia to, że model najlepiej odzwierciedla rzeczywiste okoliczności, które ma analizować lub replikować. Jednak poleganie wyłącznie na danych ze świata rzeczywistego nie zawsze jest możliwe, praktyczne lub optymalne.
Zwiększanie rozmiaru i złożoności modelu
Im więcej parametrów ma model, tym więcej danych potrzeba do jego wytrenowania. Wraz ze wzrostem rozmiaru modeli uczenia głębokiego, pozyskiwanie danych staje się coraz trudniejsze. Jest to szczególnie widoczne w przypadku LLM: GPT-3 firmy Open-AI ma ponad 175 miliardów parametrów.
Pomimo wygody, korzystanie z publicznie dostępnych danych może wiązać się z kwestiami regulacyjnymi, takimi jak konieczność anonimizacji danych, a także z kwestiami praktycznymi. Na przykład modele językowe szkolone na wątkach w mediach społecznościowych mogą "uczyć się" nawyków lub nieścisłości, które nie są idealne do użytku korporacyjnego.
Dane syntetyczne oferują alternatywne rozwiązanie: mniejszy zestaw rzeczywistych danych jest wykorzystywany do generowania danych szkoleniowych, które ściśle przypominają oryginał i unikają obaw o prywatność.
Eliminacja stronniczości
Modele uczenia maszynowego trenowane na danych rzeczywistych nieuchronnie wchłoną uprzedzenia społeczne, które zostaną odzwierciedlone w tych danych. Jeśli takie uprzedzenia nie zostaną wyeliminowane, będą one utrwalać i pogłębiać nierówności w każdym obszarze, w którym modele będą wykorzystywane, np. w opiece zdrowotnej, firmach ubezpieczeniowych, zatrudnianiu pracowników. Badania w dziedzinie nauki o danych zaowocowały algorytmami np. FairIJ (FairIJ to uzupełniająca metoda radzenia sobie z uprzedzeniami w modelach fundamentalnych. FairIJ identyfikuje dane treningowe odpowiedzialne za nieuczciwą decyzję sztucznej inteligencji i wyrzuca je, naprawiając model, ponownie bez ponownego szkolenia.) i technikami udoskonalania modeli, np. FairReprogram (FairReprogram to technika, w której naukowcy zmienili przeznaczenie narzędzia do testowania odporności modeli fundamentalnych, aby nauczyć je, jak zapominać o atrybutach grupowych. FairReprogram zasila model niewielkim zestawem możliwych do nauczenia się danych wejściowych - tak zwanych podpowiedzi lub prefiksów - w celu zmiany orientacji modelu.), aby zaradzić nieodłącznym nierównościom w danych.
Overfitting i underfitting
Overfitting to sytuacja, w której model uczenia maszynowego zbyt ściśle dopasowuje się do danych treningowych, powodując, że nieistotne informacje (lub "szum") w przykładowym zbiorze danych wpływają na wydajność modelu. Underfitting to sytuacja, w której model uczenia maszynowego zbyt słabo dopasowuje się do danych treningowych. Underfitting jest jego przeciwieństwem overfitting’u, sytuacji, w której występuje niewłaściwe lub nieodpowiednie szkolenie.
Modele sztucznej inteligencji. Modele podstawowe
Modele podstawowe są również nazywane modelami bazowymi lub modelami wstępnie wytrenowanymi. Modele podstawowe to modele głębokiego uczenia wstępnie wytrenowane na dużych zbiorach danych w celu nauki ogólnych cech i wzorców. Służą one jako punkty startowe, które można dopracować lub dostosować do bardziej specyficznych zastosowań sztucznej inteligencji.
Zamiast budować modele od podstaw, deweloperzy mogą zmieniać warstwy sieci neuronowych, dostosowywać parametry lub dostosowywać architektury do potrzeb specyficznych dla danej domeny. W połączeniu z szerokim i dogłębnym zakresem wiedzy i doświadczenia w dużym i sprawdzonym modelu, pozwala to zaoszczędzić znaczną ilość czasu i zasobów na szkolenie modeli. Modele podstawowe umożliwiają zatem szybszy rozwój i wdrażanie systemów sztucznej inteligencji.
Precyzyjne dostrajanie wstępnie wytrenowanych modeli do specjalistycznych zadań ustąpiło ostatnio miejsca technice dostrajania podpowiedzi, która wprowadza do modelu wskazówki front-end w celu poprowadzenia modelu w kierunku pożądanego rodzaju decyzji lub prognozy.
Modele sztucznej inteligencji. Testowanie modeli AI
Zaawansowane testowanie jest niezbędne do optymalizacji, ponieważ mierzy, czy model jest dobrze wyszkolony, aby rozwiązać zamierzone zadanie. Różne modele i zadania nadają się do różnych metryk i metodologii.
Walidacja krzyżowa
Testowanie wydajności modelu wymaga grupy kontrolnej, aby go ocenić, ponieważ testowanie modelu na samych danych, na których został przeszkolony, może prowadzić do nadmiernego dopasowania. W walidacji krzyżowej części danych szkoleniowych są odkładane na bok lub ponownie próbkowane w celu utworzenia tej grupy kontrolnej. Warianty obejmują metody niewyczerpujące lub metody wyczerpujące.
Metryki modelu klasyfikacji
Te typowe wskaźniki obejmują dyskretne wartości wyników, takie jak:
- Wyniki prawdziwie pozytywne (TP).
- Wyniki prawdziwie negatywne (TN).
- Wyniki fałszywie pozytywne (FP).
- Wyniki fałszywie negatywne (FN).
Metryki modelu klasyfikacji:
- Dokładność to stosunek poprawnych przewidywań do całkowitych przewidywań: (TP+TN) / (TP+TN+FP+FN). Nie działa dobrze w przypadku niezrównoważonych zestawów danych.
- Precyzja mierzy, jak często pozytywne przewidywania są dokładne: TP/(TP+FP).
- Recall mierzy, jak często pozytywne prognozy są skutecznie wychwytywane: TP/(TP+FN).
- Wynik F1 jest średnią harmoniczną precyzji i recall: (2×Precision×Recall)/(Precision+Recall). Równoważy on kompromisy między precyzją (która zachęca do fałszywych negatywów) i przywołaniem (które zachęca do fałszywych pozytywów).
- Macierz pomyłek wizualnie reprezentuje zaufanie (lub pomyłkę) algorytmu dla każdej potencjalnej klasyfikacji.
Metryki modelu regresji
Ponieważ algorytmy regresji przewidują wartości ciągłe, a nie dyskretne, są one mierzone za pomocą różnych metryk, w których "N" reprezentuje liczbę obserwacji. Typowe wskaźniki stosowane do oceny modeli regresji.
- Średni błąd bezwzględny (MAE) mierzy średnią różnicę między wartościami przewidywanymi (ypred) a wartościami rzeczywistymi (yactual) w wartościach bezwzględnych: ∑(ypred - yactual) / N.
- Błąd średniokwadratowy (MSE) podnosi średni błąd do kwadratu, aby agresywnie karać wartości odstające: ∑(ypred - yactual)2 / N.
- Błąd średniokwadratowy (RSME) mierzy odchylenia standardowe w tej samej jednostce co wyniki: √ (∑(ypred - yactual)2 / N).
- Średni bezwzględny błąd procentowy (MAPE) wyraża średni błąd w procentach.
Modele sztucznej inteligencji. Wdrażanie modeli AI
Wdrożenie i uruchomienie modelu sztucznej inteligencji wymaga urządzenia obliczeniowego lub serwera o wystarczającej mocy obliczeniowej i pojemności pamięci masowej. Brak odpowiedniego zaplanowania potoków sztucznej inteligencji i zasobów obliczeniowych może spowodować, że udane prototypy nie wyjdą poza fazę weryfikacji koncepcji.
- Struktury uczenia maszynowego typu open source, takie jak PyTorch, Tensorflow i Caffe2, mogą uruchamiać modele ML za pomocą kilku wierszy kodu.
- Jednostki centralne (CPU) są wydajnym źródłem mocy obliczeniowej dla algorytmów uczenia, które nie wymagają rozbudowanych obliczeń równoległych.
- Procesory graficzne (GPU) mają większą zdolność do przetwarzania równoległego, dzięki czemu lepiej nadają się do ogromnych zbiorów danych i matematycznej złożoności sieci neuronowych głębokiego uczenia.
Źródła:
- OpenAI: openai.com
- AI Now Institute: ainowinstitute.org
- MIT Computer Science and Artificial Intelligence Laboratory (CSAIL): csail.mit.edu
- Google AI: ai.google
- Stanford AI Lab: ai.stanford.edu
- DeepMind (Google): deepmind.com
- AI Hub – NVIDIA: developer.nvidia.com/ai
- Machine Learning Mastery: machinelearningmastery.com
- Wikipedia: wikipedia.org/wiki/