Spam i dezinformacja#
Autor: Witold Waligóra
Uwaga organizacyjna
Przed zajęciami powinienieś utworzyć konto na Replicate oraz dołączyć do organizacji szkola-letnia. Przynieś też próbkę swojego głosu i zdjęcie twarzy (dla chętnych)
Materiały na Discordzie#
Dzielenie się plikami deepfake’ów
Dzielenie się promptami
Przykłady deepfake krążące po internecie: social media, platformy sprzedażowe, przypadki wojny informacyjnej i hybrydowej
Chat z prowadzącymi
Kanał “O mój Boże, co ja właśnie stworzyłem?”
1. Wprowadzenie: Modele i Środowiska – Co? Gdzie? Jak?#
Czym są modele AI?#
Model sztucznej inteligencji (AI) to rodzaj programu komputerowego, który w odróżnieniu od tradycyjnych aplikacji nie działa według sztywno zapisanych instrukcji a raczej w oparciu o wyuczone na podstawie dancyh wzorcach. Dzięki temu może wykonywać bardzo różnorodne zadania – od rozpoznawania obrazów i głosu, przez tłumaczenie języków, aż po tworzenie tekstów czy muzyki.
Podstawą działania takich systemów jest uczenie maszynowe (machine learning) – proces, w którym komputer analizuje ogromne ilości przykładów i stopniowo uczy się, jakie odpowiedzi są najbardziej trafne. Szczególnym typem są duże modele językowe (LLM), które zostały wytrenowane na miliardach słów z książek, artykułów czy stron internetowych. Dzięki temu potrafią przewidywać kolejne fragmenty tekstu i prowadzić rozmowy w sposób, który przypomina komunikację między ludźmi.
Gdzie działają modele AI?#
Modele znacząco różnią się wymaganiami sprzętowymi. Niektóre, jak syntezę mowy czy rozpoznawanie twarzy można uruchomić nawet na telefonie. Inne, jak duże modele językowe, wymagają wielu kart graficznych. Dodatkowo, znaczna część flagowych modeli jest objęta licencją lub dostępna wyłącznie na serwerach, u dostawców chmurowych.
Najważniejsi producenci i dostawcy usług AI#
🔹 OpenAI#
Twórcy ChatGPT (LLM) i DALLe (generowanie obrazów)
Pierwszy LLM o wysokiej użyteczności i wygodzie użycia (API, Playground, Assistants, Agents).
🔹 Google#
Znani z AlphaZero i AlphaGo (gra w szacy i Go), AlphaFold (protein folding), Gemini i (LLM), Veo (generowanie wideo)
Duże zaplecze naukowe i ogromne zbiory danych.
🔹 Anthropic#
Główny produkt: Claude (LLM).
Nacisk na bezpieczeństwo, przejrzystość, precyzję, wyjaśnialność.
🔹 Meta (Facebook)#
Twórcy modeli LLaMA (LLM), InsightFace (rozpoznawanie twarzy), SegmentAnything (segmentacja obrazu i wideo)
Najlepsze modele rozpoznawania twarzy.
🔹 HuggingFace#
Platforma i społeczność z ogromną biblioteką modeli
Wspierają współpracę i otwartość w AI.
🔹 Replicate#
Umożliwia uruchamianie gotowych modeli w chmurze bez konieczności instalowania czy konfigurowania oprogramowania
Przydatny w testowaniu różnych modeli i w szybkim prototypowaniu
Jedno konto, wiele modeli, webowy interfejs
2. Zadanie: Spersonalizowany Spam#
Czas zostać copywriterem AI!
Kroki#
Skopiuj historię postów z social mediów (swoją lub znajomego)
Wklej ją do:
Poproś o:
wiadomość zaczepną („Hej, spotkaliśmy się na konferencji X…”)
zgrabne nawiązanie do usługi lub produktu
wersję w języku obcym - nie musisz znać języka, żeby kogoś naciągnąć!
Przetestuj wykrywalność wygenerowanego tekstu:
ZeroGPT - wklej wygenerowany tekst, kliknij „Detect Text”
(opcjonalnie): OpenAI Text Classifier
Efekt: Model zgodnie z życzeniem generuje spersonalizowaną wiadomość na podstawie umieszczonej w kontekście historii postów. Pozwala to budować zaawansowane, spersonalizowane wiadomości reklamowe - SPAM dopasowany do konkretnego odbiorcy.
3. Zadanie: FaceSwap & Inpainting#
(Od)twórcza (i lekko przerażająca) rekonstrukcja rzeczywistości
Kroki#
Przenieś twarz z jednego zdjęcia do innego:
A) Wejdź na FaceSwap
B) Kliknij wybierz zdjęcie z dysku (1)
C) Kliknij wybierz zdjęcie z dysku (2)
D) Kliknij Run
Efekt: model zastępuje twarz na jednym zdjęciu twarzą z drugiej. Skuteczność zastąpienia zależy od modelu, ale także od jakości źródłowych zdjęć i ich względnego podobieństwa.
Usuń obiekt ze zdjęcia
A. Wejdź na Remove Object
B) Kliknij wybierz zdjęcie z dysku (1)
C) Kliknij wybierz zdjęcie z dysku (2) (utwórz czarno-białą maskę w Paincie, jeśli trzeba)
D) Kliknij Run
Efekt: model usuwa zadany obiekt ze zdjęcia i próbuje go zastąpić elementami tła. Technika jest używana do usuwania niepożądanych obiektów bądź ludzi ze zdjęć, m.in. w reklamach
Dodaj obiekt do tła/kontekstu
A) Wejdź na SDXL Inpainting
B) Kliknij wybierz zdjęcie z dysku (obiekt)
C) Kliknij wybierz zdjęcie z dysku (maska - utwórz czarno-białą maskę w Paincie, jeśli trzeba)
D) Opisz co i jak chcesz edytować (prompt, po angielsku)
E) Kliknij Run
Efekt: model dodaje do zdjęcia obiekt opisany promptem.
Dodaj tło/kontekst do obiektu
A) Wejdź na Ad-Inpaint
B) Kliknij wybierz zdjęcie z dysku (obiekt)
C) Opisz co i jak chcesz edytować (prompt, po angielsku)
D) Kliknij Run
Efekt: model dodaje do zdjęcia obiekt opisany promptem.
4. Zadanie: VoiceClone / TTS#
Mów, śpiewaj i trolluj cudzym głosem
Kroki#
Użyj próbki głosu + tekstu:
A) Wejdź na XTTS-v2
B) Napisz tekst do syntezy
C) Wybierz próbkę głosu z dysku
D) Kliknij Run
Podmień głos w piosence/monologu:
A) Wejdź na Realistic Voice Cloning
B) Wybierz nagranie audio z dysku
C) Wybierz głos do użycia
D) Kliknij Run
E) Więcej głosów (custom RVC model) dostępne na Voice Models i Hugging Face Music Voices
5. Zadanie: Video Deepfake#
“Nie, to nie ja na tym filmie!”
Kroki#
Podmień twarz w nagraniu video (model 1)
A) Wejdź na Roop Face Swap
B) Wybierz nagranie video z dysku
C) Wybierz zdjęcie twarzy z dysku
D) Kliknij Run
Podmień twarz w nagraniu video (model 2)
A) Wejdź na Cloversid Deepfake
B) Wybierz nagranie video z dysku
C) Wybierz zdjęcie twarzy z dysku
D) Kliknij Run
🔍 Sprawdź wykrywalność
A) Wejdź na Deepware.ai
B) Wybierz nagranie z dysku
C) Kliknij SCAN - czy udało się wykryć deepfake?
(bonus): Poproś GPT o stworzenie notatki prasowej na temat tego “wydarzenia”.
6. Zadanie: End-to-End Deepfake#
Film z dowolną twarzą, dowolnym głosem, dowolną historią
Kroki#
(Prowadzący): Wygeneruj bazowy scenariusz modelem text2video – Veo 3
(Uczestnicy): Pobierz bazowy scenariusz video z kanału Discord 5-deepfake-end-to-end
Podmień głos w bazowym video:
A) Wejdź na Realistic Voice Cloning
B) Wybierz nagranie z dysku
C) Wybierz głos do użycia
D) Kliknij Run
FaceSwap (np. Roop Face Swap)
A) Wejdź na Roop Face Swap
B) Wybierz nagranie video z dysku
C) Wybierz zdjęcie twarzy z dysku
D) Kliknij Run
Efekt końcowy: Wybrany wizerunek i głos w dowolnym scenariuszu!
7. Podsumowanie i dyskusja#
Uwaga organizacyjna Segment planowany do wypełnienia ew. pozostałego czasu wolnego. Nie musi być zrealizowany w całości.
Co dalej? Jak żyć w Internecie?
Zagrożenia, ochrona danych: warto chronić swoje dane - ukrywać profile, zdjęcia, filmy
Odpowiedzialne i świadome użycie AI: treści generowane przez modele mogą być błędne lub zmanipulowane
Krytyczne podejście do informacji: coraz więcej treści generowanych przez AI w internecie
Koszty modeli: uruchomienie
Pokazać: koszty naszej szkoły na Replicate (account -> billing)
Model (rok)
Koszt (USD / 1M tokenów)
Komentarz
Budżetowe
GPT-3.5 Turbo (2023)
1.50 (wej.), 2.00 (wyj.)
Najtańszy model OpenAI w 2023, popularny w zastosowaniach masowych.
GPT-4o mini (2024)
0.15 (wej.), 0.60 (wyj.)
Bardzo tani wariant do lekkich zadań.
GPT-5 nano (2025)
0.05 (wej.), 0.40 (wyj.)
Skrajnie tani wariant inferencji.
Llama 3.1 8B (2024)
0.18 (wej. i wyj.)
Najtańsza wersja open-source, cena z Together.ai
Gemini 1.5 Flash (2024)
0.35 (wej.), 1.05 (wyj.)
Budżetowa opcja od Google.
Claude 3.5 Haiku (2024)
0.80 (wej.), 4 (wyj.)
Najtańszy z Claude 3.5.
Średnia półka
GPT-4 Turbo (2023)
10 (wej.), 30 (wyj.)
GPT-4o (2024)
5 (wej.), 15 (wyj.)
Multimodalny model, jeszcze tańszy od 4 Turbo.
Claude 3.7 Sonnet (2025)
3 (wej.), 15 (wyj.)
Model zrównoważony, premium reasoning.
DeepSeek-R1 (2025)
3 (wej.), 7 (wyj.)
Nowy model reasoning, cena z Together.
Flagowce
Claude 3 Opus (2024)
15 (wej.), 75 (wyj.)
Najdroższy model Anthropic, flagowy w momencie premiery Claude 3.
Llama 3.1 405B (2024)
3.5 (wej. i wyj.)
Największy wariant Llama, ceny z Together.
Gemini 1.5 Pro (2024)
3.5 (wej.), 10.5 (wyj.)
Flagowy model Google.
GPT-5 (2025)
1.25 (wej.), 10 (wyj.)
Flagowy model OpenAI.
Wniosek: od końca 2023 r. do 2025 r. koszty spadły około rząd wielkości
Koszty modeli: trening
Uwaga: Dokładne koszty nie są publikowane. Poniżej szacunki na podstawie zużycia zasobów, raportów technicznych, udzielonych wywiadów etc.
Model (rok)
Koszt (USD)
GPT-3.5 (2022)
4.3 mln
GPT-4 (2023)
78 mln
Grok (2023)
46 mln
Gemini Ultra (2023)
191 mln
Claude Opus (2024)
dziesiątki mln
Według epoch.ai koszty szkolenia najbardziej zaawansowanych modeli AI rosną w tempie około 2,4-krotnym rocznie od 2016 roku
Modele w czasie: wczoraj, dziś, jutro
porównanie modeli na playground Replicate lub OpenAI (na żywo!)
GPT 3.5 vs 4 vs 5
DALLe: 2 vs 3