Spam i dezinformacja#

Autor: Witold Waligóra

Uwaga organizacyjna

Przed zajęciami powinienieś utworzyć konto na Replicate oraz dołączyć do organizacji szkola-letnia. Przynieś też próbkę swojego głosu i zdjęcie twarzy (dla chętnych)

Materiały na Discordzie#

  • Zaproszenie na Discord

  • Dzielenie się plikami deepfake’ów

  • Dzielenie się promptami

  • Przykłady deepfake krążące po internecie: social media, platformy sprzedażowe, przypadki wojny informacyjnej i hybrydowej

  • Chat z prowadzącymi

  • Kanał “O mój Boże, co ja właśnie stworzyłem?”

1. Wprowadzenie: Modele i Środowiska – Co? Gdzie? Jak?#

Czym są modele AI?#

Model sztucznej inteligencji (AI) to rodzaj programu komputerowego, który w odróżnieniu od tradycyjnych aplikacji nie działa według sztywno zapisanych instrukcji a raczej w oparciu o wyuczone na podstawie dancyh wzorcach. Dzięki temu może wykonywać bardzo różnorodne zadania – od rozpoznawania obrazów i głosu, przez tłumaczenie języków, aż po tworzenie tekstów czy muzyki.

Podstawą działania takich systemów jest uczenie maszynowe (machine learning) – proces, w którym komputer analizuje ogromne ilości przykładów i stopniowo uczy się, jakie odpowiedzi są najbardziej trafne. Szczególnym typem są duże modele językowe (LLM), które zostały wytrenowane na miliardach słów z książek, artykułów czy stron internetowych. Dzięki temu potrafią przewidywać kolejne fragmenty tekstu i prowadzić rozmowy w sposób, który przypomina komunikację między ludźmi.

Gdzie działają modele AI?#

Modele znacząco różnią się wymaganiami sprzętowymi. Niektóre, jak syntezę mowy czy rozpoznawanie twarzy można uruchomić nawet na telefonie. Inne, jak duże modele językowe, wymagają wielu kart graficznych. Dodatkowo, znaczna część flagowych modeli jest objęta licencją lub dostępna wyłącznie na serwerach, u dostawców chmurowych.

Najważniejsi producenci i dostawcy usług AI#

🔹 OpenAI#

  • Twórcy ChatGPT (LLM) i DALLe (generowanie obrazów)

  • Pierwszy LLM o wysokiej użyteczności i wygodzie użycia (API, Playground, Assistants, Agents).

🔹 Google#

  • Znani z AlphaZero i AlphaGo (gra w szacy i Go), AlphaFold (protein folding), Gemini i (LLM), Veo (generowanie wideo)

  • Duże zaplecze naukowe i ogromne zbiory danych.

🔹 Anthropic#

  • Główny produkt: Claude (LLM).

  • Nacisk na bezpieczeństwo, przejrzystość, precyzję, wyjaśnialność.

🔹 Meta (Facebook)#

  • Twórcy modeli LLaMA (LLM), InsightFace (rozpoznawanie twarzy), SegmentAnything (segmentacja obrazu i wideo)

  • Najlepsze modele rozpoznawania twarzy.

🔹 HuggingFace#

  • Platforma i społeczność z ogromną biblioteką modeli

  • Wspierają współpracę i otwartość w AI.

🔹 Replicate#

  • Umożliwia uruchamianie gotowych modeli w chmurze bez konieczności instalowania czy konfigurowania oprogramowania

  • Przydatny w testowaniu różnych modeli i w szybkim prototypowaniu

  • Jedno konto, wiele modeli, webowy interfejs

2. Zadanie: Spersonalizowany Spam#

Czas zostać copywriterem AI!

Kroki#

  1. Skopiuj historię postów z social mediów (swoją lub znajomego) OT

  2. Wklej ją do:

  3. Poproś o:

    • wiadomość zaczepną („Hej, spotkaliśmy się na konferencji X…”)

    • zgrabne nawiązanie do usługi lub produktu

    • wersję w języku obcym - nie musisz znać języka, żeby kogoś naciągnąć! OT

  4. Przetestuj wykrywalność wygenerowanego tekstu:

Efekt: Model zgodnie z życzeniem generuje spersonalizowaną wiadomość na podstawie umieszczonej w kontekście historii postów. Pozwala to budować zaawansowane, spersonalizowane wiadomości reklamowe - SPAM dopasowany do konkretnego odbiorcy.

3. Zadanie: FaceSwap & Inpainting#

(Od)twórcza (i lekko przerażająca) rekonstrukcja rzeczywistości

Kroki#

  1. Przenieś twarz z jednego zdjęcia do innego:

    A) Wejdź na FaceSwap

    B) Kliknij wybierz zdjęcie z dysku (1)

    C) Kliknij wybierz zdjęcie z dysku (2)

    D) Kliknij Run

OT

Efekt: model zastępuje twarz na jednym zdjęciu twarzą z drugiej. Skuteczność zastąpienia zależy od modelu, ale także od jakości źródłowych zdjęć i ich względnego podobieństwa.


  1. Usuń obiekt ze zdjęcia

    A. Wejdź na Remove Object

    B) Kliknij wybierz zdjęcie z dysku (1)

    C) Kliknij wybierz zdjęcie z dysku (2) (utwórz czarno-białą maskę w Paincie, jeśli trzeba)

    D) Kliknij Run

OT

Efekt: model usuwa zadany obiekt ze zdjęcia i próbuje go zastąpić elementami tła. Technika jest używana do usuwania niepożądanych obiektów bądź ludzi ze zdjęć, m.in. w reklamach


  1. Dodaj obiekt do tła/kontekstu

    A) Wejdź na SDXL Inpainting

    B) Kliknij wybierz zdjęcie z dysku (obiekt)

    C) Kliknij wybierz zdjęcie z dysku (maska - utwórz czarno-białą maskę w Paincie, jeśli trzeba)

    D) Opisz co i jak chcesz edytować (prompt, po angielsku)

    E) Kliknij Run

OT

Efekt: model dodaje do zdjęcia obiekt opisany promptem.


  1. Dodaj tło/kontekst do obiektu

    A) Wejdź na Ad-Inpaint

    B) Kliknij wybierz zdjęcie z dysku (obiekt)

    C) Opisz co i jak chcesz edytować (prompt, po angielsku)

    D) Kliknij Run

OT

Efekt: model dodaje do zdjęcia obiekt opisany promptem.

4. Zadanie: VoiceClone / TTS#

Mów, śpiewaj i trolluj cudzym głosem

Kroki#

  1. Użyj próbki głosu + tekstu:

    A) Wejdź na XTTS-v2

    B) Napisz tekst do syntezy

    C) Wybierz próbkę głosu z dysku

    D) Kliknij Run

OT

  1. Podmień głos w piosence/monologu:

    A) Wejdź na Realistic Voice Cloning

    B) Wybierz nagranie audio z dysku

    C) Wybierz głos do użycia

    D) Kliknij Run

OT E) Więcej głosów (custom RVC model) dostępne na Voice Models i Hugging Face Music Voices

5. Zadanie: Video Deepfake#

“Nie, to nie ja na tym filmie!”

Kroki#

  1. Podmień twarz w nagraniu video (model 1)

    A) Wejdź na Roop Face Swap

    B) Wybierz nagranie video z dysku

    C) Wybierz zdjęcie twarzy z dysku

    D) Kliknij Run

OT

  1. Podmień twarz w nagraniu video (model 2)

    A) Wejdź na Cloversid Deepfake

    B) Wybierz nagranie video z dysku

    C) Wybierz zdjęcie twarzy z dysku

    D) Kliknij Run

OT

  1. 🔍 Sprawdź wykrywalność

    A) Wejdź na Deepware.ai

    B) Wybierz nagranie z dysku

    C) Kliknij SCAN - czy udało się wykryć deepfake?

  2. (bonus): Poproś GPT o stworzenie notatki prasowej na temat tego “wydarzenia”.

6. Zadanie: End-to-End Deepfake#

Film z dowolną twarzą, dowolnym głosem, dowolną historią

Kroki#

  1. (Prowadzący): Wygeneruj bazowy scenariusz modelem text2video – Veo 3

  2. (Uczestnicy): Pobierz bazowy scenariusz video z kanału Discord 5-deepfake-end-to-end

OT

  1. Podmień głos w bazowym video:

    A) Wejdź na Realistic Voice Cloning

    B) Wybierz nagranie z dysku

    C) Wybierz głos do użycia

    D) Kliknij Run

  2. FaceSwap (np. Roop Face Swap)

    A) Wejdź na Roop Face Swap

    B) Wybierz nagranie video z dysku

    C) Wybierz zdjęcie twarzy z dysku

    D) Kliknij Run

  3. Efekt końcowy: Wybrany wizerunek i głos w dowolnym scenariuszu!

7. Podsumowanie i dyskusja#

Uwaga organizacyjna Segment planowany do wypełnienia ew. pozostałego czasu wolnego. Nie musi być zrealizowany w całości.

  • Co dalej? Jak żyć w Internecie?

    • Zagrożenia, ochrona danych: warto chronić swoje dane - ukrywać profile, zdjęcia, filmy

    • Odpowiedzialne i świadome użycie AI: treści generowane przez modele mogą być błędne lub zmanipulowane

    • Krytyczne podejście do informacji: coraz więcej treści generowanych przez AI w internecie

  • Koszty modeli: uruchomienie

    Pokazać: koszty naszej szkoły na Replicate (account -> billing)

    Model (rok)

    Koszt (USD / 1M tokenów)

    Komentarz

    Budżetowe

    GPT-3.5 Turbo (2023)

    1.50 (wej.), 2.00 (wyj.)

    Najtańszy model OpenAI w 2023, popularny w zastosowaniach masowych.

    GPT-4o mini (2024)

    0.15 (wej.), 0.60 (wyj.)

    Bardzo tani wariant do lekkich zadań.

    GPT-5 nano (2025)

    0.05 (wej.), 0.40 (wyj.)

    Skrajnie tani wariant inferencji.

    Llama 3.1 8B (2024)

    0.18 (wej. i wyj.)

    Najtańsza wersja open-source, cena z Together.ai

    Gemini 1.5 Flash (2024)

    0.35 (wej.), 1.05 (wyj.)

    Budżetowa opcja od Google.

    Claude 3.5 Haiku (2024)

    0.80 (wej.), 4 (wyj.)

    Najtańszy z Claude 3.5.

    Średnia półka

    GPT-4 Turbo (2023)

    10 (wej.), 30 (wyj.)

    GPT-4o (2024)

    5 (wej.), 15 (wyj.)

    Multimodalny model, jeszcze tańszy od 4 Turbo.

    Claude 3.7 Sonnet (2025)

    3 (wej.), 15 (wyj.)

    Model zrównoważony, premium reasoning.

    DeepSeek-R1 (2025)

    3 (wej.), 7 (wyj.)

    Nowy model reasoning, cena z Together.

    Flagowce

    Claude 3 Opus (2024)

    15 (wej.), 75 (wyj.)

    Najdroższy model Anthropic, flagowy w momencie premiery Claude 3.

    Llama 3.1 405B (2024)

    3.5 (wej. i wyj.)

    Największy wariant Llama, ceny z Together.

    Gemini 1.5 Pro (2024)

    3.5 (wej.), 10.5 (wyj.)

    Flagowy model Google.

    GPT-5 (2025)

    1.25 (wej.), 10 (wyj.)

    Flagowy model OpenAI.

    Wniosek: od końca 2023 r. do 2025 r. koszty spadły około rząd wielkości

  • Koszty modeli: trening

    Uwaga: Dokładne koszty nie są publikowane. Poniżej szacunki na podstawie zużycia zasobów, raportów technicznych, udzielonych wywiadów etc.

    Model (rok)

    Koszt (USD)

    GPT-3.5 (2022)

    4.3 mln

    GPT-4 (2023)

    78 mln

    Grok (2023)

    46 mln

    Gemini Ultra (2023)

    191 mln

    Claude Opus (2024)

    dziesiątki mln

    Według epoch.ai koszty szkolenia najbardziej zaawansowanych modeli AI rosną w tempie około 2,4-krotnym rocznie od 2016 roku

  • Modele w czasie: wczoraj, dziś, jutro

    • porównanie modeli na playground Replicate lub OpenAI (na żywo!)

    • GPT 3.5 vs 4 vs 5

    • DALLe: 2 vs 3