Łukasz Andrzejewski CP
SZTUCZNA INTELIGENCJA W PRACY SEKRETARIATU ZAKONNEGO
Spotkanie sekretarzy zakonnych podczas SacroExpo 2025
AI – teoria w pigułce
Początki badań nad AI sięgają lat 50. XX wieku, gdy Alan Turing zaproponował ideę maszyny zdolnej do naśladowania ludzkiego myślenia. W 1956 roku na konferencji w Dartmouth narodziła się sama nazwa „sztuczna inteligencja”. Przez kolejne dekady rozwój napędzały głównie symboliczne metody wnioskowania (tzw. AI klasyczne), ale napotykały one na problemy związane z przetwarzaniem nieprecyzyjnych czy niepełnych danych.
Test Turinga
W 1950 roku Turing zaproponował eksperyment, w którym badacz prowadzi rozmowę przez terminal z dwiema niewidocznymi istotami – człowiekiem i maszyną. Jeżeli obserwator (sędzia) nie jest w stanie stwierdzić, która strona to komputer, uznaje się, że maszyna „myśli”. Choć test wzbudzał i nadal wzbudza kontrowersje (m.in. krytykę Johna Searle’a i eksperymenty typu „ELIZA”), pozostaje jednym z symboli dążeń AI.
Głębokie uczenie
Głębokie uczenie (Deep Learning) to poddziedzina uczenia maszynowego, która wykorzystuje wielowarstwowe sieci neuronowe inspirowane budową mózgu. Każda warstwa automatycznie wyodrębnia coraz bardziej złożone cechy z danych (np. z obrazów czy dźwięków). Przełom nastąpił około 2012 roku, gdy sieci konwolucyjne znacząco poprawiły wyniki w rozpoznawaniu obrazów.
Duże modele językowe (LLM)
Duże modele językowe, takie jak GPT-3 czy GPT-4, są trenowane na ogromnych zbiorach tekstu. Uczą się w nich zależności statystycznych między słowami, co pozwala im generować spójne, często trudno odróżnialne od ludzkiego teksty. Kluczowa technika to transformery – architektura potrafiąca efektywnie uwzględniać kontekst na bardzo długich sekwencjach wejściowych.
Dalsze kierunki rozwoju AI
- Uczenie wielozadaniowe (multitask): jeden model do różnych zadań (tekst, obraz, dźwięk).
- AI wyjaśnialna (XAI): zwiększanie przejrzystości decyzji modelu, ważne w sektorach medycznym czy prawnym.
- Efektywność energetyczna: optymalizacja algorytmów i sprzętu, by zmniejszyć zużycie prądu.
- Integracja z robotyką: zastosowanie AI w autonomicznych pojazdach i robotach usługowych.
Praktyczne zastosowania
- Medycyna: wspomaganie diagnozy obrazowej (RTG, MRI), personalizacja terapii.
- Finanse: analiza ryzyka kredytowego, wykrywanie oszustw.
- Produkcja: predictive maintenance – przewidywanie awarii maszyn, optymalizacja linii produkcyjnych.
- Obsługa klienta: chatboty i wirtualne asystenty dostępne 24/7.
- Edukacja: systemy do adaptacyjnego nauczania i automatycznego sprawdzania prac.
Ważna uwaga
Duże modele językowe to potężne narzędzia do generowania tekstu, ale nadal operują na statystycznych skojarzeniach, nie na rozumieniu czy weryfikacji faktów. Z tego powodu mogą popełniać błędy i „fantazjować” – zawsze warto traktować ich odpowiedzi krytycznie i, gdy to możliwe, weryfikować informacje w wiarygodnych źródłach.
Praktyczne zastosowania
- Programy do optycznego rozpoznawania tekstu (ang. Optical Character Recognition – OCR) to narzędzia służące do rozpoznawania tekstu na obrazach i dokumentach zeskanowanych. Dzięki algorytmom przetwarzania obrazu i wzorców liter potrafią zamienić zdjęcia lub skany stron z drukowanym bądź odręcznym pismem na edytowalny tekst cyfrowy. Są wykorzystywane m.in. w archiwizacji dokumentów, automatycznym wprowadzaniu danych czy tłumaczeniach maszynowych.
- iText – OCR Tool (https://en.toolinbox.net/iText/) Mac OS – wykorzystuje system rozpoznawania tekstu od Google, w wersji bezpłatnej limit ilości przetłumaczonych znaków wystarczający do codziennego wykorzystania.
- ABBYY FineReader – program uznawany za najlepszy w tej dziedzinie, jednak bardzo kosztowny (roczna subskrypcja to koszt około 500 zł za stanowisko)
- Tesseract OCR – silnik open-source, wykorzystywany też w wielu komercyjnych aplikacjach; dostępny z GUI typu gImageReader – do pobrania na różne platformy dla bardziej doświadczonych użytkowników z GitHub’a
- Microsoft Office Lens – aplikacja na telefony służąca do skanowania (https://support.microsoft.com/pl-pl/office/microsoft-office-lens-dla-systemu-android-ec124207-0049-4201-afaf-b5874a8e6f2b)
- Rozpoznawanie i generowanie mowy
- MacWhisper – program do konwersji nagrań audio na tekst. Działa lokalnie na komputerze. Do wyboru kilka opcji wielkości modelu rozpoznawania mowy: mniejsze działają szybciej, ale mniej dokładnie, większe oferują bardzo dużą dokładność, jednak konwersja trwa dłużej. MacOS, wersja bezpłatna tylko mniejsze modele, wersja płatna 59EUR (https://goodsnooze.gumroad.com/l/macwhisper/lovelyfriends)
- Vibe – to co wyżej w wersji na różne platformy (https://thewh1teagle.github.io/vibe/)
- JustPress Record – dyktafon na iOS z funkcją transkrypcji tekstu. Podobne aplikacje można znaleźć łatwo na inne platformy. Niektóre telefony a androidem oferują taką funcie domyślnie. Niestety Apple jeszcze nie odkryło języka polskiego (https://www.openplanetsoftware.com/just-press-record/).
- Eleven reader i Eleven labs – programy do zamieniania tekstu pisanego na mowę (wirtualny lektor). (https://elevenreader.io/; https://elevenlabs.io/pl)
- Prezentacje i edytory telstu
- Office 365 – zawiera wiele narzędzi AI pomagających w trorzeniu prezentacji i redagowaniu tekstów. Pomocna może być funkcja Copilot, która jest chatbotem od Microsoftu. (https://www.office.com/)
- Google Workspace – pakiet Office od Googl’e z funkcjami AI (https://workspace.google.com/intl/pl/)
- Genspark – chatbot do przygotowywania edytowalnych prezentacji (i nie tylko) za pomocą komend w języku naturalnym (https://www.genspark.ai/)
- Chatboty – Chatbot to program komputerowy, który dzięki przetwarzaniu języka naturalnego potrafi rozumieć pytania użytkownika i generować na nie adekwatne odpowiedzi – tekstowe lub głosowe. Mogą być bardzo przydatne w redagowaniu tekstów, przygotowywaniu podsumowań, prezentacji, generowaniu raportów, porównań tekstów pisanych w różnych językach etc… Niektóre modele oferują (najczęściej w wersji płatnej) opcję „głębokiego badania”. Jest to tryb pracy, w którym bot przeprowadza wieloetapową analizę zagadnienia, dopytuje o kontekst, korzysta z zewnętrznych źródeł i łączy wyniki w skondensowany raport, zapewniając bardziej szczegółowe i zweryfikowane odpowiedzi. Zachęcam do eksperymentowania.
- ChatGPT – najbardziej popularny, wersja bezpłatna pozwalana na większość okazjonalnych zastosowań (https://chatgpt.com/)
- Grok – chatbot od Elona Muska, darmowy (https://grok.com/)
- Copilot – chatbot od Microsoftu wbudowany w Office 365 oraz dostępny jako rozszerzenie do przeglądarek i część systemu Windows.
- Poe – strona zbierająca różne chatboty, po wykupieniu tokenów możemy korzystać z funkcji płatnych różnych wersji chatbotów. Może posłużyć do uczenia się, eksperymentowania oraz wybrania najlepszych rozwiązań. Tokeny wykupujemy na miesiąc lub rok, a ich liczba resetuje się codziennie (https://poe.com/) .
- Praca z obrazami
- Canva – portal umożliwiający tworzenie profesjonalnych grafik, prezentacji, a nawet plików do druku w drukarniach cyfrowych (wersja płatna) przy niewielkim nakładzie pracy. Korzystać możemy w tysięcy szablonów oraz sztucznej inteligencji. Umożliwia podobnie jak inne narzędzia generowanie obrazów na podstawie opisów. (https://www.canva.com/)
- Programy do zwiększania rozdzielczości obrazów (obecnie wiele edytorów na to pozwala). Jako przykład podaję te dotępne on-line: https://imglarger.com/; https://www.iloveimg.com/
- Tłumaczenia DeepL to zaawansowany internetowy system tłumaczeń oparty na sieciach neuronowych (Neural Machine Translation). Wyróżnia się na tle innych translatorów następującymi cechami:
- Jakość tłumaczeń
– Wykorzystuje głębokie sieci transformatorowe zoptymalizowane pod kątem naturalnej płynności i dokładności.
– Dzięki analizie kontekstu zdań generuje bardziej spójne i „ludzkie” tłumaczenia niż tradycyjne systemy statystyczne czy proste NMT.
- Zaawansowana obsługa stylu i rejestru
– Pozwala wybierać ton wypowiedzi (formalny versus nieformalny) lub dopasować styl do konkretnego celu (np. e-mail, raport).
– Lepiej radzi sobie z idiomami i zwrotami charakterystycznymi dla danego języka.
- Szeroki zakres formatów i integracji
– Tłumaczy nie tylko pojedyncze zdania, lecz także całe dokumenty (Word, PDF, PowerPoint) z zachowaniem układu.
– Oferuje API do integracji z aplikacjami firmowymi, wtyczki do przeglądarek i pakietów biurowych.
- Stałe uczenie i adaptacja
– Model DeepL jest regularnie aktualizowany na podstawie nowych danych i opinii użytkowników, co pozwala mu poprawiać tłumaczenia w miarę upływu czasu.
– Integracja z korpusem Linguee umożliwia weryfikację przykładów użycia w autentycznych tekstach.
- Prywatność i bezpieczeństwo
– W wersjach płatnych gwarantuje, że treści nie są przechowywane ani wykorzystywane do dalszego trenowania modeli, co bywa istotne w zastosowaniach biznesowych.
- W porównaniu do innych popularnych narzędzi (np. Google Translate, Microsoft Translator), DeepL zwykle oferuje bardziej naturalne brzmienie i lepsze odwzorowanie niuansów językowych, zwłaszcza w parze języków europejskich.
- https://www.deepl.com/pl/translator
- Wersja bezpłatna wystarczy do większości podstawowych zastosowań, jednak jeśli ktoś przygotowuje wiele tłumaczeń, często korzysta z translatora warto rozważyć wersję płatną.
Zagrożenia
Modele sztucznej inteligencji, zwłaszcza duże modele językowe, niosą ze sobą szereg ryzyk związanych z ochroną danych osobowych. Dlatego należy bezwzględnie uważać na to co udostępniamy modelom – zwłaszcza w kontekście danych osobowych. Do najważniejszych należą:
- Wycieki i eksfiltracja danych – w trakcie treningu i inferencji modele mogą niechcący ujawniać fragmenty wrażliwych danych, jeśli były one częścią zbioru treningowego (tzw. „data leakage”).
- Ataki inwersji modelu – z analizy odpowiedzi modelu można odtworzyć część danych treningowych (np. prywatne e-maile lub fragmenty dokumentów).
- Re-identyfikacja – pozornie zanonimizowane dane można połączyć z innymi źródłami (np. demograficznymi) i odsłonić tożsamość osoby.
- „Privacy zuckering” (ciemne wzorce) – niejasne czy ukryte mechanizmy zgody na wykorzystanie danych mogą skłaniać użytkowników do nieświadomego udostępniania informacji.
- Biometryczne nadużycia – firmy, takie jak Clearview AI, zbierały i przetwarzały zdjęcia twarzy bez zgody, co jest niezgodne z wymogami RODO.
Koszty (wygenerowane przez ChatGPT)
Korzystanie z zaawansowanych chatbotów jest płatne ze względu na wysokie nakłady na infrastrukturę, rozwój i utrzymanie usług AI. Oto główne czynniki wpływające na koszty:
- Obliczenia w chmurze (inference)
Każde zapytanie do modelu wymaga przetworzenia tysięcy–milionów „tokenów” (słów lub ich fragmentów) na potężnych GPU/TPU, co generuje znaczące zużycie energii i opłaty za czas maszyn w chmurze
[Moja uwaga: każde słowo wysłane do Chatbota jest przetwarzane, należy więc unikać zwrotów grzecznościowych, np. próśb, podziękowań – generują one niepotrzebne zużycie zasobów. Natomiast warto jak najdokładniej opisać kwestię, o którą nam chodzi, nasz przedmiot analizy]
- Trening i aktualizacje
Szkolenie (fine-tuning) nowoczesnych modeli na setkach miliardów parametrów trwa tygodnie na wyspecjalizowanym sprzęcie, co oznacza milionowe rachunki za sprzęt, prąd i chmurę.
- Przechowywanie i transfer danych
Modele oraz ogromne zbiory danych treningowych muszą być bezpiecznie przechowywane, a każde pobranie czy zapis pliku generuje dodatkowe opłaty za pamięć i pasmo.
- Wynagrodzenia zespołów
Inżynierowie ML, badacze, specjaliści od NLP i DevOps to wysoko wykwalifikowani pracownicy – ich praca przy rozwoju, testach i wsparciu technicznym również wlicza się w cenę usługi.
Przykładowe modele monetyzacji i stawki
| Rodzaj usługi | Plan / Model | Cena | Źródło |
| ChatGPT Plus | subskrypcja miesięczna | $20 / miesiąc | openai.com |
| ChatGPT Pro | subskrypcja miesięczna | $200 / miesiąc (nielimitowany dostęp do GPT-4o itd.) | techcrunch.com |
| API GPT-4.1 | inference pay-as-you-go | $2.00 / 1 M tokenów (wejście) |
Dlaczego abonament, a nie tylko darmowy dostęp?
- Skalowalność i gwarancja jakości – płatne plany umożliwiają dostęp do mocniejszych, mniej obciążonych instancji modelu (np. GPT-4 zamiast GPT-3.5), z niższymi opóźnieniami i większym limitem tokenów.
- Bezpieczeństwo i prywatność – w płatnych wersjach (Enterprise, Pro) dane użytkowników nie są wykorzystywane do trenowania modeli, a komunikacja jest szyfrowana zgodnie z rygorystycznymi normami.
- Wsparcie i integracje – abonament obejmuje priorytetowe wsparcie techniczne, SLA, dostęp do API, wtyczek oraz narzędzi analitycznych.
Źródła
- Podstawy – https://www.youtube.com/watch?v=S_WuZTLTBNU
- https://www.youtube.com/watch?v=lflB_KuvEIU
- Wyjaśnienie różnic między modelami ChatGPT https://www.youtube.com/watch?v=BrCVn3zpulI&list=WL&index=7&t=13s
- Startuj AI – kanał z filmami o różnych modelach ai – https://www.youtube.com/@StartujAI
- Różne narzędzia z przykładami zastosowań – https://www.youtube.com/watch?v=XZcBBLG4L2Y&list=WL&index=8
- https://www.youtube.com/watch?v=HMtfBCcjMKw
- Przykłady promptów (poleceni dla chatbota) – https://www.youtube.com/watch?v=WLn5qera14o
- https://www.youtube.com/watch?v=7QgNYk1LmxY
- Perplexity – https://www.youtube.com/watch?v=ULDYWWteHuA&list=WL&index=4&t=1s
- Omówienie różnych narzędzi AI – https://www.youtube.com/watch?v=JVVpoDVgSDA
- https://www.youtube.com/watch?v=TnFSR7uRmGY
- Tworzenie wideo – https://www.youtube.com/watch?v=lHqrUCsDJnw
Na koniec.
Nie bój się eksperymentować. Pamiętaj, że nie rozmawiasz z człowiekiem, a z komputerem, który do udzielenia odpowiedzi posługuje się zaawansowaną matematyką i statystyką. W internecie znajdziesz wiele dobrej jakości materiałów i narzędzi, które mogą uprościć twoją codzienną pracę. Korzystaj z nich jednak z głową, zwłaszcza w kontekście przetwarzania wrażliwych danych.
