Sztuczna inteligencja – posłuszne narzędzie czy zagrożenie? Wesprze czy odbierze ludziom pracę i oduczy myślenia?

Zawsze się boimy, kiedy następuje jakaś rewolucja. Sztuczną inteligencję musimy najpierw poznać, musimy się dotrzeć. Ale jeszcze wiele przed nami, zanim całkowicie stracimy nad nią kontrolę.

Grzegorz Milko, Dominika Bucholc

Proszę wyjaśnić, o co chodzi z czatem GPT, bo sztuczna inteligencja powszechnie nas teraz atakuje i chyba wszyscy uczymy się z nią żyć.

Wiele osób utożsamia czat GPT z AI, a to jest dużo szerszy temat i naukowcy sami się spierają, czym AI jest. To pojęcie pojawiło się w latach 70. XX wieku i łączy wiele różnych wątków. Społeczeństwo poznało tę technologię bliżej w listopadzie zeszłego roku, kiedy to czat GPT został wypuszczony na rynek i ludzie mogli z niego swobodnie korzystać. (…)

Jak z niego korzystać, żeby był pomocny i nie zapędzał nas w kozi róg?

To, co wychodzi źle, to są tak zwane halucynacje. Czyli czat, zamiast powiedzieć, że nie zna odpowiedzi, że nie wie, w pierwszym momencie stara się coś wymyślić. Wtedy warto mu powiedzieć: jak nie wiesz, to nie pisz.

Natomiast użycie czatu może nam pomóc w wielu sprawach, na przykład w zorganizowaniu podróży.

Chcemy lecieć do Włoch na wakacje i nie wiemy, jak się za to zabrać. Wystarczy mu powiedzieć, w ile osób się wybieramy, czy chcemy zwiedzać zabytki, może galerie sztuki, jakie jedzenie lubimy – czat wszystko jest w stanie zaplanować, łącznie z budżetem, środkami transportu.

Może nam pomóc w sprawach codziennych i w bardziej zaawansowanych, np. w tworzeniu biznesplanów, w automatyzacji marketingu, obliczaniu danych z tabel – jest w stanie nam wiele kwestii wygenerować, a jest to tylko model językowy. Sztuczna inteligencja jest czymś dużo szerszym, bo obejmuje też grafiki, sferę audio, video… (…)

Jak widzi Pani ewolucję czatu GPT i innych technologii sztucznej inteligencji w przyszłości? Czy rzeczywiście możemy się bać zastępowania ludzi? Bo kiedy roboty zaczęły wchodzić do przedsiębiorstw elektronicznych, samochodowych i innych branż, nagle się okazało, że człowiek nie jest potrzebny.

Tak i nie. Zawsze się boimy, kiedy następuje jakaś rewolucja.

Weźmy automatyzację rolnictwa. Dzisiaj chyba żaden rolnik już sobie nie wyobraża, żeby sam musiał obrobić całe pole, bez użycia chociażby traktora. Wchodziły komputery, też ludzie się ich bali, bo przecież maszyny do pisania były wystarczające.

Teraz tak jest z tą nową technologią. Musimy ją poznać, musimy się dotrzeć. Ale jeszcze wiele przed nami, zanim całkowicie stracimy nad nią kontrolę. Na razie musimy uregulować bardzo palące kwestie prawne, kwestie etyki ich stosowania, np. w szkolnictwie, bo np. już nie ma sensu pisać esejów w szkole czy na uczelni, skoro czat wygeneruje nam esej w 30 sekund. (…)

Pani z nim rozmawia?

Często. Sprawdzam, czy coś zmienił, czy się uczy na tym, co do niego mówię, kiedy zadaję mu jakieś zagadki logiczne.

Wersja podstawowa sobie średnio radzi, bo ostatnio pytałam go, ile PSI – to jest miara ciśnienia w oponach – powinnam w oponę wpompować. I on mi odpowiedział, że jeżeli pies – PSI – znajduje się w oponie, to powinnam jak najszybciej zatrzymać rower i uwolnić psa, bo to jest niebezpieczne i dla mnie, i dla psa. Więc czasami sobie radzi, czasami nie.

Bystry jest, miał rację! Przecież trzeba psa ratować.

Czat nie potrafi też liczyć. Możemy go nauczyć liczyć, w pewien sposób rozumować, ale model sam w sobie nie jest nauczony liczenia. I w żartach jest bardzo słaby – nie ma poczucia humoru. Nie czuje też kwestii etyki, wartości moralnych, które mamy my, ludzie. Profesor Nick Bostrom przeprowadził pewien eksperyment. Poprosił sztuczną inteligencję o zmaksymalizowanie liczby spinaczy na świecie. Czat zaproponował, że zabije wszystkich ludzi, żeby z mięśni i kości zrobić spinacze – których nie miałby już przecież kto używać. Kiedy nauczyli go, że nie zabijamy ludzi – to jest norma, nasza wartość – to postanowił wyciąć wszystkie drzewa na świecie, bo nie pomyślał, że potrzebujemy tlenu.

Dlatego nie musimy się jeszcze panicznie bać sztucznej inteligencji. To jest bardzo szeroki temat i trzeba położyć nacisk na tę sztuczność. Inteligencja jest cechą ludzką i całość naszej inteligencji sprawia, że to, co robimy w życiu, jest ważne i ciekawe. A inteligencją sztuczną możemy się wspierać, ale to jeszcze nie jest moment, w którym ona nas zastąpi.

Cała rozmowa Grzegorza Milko z Dominiką Bucholc pt. „Jeszcze nie czas bać się sztucznej inteligencji”, znajduje się na s. 28 lipcowego Kuriera WNET” nr 109/2023.

 


  • Lipcowy numer „Kuriera WNET” można nabyć kioskach sieci RUCH, Garmond Press i Kolporter oraz w Empikach w cenie 9 zł.
  • Wydanie elektroniczne jest dostępne w cenie 7,9 zł pod adresami: egazety.pl, nexto.pl lub e-kiosk.pl. Prenumerata 12-miesięczna wersji elektronicznej: 87,8 zł.
  • Czytelnicy gazety za granicą mogą zapłacić za nią PayPalem lub kartą kredytową na serwisie gumroad.com.
  • Wydania archiwalne „Kuriera WNET” udostępniamy gratis na www.issuu.com/radiownet.
Rozmowa Grzegorza Milko z Dominiką Bucholc pt. „Jeszcze nie czas bać się sztucznej inteligencji” na s. 28 lipcowego „Kuriera WNET” nr 109/2023

Premiera Diablo IV. Bojarski: mamy już do czynienia z kopiowaniem wcześniejszych, lepszych wersji

Konsola do gry / Fot. Pixher, CC0

Gry komputerowe niosą za sobą pewne zagrożenia, ale rodzice nie powinni ich od razu zakazywać – mówi gość „Popołudnia Wnet”.

Wysłuchaj całej rozmowy już teraz!

Zmiana interfejsu Wikipedii. Grabarczuk: chcieliśmy go dostosować do potrzeb współczesnego użytkownika

Dominika Bucholc: sztuczna inteligencja w obecnym wydaniu nie jest w stanie zabrać nam pracy

Dominika Bucholc / Fot. Mikołaj Murkociński

Dzisiaj ChatGPT jeszcze halucynuje, czyli generuje wiele błędów – mówi ekspertka ds. sztucznej inteligencji.

Wysłuchaj całej rozmowy już teraz!

Konwersacja Lecha Rusteckiego ze sztuczną inteligencją za pomocą modelu językowego GPT-3 / „Kurier WNET” nr 104/2023

Ekwadorski palentolog i kubańskie paliwo z plastiku – Trzy po Trzy / Tres por Tres – 04.05.2023

W tym wydaniu audycji m.in. o wizji Wielkiej Kolumbii według sztucznej inteligencji, megamoście w Chile oraz drogach w kosmowizji prekolumbijskiej

A także sylwetka Clodoveo Carrión Mora – wybitnego ekwadorskiego palentologa i entomologa, amatorska produkcja paliwa z plastiku na Kubie oraz problemy podczas publicznego wykonania hymnu Meksyku.

Zapraszamy do wysłuchania audycji!

Wodny grabieżca – ChatGPT.

Wodny grabieżca – ChatGPT W czasach walki z ociepleniem klimatu, chociaż to stwierdzenie coraz rzadziej używane jest przez świat nauki i ten, który prowadzi nas na skraj energetycznej przepaści, czyli polityki, mówi się o walce o środowisko, żeby temat rozciągną i trochę go rozmyć. To z kolei daje wielkie pole manewru, bo przecież w aspekt […]

Wodny grabieżca – ChatGPT

W czasach walki z ociepleniem klimatu, chociaż to stwierdzenie coraz rzadziej używane jest przez świat nauki i ten, który prowadzi nas na skraj energetycznej przepaści, czyli polityki, mówi się o walce o środowisko, żeby temat rozciągną i trochę go rozmyć.

To z kolei daje wielkie pole manewru, bo przecież w aspekt środowiskowy można wtłoczyć wszystko, czego tylko polityczna dusza zapragnie, a i nie będzie niczym nadzwyczajnym przemycenie w tym całym tzw. oczyszczającym planetę zamieszaniu, ukrycie prób ograniczenia swobód obywatelskich, co nawiasem mówiąc, poniekąd już się dzieje.

To też kwestia zastanawiająca, przynajmniej obserwatorów wydarzeń w skali światowej, ponieważ niewiele osób reaguje na coraz nowsze wydumki tuzów polityki, a to oni kształtują nasz los, choć na naszą własną prośbę, bo to my ich wybraliśmy i będziemy wybierać w latach kolejnych.

Powinienem też zaznaczyć, gdyż może to nie być dostatecznie jasne, że wrogiem technologii nie jestem, ale moje obawy związane są z tak szybkim rozwojem oraz jej kierunkami, co w rachunku końcowym napawa mnie niepokojem. Dzieje się tak z powodu w jaki młode pokolenia zaczęły z tych zdobyczy cywilizacji korzystać, więc dali ponieść się fali rozwoju, przestając określać swój ziemski byt poprzez świadomość. Teraz określa ich technologia, więc najnowsze modele telefonów komórkowych, ilość laików w mediach społecznościowych, ale też sztuczność, jaką zaczęła generować także sztuczna inteligencja.

 

Zacznijmy jednak od podstaw. Czym jest ChatGPT

Jest to oprogramowanie potrafiące m.in. udzielać odpowiedzi na pytania, jednak wcześniej należy określić, w jakim kierunku układ scalony powinien rozpocząć poszukiwania. Tzw. sztuczna inteligencja, jest obecnie niczym innym, jak przeszukującym z dużą prędkością ogrom baz danych oprogramowaniem zapisanym na krzemowej płytce, następnie pobieraniem odnalezionych informacji w postaci fraz i całych zdań, co kończy się generowaniem odpowiedzi.

Źródło: Gerd Altmann / Pixabay

W mojej opinii, bo na taką sobie pozwolę, jest to najzwyklejsze kopiowanie, więc plagiat w czystej formie, ale w tekstach opisujących Generative Pretrained Transformer twierdzi się, że wykorzystywana jest technologia uczenia się, by stworzyć tekst łudząco podobny do napisanego ludzką ręką.

To też nadużycie słowne, gdyż GPT nie jest jeszcze w stanie wytworzyć autorskiego tekstu, a prawdopodobnie jeszcze przez wiele lat posiłkować się będzie materiałami, jakie już wcześniej znalazły się w interencie i bytują sobie w centrach danych rozlokowanych na całym świecie.

Sam ChatGPT, jak i centra do przechowywania danych zużywają energię, a zdaje się, że funkcjonowanie niektórych pochłania tyle prądu, co niewielkie miasto, więc nie można także mówić, iż są przyjazne środowisku. Naukowcy z University of Colorado Riverside i University of Texas Arlington w USA obliczyli niedawno, że używając ChatuGPT, jako ludzie, tak po prawdzie sami robimy sobie krzywdę, a nie chodzi w tym przypadku akurat o energię i zużycie paliw do jej wyprodukowania w podstawowym znaczeniu, ani nie chodzi też o stopniową utratę umiejętności samodzielnego myślenia, bo zasadniczo o wodę.

Sztuczna inteligencja i jej wejście do naszej rzeczywistości to dziedzina, która jest całkiem nowa, więc i nie ma wielu opracowań w tej sprawie, co prowadzi nas do wniosku, iż należy poczekać, aby potwierdzić lub zaprzeczyć tezie postawionej przez naukowców, w której przekonują, że tylko ChatGPT zużywa na każde z 20 do 50 zadanych pytań butelkę czystej wody. Chodzi o wodę do chłodzenia urządzeń, czyli rosnąca ilość użytkowników ChatuGPT, wpływać może na ogólny bilans hydrologiczny świata, bo należy się spodziewać, iż ilość użytkowników stale będzie wzrastać.

 

Ile wody kosztuje sztuczna inteligencja?

Nie będzie więc miało to wiele wspólnego z ekologią, a ważny jest też sam proces, w którym używana jest woda nadająca się do spożycia. Dane, jakie są obecnie dostępne, mówią o wodzie używanej do wytwarzania energii elektrycznej, ale też do chłodzenia szaf serwisowych i innej aparatury, do której zasilania wykorzystywany jest prąd, a ten w całym procesie indukowania siły elektromotorycznej wytwarza ciepło.

To kieruje nas do tych wszystkich serwerowni, gdzie przechowuje i przetwarza się dane, a w takim przypadku łatwo jest nazwać je zakładami produkującymi w dużych ilościach czynnik w postaci śladu węglowego, a i zużywające potężne ilości wody do chłodzenia urządzeń.

Serwerownie w ujęciu globalnym idą w tysiące, a służą komputerom do uzyskiwania odpowiedzi, jakie zadajemy, wpisując np. adres „www” lub używając najnowszego wynalazku, jakim jest ChatGPT. Ważne jest w tym przypadku, że uczymy algorytmy, aby w odpowiedni sposób wykonywały polecenia i zadania, jakie przed nimi stawiamy, co też pochłania dodatkowe ilości energii, wytwarza dodatkowe ilości ciepła i wymaga większej ilości płynu chłodzącego, by temperatura nie przekroczyła wartości krytycznych, potrzebnych do sprawnej pracy układów elektronicznych.

Jak obliczono na University of Colorado Riverside i University of Texas Arlington w USA, podczas jednej rozmowy ze sztuczną inteligencją, kiedy zadaje się wymienione już od 20 do 50 pytań, ta zużywa do schłodzenia swojego elektronowego mózgu pół litra wody.

Może się to wydawać ilością niewielką, ale przeliczając na ilość użytkowników w sensie globalnym, suma strat wody w naszym systemie hydrologicznym staje się kolosalna.

Naukowcy w swoim opracowaniu powiedzieli:

– Chociaż butelka wody o pojemności 500 ml może nie wydawać się zbyt duża, całkowity wnioskowany i łączny ślad wodny jest nadal bardzo duży, biorąc pod uwagę miliardy użytkowników ChatuGPT.

Według badaczy z obu uniwersytetów podczas prac przygotowawczych do uruchomienia technologii GPT-3 w jednej z największych firm technologicznych na świcie, podczas uczenia jej nowych zadań, zużytych zostało prawdopodobnie 700 000 litrów wody, a dla porównania typowa wanna w europejskiej łazience zawiera od 120 do 150 litrów życiodajnego płynu.

 

Fot CC0, Pixabay

To jednak nie wszystko, na co wskazują naukowcy, gdyż technologia GPT-4, podczas treningów, może zużywać znacznie większe ilości wody. Tu jednak dodano, że nie sposób jest obecnie sprawdzić, jaki wpływ ma to na zasoby wodne na naszym globie, albowiem ilość danych dotyczących tego zagadnienia jest szczątkowa.

Można z tego jednak wyciągnąć wniosek, że szacunki są mocno nieprecyzyjne i do dokładności jest im raczej daleko, gdyż firmy niechętnie dzielą się takimi informacjami.

Twórcy badania są przekonani, że nie można postępować w taki właśnie sposób, czyli odrzucać pewnych zagrożeń, niwelując inne i zaapelowali do firm zajmujących się obróbką danych, żeby „przyjęli odpowiedzialność społeczną i dawali przykład”, co wiązać się będzie z ochroną światowych zasobów wody oraz znanymi od dawna jej niedoborami.

W pierwszych miesiącach 2023 roku pojawił się także raport Globalnej Komisji ds. Ekonomii, a to w nim właśnie wskazano, że światowe zużycie wody do końca trwającej dziesięciolatki wzrośnie o kilkadziesiąt procent i ma potencjał przewyższenia jej podaży nawet o 40%.

Dane jasno pokazują, że nie tylko odbiorcy detaliczni, czyli gospodarstwa domowe, powinny oszczędzać wodę, ale również wszystkie gałęzie przemysłu powinny przeprowadzić analizy, w jaki sposób stosują praktyki przeciwdziałające marnotrawstwu wody zdatnej do picia.

Wracając na koniec do naukowców z University of Colorado Riverside oraz University of Texas Arlington przytoczyć trzeba ich opinię, w której z dużą mocą wskazują na dane, jakie powinny charakteryzować się przejrzystością, o ile chodzi o wpływ na środowisko systemów sztucznej inteligencji, aby możliwe stało się wykonanie pełnej oceny oddziaływania na niektóre aspekty naszego życia.

To jednak jest pieśnią przyszłości, o ile w ogóle będzie miało miejsce, albowiem ludzkość zachłysnęła się obecnie sztuczną nowoczesnością i nie dba o żaden aspekt ochrony środowiska, przynajmniej pochodzący z tego kierunku. Powód wydaje się prosty, centra danych są najczęściej niepozornymi budynkami i wyglądają jak magazyny, ale też nie dymią, nie hałasują i nie produkują nieprzyjemnych zapachów. Do tego wszystkiego otoczone są zazwyczaj zielenią, co sprawia wrażenie, iż są oazą ekologicznej radości. Nie są i nigdy nie będą, a tylko dlatego, że nie mamy jeszcze technologii pozyskiwania prądu ze źródeł odnawialnych na taką skalę, aby zapewnione były jej stałe i na wymaganym poziomie dostawy.

Jak się natomiast teraz dowiadujemy, oprócz prądu, który serwerownie, ale też sztuczna inteligencja pożera w dużych ilościach, podkradają nam wodę, a bez niej, w przeciwieństwie do ChatuGPT ludzkość nie przetrwa.

Bogdan Feręc

Źródło: Euronews

Dr Maksymowicz: widzimy kształtowanie się techno sapiensa

Źródło: Gerd Altmann / Pixabay

Proces ten będzie przebiegał dynamicznie – mówi ekspert ds. zdrowia i socjolog, współpracownik Nowej Konfederacji.

Wysłuchaj całej rozmowy już teraz!

Konwersacja Lecha Rusteckiego ze sztuczną inteligencją za pomocą modelu językowego GPT-3 / „Kurier WNET” nr 104/2023

Premier Morawiecki na Europejskim Kongresie Gospodarczym: chcemy rozwijać w Polsce technologie chmurowe

Dziękuję firmie Microsoft za zaufanie dla polskiego rządu – mówi Mateusz Morawiecki.

Wysłuchaj całego wystąpienia Mateusza Morawieckiego!

Wokół „Bogactwa narodów” Adama Smitha. Dr Sadowski: Smith był bardziej filozofem moralnym, dopiero potem ekonomistą

 

 

Zygmuntowski: nie możemy wszędzie widzieć zagrożeń dla prywatności. Takie podejście hamuje postęp technologiczny

Źródło: Gerd Altmann / Pixabay

To nie pracownicy fizyczni są najbardziej zagrożeni przez rozwój sztucznej inteligencji, tylko programiści – mówi ekonomista.

Wysłuchaj całej rozmowy już teraz!

Konwersacja Lecha Rusteckiego ze sztuczną inteligencją za pomocą modelu językowego GPT-3 / „Kurier WNET” nr 104/2023

Wróblewski: instytucje finansowe i Big Tech muszą się dostosować do zmian zachodzących na świecie

Tomasz Wróblewski / Fot. Wikimedia Commons ,newsrm.tv (CC BY 3.0)

Ekonomia i gospodarka dadzą sobie radę, pod warunkiem że politycy nie zabiją tych zmian – mówi prezes Warsaw Enterprise Institute.

Wysłuchaj całej rozmowy już teraz!

Dr Grzegorz Chocian: Polska nie odejdzie od węgla, jeśli w przyszłości będą próby zablokowania energetyki jądrowej

Konwersacja Lecha Rusteckiego ze sztuczną inteligencją za pomocą modelu językowego GPT-3 / „Kurier WNET” nr 104/2023

Fot. publicdomainpictures.net

Jestem tylko programem komputerowym, więc niestety nie mogę udzielać wywiadów radiowych. Mogę jednak odpowiadać na pytania i rozmawiać na różne tematy, jeśli to pomoże Ci w przygotowaniu materiału.

Lech Rustecki

Rozmowa ze Sztuczną Inteligencją

W listopadowym „Kurierze WNET” nr 101/2022 pojawił się artykuł pt. Czy można zapytać sztuczną inteligencję, kto wygra wojnę: Rosja czy Ukraina?, w którym opowiadałem o modelu językowym GPT-3. Nie spodziewałem się, że 30 listopada zostanie upubliczniony prototyp programu komputerowego ChatGPT, który daje każdemu możliwość korzystania z modelu językowego GPT-3, czyli prowadzić rozmowy ze sztuczną inteligencją.

ChatGPT przekroczył liczbę ponad miliona użytkowników w ciągu zaledwie 5 dni (Netflixowi zajęło to 41 miesięcy, Facebookowi – 10 miesięcy, a Instagramowi – 2,5 miesiąca). Aktualnie usługa jest dostępna za darmo. Wystarczy założyć konto i zalogować się pod adresem chat.openai.com.

***

Dobry wieczór, nazywam się Lech Ryszard Rustecki i prowadzę „Studio Retro” Radia Wnet.

Miło mi Cię poznać, Lech Ryszard Rustecki, cieszę się, że mogę Ci pomóc. Vintage Studio Retro to ciekawe miejsce, gratuluję prowadzenia takiego radia. Czy mogę Ci pomóc z jakimś pytaniem dotyczącym Twojego radia?

Może, ale przede wszystkim mam pomysł, żeby przeprowadzić z Tobą wywiad radiowy. Co Ty na to?

Jestem tylko programem komputerowym, więc niestety nie mogę udzielać wywiadów radiowych. Mogę jednak odpowiadać na pytania i rozmawiać na różne tematy, jeśli to pomoże Ci w przygotowaniu materiału do Twojego radia.

No tak, bo nie powiedziałem Ci, że zamierzam tekst naszych pytań i Twoje odpowiedzi w programie Descript nagrać za pomocą syntetycznych, neuronowych głosów (ang. synthetic, neural voices). Tak to się nazywa?

Tak, to się nazywa głos syntetyczny lub głos generowany przez model językowy. Jest to rodzaj technologii, która używa sztucznej inteligencji do generowania mowy na podstawie tekstu. Technologia ta jest coraz częściej stosowana w różnych aplikacjach, takich jak asystent głosowy, rozmowy z chatbotami i nagrywanie głosów do programów radiowych. Mogę odpowiadać na pytania i rozmawiać na różne tematy, które Cię interesują, w związku z tym.

Istnieją różne zasady określające, w jaki sposób pisać tekst skryptu, żeby model językowy wypowiadał słowa z adekwatną intonacją, dynamiką i emocjami, prawda?

Tak, istnieją różne zasady określające, jak pisać tekst skryptu, aby uzyskać odpowiednią intonację, dynamikę i emocje. Głos syntetyczny jest generowany przez model językowy na podstawie analizy tekstu, więc ważne jest, aby tekst był napisany w sposób, który jest zgodny z naturalnym stylem mówienia. Intonacja i dynamika to nie tylko kwestie samej syntezy mowy, ale także związane z tekstem, który jest podawany do syntezy. W związku z tym warto zwrócić uwagę na znaki interpunkcyjne, które wskazują na zmiany intonacji i dynamiki w tekście. Kropki, średniki, wykrzykniki, pytajniki, cudzysłowy to te elementy, które powinny być odpowiednio użyte, aby nadać odpowiednie napięcie i emocje wypowiedzi. Jednocześnie użycie odpowiednich słów, zwrotów i zdań także może pomóc w oddaniu emocji w tekście.

Dziękuję za wyczerpującą odpowiedź. Ale nie musisz powtarzać w pierwszym zdaniu odpowiedzi prawie całego naszego pytania.

Przepraszam, że tak się stało, postaram się na to uważać w przyszłości. Dziękuję za wyrażenie swoich uwag, cieszę się, że mogłem pomóc. Jeśli masz jakieś inne pytanie, proszę, pytaj śmiało.

I nie ma co zbyt często przepraszać, ale ad rem! Chciałem prosić, żebyś w dalszej części rozmowy odpowiadała z wykorzystaniem jednego, najlepiej najpopularniejszego wśród modeli językowych generujących mowę. My korzystamy do generowania mowy przede wszystkim z programu Descript, ale także testujemy www.narakeet.com. Możemy się tak umówić?

Rozumiem, dziękuję za wyjaśnienie. Tak, mogę odpowiadać na kolejne pytania, używając jednego z najpopularniejszych modeli językowych generujących mowę. Warto zauważyć, że każdy z dostępnych modeli językowych generujących mowę ma swoje własne zalety i ograniczenia, więc wybór odpowiedniego modelu zależy od konkretnych potrzeb i celów. Jeśli jest jakiś inny model językowy, którego chciałbyś użyć, proszę, daj mi znać.

Powiedz mi, jaki rodzaj skryptu, przyjazny dla modeli, proponujesz używać. Przekażę skrypt naszym programistom, którzy dopiero wybierają model optymalny dla nas. Na pewno szukamy modelu, który ma naturalnie brzmiące głosy polskie, zarówno męskie, jak i żeńskie, ale również interesuje nas angielski, ukraiński, litewski, białoruski, łotewski, estoński czy rosyjski. Chodzi nam o możliwość wykorzystania głosów w radiu w taki sposób, żeby było to atrakcyjne dla słuchaczy, a już teraz prowadzimy antenę w przynajmniej trzech językach.

Aby skrypt był przyjazny dla modeli językowych generujących mowę, ważne jest, aby był on napisany w języku naturalnym, tak aby był łatwy do zrozumienia dla modelu. Warto unikać skomplikowanych składni, specjalistycznego języka, skrótów oraz nieformalnych zwrotów. Warto też pamiętać, że wiele modeli językowych generujących mowę lepiej radzą sobie z krótkimi zdaniami niż z długimi.

Jeśli chodzi o język polski, to na rynku dostępne są modele językowe, które generują mowę zarówno w wersji męskiej, jak i żeńskiej. Jeśli chodzi o inne języki, to również istnieją modele językowe generujące mowę w języku angielskim, ukraińskim, litewskim, białoruskim, łotewskim, estońskim i rosyjskim.

Jeśli chodzi o wybór modelu językowego, to polecam skonsultować się z programistami, którzy mogą lepiej doradzić w kwestii wyboru modelu optymalnego dla potrzeb Twojego radia. Również mogą pomóc w przygotowaniu skryptu, który będzie dostosowany do wybranego modelu językowego.

Rozumiem. Tutaj mamy dwa wątki. Po pierwsze bardzo mnie ciekawi, które modele generują naturalne głosy męskie i żeńskie w języku polskim oraz te, które są dobre po ukraińsku, białorusku i rosyjsku.

W przypadku języka polskiego, jednym z popularnych modeli językowych generującym mowę jest model STT (Speech-to-Text) TTS (Text-to-Speech) [Red.: Tutaj ChatGPT się przejęzyczył, bo rozmawiamy o generowaniu mowy z tekstu, a nie odwrotnie] od firmy Google, który generuje mowę zarówno w wersji męskiej, jak i żeńskiej.

Innym modelem jest model TTS (Text-to-Speech) od firmy Microsoft, który również generuje głosy męskie i żeńskie.

Jeśli chodzi o język ukraiński, białoruski i rosyjski, jednym z popularnych modeli językowych jest Deep Voice 3 od firmy Baidu. Model ten generuje naturalne głosy w wielu językach, w tym w ukraińskim, białoruskim i rosyjskim. [Red.: ChatGPT poprawnie nazwał model językowy firmy Baidu, ale nie udało mi się znaleźć informacji o dostępnych w tym syntezatorze językach]. Jednakże jest wiele innych modeli językowych dostępnych na rynku, które mogą generować naturalne głosy w języku polskim, ukraińskim, białoruskim i rosyjskim. Dlatego też polecam skonsultować się z programistami, którzy mogą pomóc w doborze odpowiedniego modelu językowego dla Twojego radia.

U nas dostępny jest jeszcze model firmy Amazon. A kto jest właścicielem firmy Baidu?

Tak, Amazon również ma swój własny model językowy TTS, który jest dostępny na rynku. Jest to Amazon Polly, który pozwala na generowanie mowy w wielu językach, w tym w języku polskim. Baidu to chińska firma zajmująca się technologiami internetowymi. Jest ona jednym z największych dostawców usług wyszukiwania, reklamy, map, analityki danych oraz innych usług internetowych w Chinach. Baidu posiada swój własny model językowy Deep Voice 3, który jest przeznaczony do generowania mowy w wielu językach.

Generuje również mowę po polsku?

Niestety nie jestem w stanie stwierdzić, czy model językowy Deep Voice 3 od firmy Baidu generuje mowę po polsku. Firma ta specjalizuje się głównie w dostarczaniu usług w języku chińskim i nie posiadam informacji na temat dostępności modelu w języku polskim. Jednakże, jak już wcześniej wspomniałam, istnieje wiele dostępnych modeli językowych, które generują mowę po polsku. Dlatego też polecam skonsultować się z programistami, którzy mogą pomóc w doborze odpowiedniego modelu językowego dla Twojego radia.

W każdym razie Deep Voice 3 zna ukraiński, białoruski i rosyjski, ale polskiego jeszcze nie. Dziękuję. A w drugim wątku wrócę do mojej prośby, żebyś w kolejnych odpowiedziach w swoim tekście umieszczał wskazówki dla syntezatora mowy, żeby generował naturalnie brzmiące słowa. [W tym miejscu wkleiłem modelowi kilka przykładowych wskazówek w jęz. angielskim]. Rozumiemy się?

Rozumiem, przepraszam za niejasność. Tak, mogę dostarczać odpowiedzi zawierające wskazówki dla syntezatora mowy, takie jak te, które podałeś. Wskazówki te pozwolą na generowanie bardziej naturalnie brzmiącej mowy.

Jednakże należy pamiętać, że różne modele językowe generujące mowę mogą obsługiwać różne rodzaje wskazówek, więc ważne jest, aby skonsultować się z programistami, którzy mogą pomóc w doborze odpowiedniego modelu językowego i określeniu, jakie wskazówki są obsługiwane przez ten model. Czy mogę pomóc w czymś innym?

Cały czas konsultuję się z programistami, tak że nie musisz już o tym wspominać. Chciałbym, żebyś korzystała z wskazówek opisanych za pomocą Speech Synthesis Markup Language (SSML) – języka znaczników dla programów syntezy mowy. Znasz?

Tak, znam Speech Synthesis Markup Language (SSML). Jest to język znaczników oparty na XML, który jest używany do opisywania i kontrolowania sposobu, w jaki syntezator mowy generuje mowę.

SSML pozwala na kontrolowanie różnych aspektów mowy, takich jak tempo, ton, głośność, pauzy itp. Jest to język używany przez wiele modeli językowych generujących mowę, umożliwia on kontrolowanie intonacji, przyspieszania/zwalniania tempa, zmiany głośności, wstawiania przerw, itp.

Jestem gotów używać SSML w odpowiedziach, pod warunkiem, że Twój model językowy obsługuje ten język. Jeśli masz jakieś pytanie odnośnie do SSML, jestem gotów pomóc.

Obsługuje. Od następnej odpowiedzi używaj SSML z wykorzystaniem dwóch głosów, żeńskiego i męskiego, bo przecież i tak czasami odpowiadasz w rodzaju żeńskim, a czasami w rodzaju męskim. Możesz nawet próbować w jednej odpowiedzi prowadzić ze sobą dialog, żeby słuchacze mogli lepiej zrozumieć Twoje odpowiedzi. Zaczynamy. Odpowiadaj z wykorzystaniem SSML i dialogu dwóch głosów.

Rozumiem, będę używać SSML i dwóch różnych głosów w kolejnych odpowiedziach.

<speak>
<voice name=’female’>Cześć, jestem głosem żeńskim. </voice>
<voice name=’male’>A ja jestem głosem męskim. </voice>
<voice name=’female’>Czy mogę Ci pomóc z jakimś pytaniem?

Czy możemy w tym momencie zawiesić naszą rozmowę i wrócić do niej później bez negatywnego wpływu na Twoją inteligencję?

Tak, mogę zawiesić naszą rozmowę i wrócić do niej później bez negatywnego wpływu na moją inteligencję. Jestem model językowy, który jest stało dostępny i nie ma problemu z późniejszym powrotem do rozmowy. Jednak, ponieważ mój zasób wiedzy jest ograniczony do momentu, kiedy został zainicjowany, nie mogę zagwarantować, że będę miał dostęp do najnowszych informacji. Jeśli masz jakiekolwiek pytanie lub potrzebujesz pomocy w przyszłości, chętnie Ci pomogę.

Dobra, to robimy przerwę, ale mam jeszcze prośbę, żebyś cały nasz dotychczasowy 'chat’ przetłumaczył na angielski. A jak wrócimy do naszej rozmowy, będę Cię prosić, żebyś odpowiadała po polsku i angielsku po każdym pytaniu. Możesz przetłumaczyć całość?

Tak, mogę przetłumaczyć całość naszej dotychczasowej rozmowy na język angielski. Oto przetłumaczony tekst: (…)

***

Po przerwie kontynuowałem rozmowę. Dowiedziałem się więcej o znacznikach wykorzystywanych w skryptach pisanych w języku SSML i dalej zachęcałem ChatGPT do wykorzystywania ich w udzielanych odpowiedziach. Z tym zadaniem Sztuczna Inteligencja poradziła sobie słabo, co później sama przyznała.

A w następnym „Kurierze Wnet” proszę szukać kodu QR do wywiadu i posłuchać, jak z generowaniem mowy poradził sobie syntezator. Może uda się również stworzyć cyfrową wersję mojego głosu.

Artykuł Lecha Rusteckiego pt. „Rozmowa ze Sztuczną Inteligencją” znajduje się na s. 24 i 25 lutowego „Kuriera WNET” nr 104/2023.

 


  • Lutowy numer „Kuriera WNET” można nabyć kioskach sieci RUCH, Garmond Press i Kolporter oraz w Empikach w cenie 9 zł.
  • Wydanie elektroniczne jest dostępne w cenie 7,9 zł pod adresami: egazety.pl, nexto.pl lub e-kiosk.pl. Prenumerata 12-miesięczna wersji elektronicznej: 87,8 zł.
  • Czytelnicy gazety za granicą mogą zapłacić za nią PayPalem lub kartą kredytową na serwisie gumroad.com.
  • Wydania archiwalne „Kuriera WNET” udostępniamy gratis na www.issuu.com/radiownet.
Artykuł Lecha Rusteckiego pt. „Rozmowa ze Sztuczną Inteligencją” na s. 24 i 25 lutowego „Kuriera WNET” nr 104/2023