OpenAI prezentuje GPT-4o. Sztuczna inteligencja jak prawdziwy człowiek

Źródło zdjęć: © Bing

Konrad Siwik,14.05.2024 15:30

OpenAI, znane z innowacyjnych rozwiązań w dziedzinie sztucznej inteligencji, zaskakuje nas swoim najnowszym modelem - GPT-4o. Ten rewolucyjny model jest w stanie analizować dźwięk, obraz i tekst w czasie rzeczywistym, co jest niezwykle imponujące, szczególnie biorąc pod uwagę szybkość, z jaką reaguje na dochodzące sygnały dźwiękowe.

W świecie sztucznej inteligencji entuzjaści z niecierpliwością oczekiwali na OpenAI Spring Update - prezentację twórców ChatGPT. Wiele spekulacji krążyło w branży na temat potencjalnej prezentacji nowej wyszukiwarki internetowej opartej na AI. Jednakże OpenAI zdecydowało się skupić na czymś innym - na prezentacji swojego nowego modelu, GPT-4o.

Podobne

- Zaprezentowano nam kolejną formę asystenta głosowego. Na ten moment wydaje się, że najbardziej zaawansowaną. Sam Altman i spółka nie zdecydowali się na bezpośrednią konfrontację z Google na rynku wyszukiwarek. Możliwe, że nie mieli nawet takiego zamiaru, a plotki o narzędziu, które mają wysadzić z siodła Google, były kolportowane tylko i wyłącznie w celu siania niepokoju u konkurencji - komentuje Marcin Stypuła, założyciel oraz prezes zarządu Semcore, jednej z największych polskich agencji SEO.

OpenAI wprowadza GPT-4o

Poniedziałek, godzina 19:00 czasu polskiego to oficjalny moment, w którym Open AI rozpoczęło swoją ofensywę. Podczas konferencji zaprezentowano udoskonalenia wprowadzone do ChataGpt oraz całkowicie nowy model - GPT-4o. Ten ostatni zostanie udostępniony wszystkim użytkownikom korzystającym z bezpłatnej wersji ChatGPT. W trakcie konferencji wielokrotnie podkreślano, że misją firmy jest udostępnianie zaawansowanych narzędzi AI za darmo, aby nikt nie był wykluczony z korzystania z nich.

Say hello to GPT-4o

Interakcje z ChatemGPT będą odbywać się bez konieczności transkrypcji, co znacznie przyspieszy proces. Co więcej, algorytm pozwoli na "wchodzenie w słowo" podczas rozmowy, co umożliwi dynamiczną interakcję między człowiekiem a Chatem.

Nowy model GPT4o będzie wyposażony w "oczy", które będą reprezentowane przez kamerę w urządzeniu. Dzięki temu algorytm będzie mógł szybko ocenić otoczenie, jeszcze lepiej doradzać użytkownikowi, a nawet rozpoznawać jego emocje.

Dalsza część artykułu pod materiałem wideo

Mestosław: "Ślub wezmę w Brazylii i... w Polsce". Gdzie zamieszka z mężem i dzieckiem?

Tłumaczenie rozmów w czasie rzeczywistym

Podczas prezentacji pokazano również, jak "będziemy rozmawiać" podczas podróży. Program, rozpoznając zdania w języku włoskim wypowiedziane przez Mirę Murati, dyrektorkę techniczną firmy, przekształcał jej słowa na bieżąco na język angielski. Następnie reagował natychmiast, tłumacząc odpowiedzi po angielsku z powrotem na włoski. To dosłownie tłumaczenie rozmów w czasie rzeczywistym.

Na zakończenie prezentacji pokazano coś "ekstra". GPT-4o potrafi rozpoznawać i nazywać emocje na podstawie obserwacji twarzy przez kamerę. Podczas konferencji przedstawiono uśmiechniętą twarz jednego z przedstawicieli OpenAI, a sztuczna inteligencja zapytała, dlaczego jest szczęśliwy. To właśnie Altman określił jako "magię".

- Na pewno wzbudzają emocje i stanowią sporą wartość dla świata nowych technologii. Z tłumacza na pewno będziemy korzystać, a dla polskich odbiorców najważniejsze będzie to, kiedy dostępny będzie język polski. Na pewno dziś biznes będzie musiał przyjrzeć się, jak wykorzystać to narzędzie w świecie reklamy. W niej emocje są ważne, a wiedza w czasie rzeczywistym o odczuciach potencjalnych klientów wydaje się być bezcenna - komentuje Marcin Stypuła.

GPT-4o reaguje równie szybko co człowiek

GPT-4o ma na celu uczynić interakcje bardziej naturalnymi. OpenAI zapewnia, że GPT-4o reaguje na sygnały audio w zaledwie 232 milisekund (średnia to 320 milisekund), co jest porównywalne z czasem reakcji człowieka podczas rozmowy. Jeśli chodzi o wydajność, GPT-4o dorównuje GPT-4 Turbo w przypadku tekstu w języku angielskim, a w innych językach jest nawet lepszy.

"GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli" - twierdzi OpenAI. Jakie są więc możliwości GPT-4o? Tu warto zobaczyć nagranie, na którym model GPT-4o został poproszony o zliczenie od jednego do dziesięciu.

Fast counting with GPT-4o

Na nagraniu widać, jak szybko GPT-4o reaguje na polecenia dotyczące zmiany tempa. Wszystko to dzieje się w czasie rzeczywistym. Podobnie jest w przypadku kolejnego nagrania, na którym GPT-4o zamienia się w nauczyciela języka hiszpańskiego, analizując przedmioty widoczne za pośrednictwem kamery.

Point and Learn Spanish with GPT-4o

Kiedy GPT-4o będzie dostępny?

"Możliwości tekstowe i graficzne GPT-4o zaczynają być udostępniane dzisiaj w ChatGPT. Udostępniamy GPT-4o w warstwie bezpłatnej, a użytkownikom Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus" - informuje OpenAI.

Warto jednak pamiętać, że OpenAI to nie tylko ChatGPT. Nadchodzący model Sora pozwoli użytkownikom na generowanie filmów, co zostało docenione nawet przez zawodowych artystów.