Open AI prezentuje GPT-4o

OpenAI prezentuje GPT-4o. Sztuczna inteligencja jak prawdziwy człowiek

Źródło zdjęć: © Bing
Konrad SiwikKonrad Siwik,14.05.2024 15:30

OpenAI, znane z innowacyjnych rozwiązań w dziedzinie sztucznej inteligencji, zaskakuje nas swoim najnowszym modelem - GPT-4o. Ten rewolucyjny model jest w stanie analizować dźwięk, obraz i tekst w czasie rzeczywistym, co jest niezwykle imponujące, szczególnie biorąc pod uwagę szybkość, z jaką reaguje na dochodzące sygnały dźwiękowe.

W świecie sztucznej inteligencji entuzjaści z niecierpliwością oczekiwali na OpenAI Spring Update - prezentację twórców ChatGPT. Wiele spekulacji krążyło w branży na temat potencjalnej prezentacji nowej wyszukiwarki internetowej opartej na AI. Jednakże OpenAI zdecydowało się skupić na czymś innym - na prezentacji swojego nowego modelu, GPT-4o.

- Zaprezentowano nam kolejną formę asystenta głosowego. Na ten moment wydaje się, że najbardziej zaawansowaną. Sam Altman i spółka nie zdecydowali się na bezpośrednią konfrontację z Google na rynku wyszukiwarek. Możliwe, że nie mieli nawet takiego zamiaru, a plotki o narzędziu, które mają wysadzić z siodła Google, były kolportowane tylko i wyłącznie w celu siania niepokoju u konkurencji - komentuje Marcin Stypuła, założyciel oraz prezes zarządu Semcore, jednej z największych polskich agencji SEO.

OpenAI wprowadza GPT-4o

Poniedziałek, godzina 19:00 czasu polskiego to oficjalny moment, w którym Open AI rozpoczęło swoją ofensywę. Podczas konferencji zaprezentowano udoskonalenia wprowadzone do ChataGpt oraz całkowicie nowy model - GPT-4o. Ten ostatni zostanie udostępniony wszystkim użytkownikom korzystającym z bezpłatnej wersji ChatGPT. W trakcie konferencji wielokrotnie podkreślano, że misją firmy jest udostępnianie zaawansowanych narzędzi AI za darmo, aby nikt nie był wykluczony z korzystania z nich.

Say hello to GPT-4o

Interakcje z ChatemGPT będą odbywać się bez konieczności transkrypcji, co znacznie przyspieszy proces. Co więcej, algorytm pozwoli na "wchodzenie w słowo" podczas rozmowy, co umożliwi dynamiczną interakcję między człowiekiem a Chatem.

Nowy model GPT4o będzie wyposażony w "oczy", które będą reprezentowane przez kamerę w urządzeniu. Dzięki temu algorytm będzie mógł szybko ocenić otoczenie,  jeszcze lepiej doradzać użytkownikowi, a nawet rozpoznawać jego emocje.

Dalsza część artykułu pod materiałem wideo

Mestosław: "Ślub wezmę w Brazylii i... w Polsce". Gdzie zamieszka z mężem i dzieckiem?

Tłumaczenie rozmów w czasie rzeczywistym

Podczas prezentacji pokazano również, jak "będziemy rozmawiać" podczas podróży. Program, rozpoznając zdania w języku włoskim wypowiedziane przez Mirę Murati, dyrektorkę techniczną firmy, przekształcał jej słowa na bieżąco na język angielski. Następnie reagował natychmiast, tłumacząc odpowiedzi po angielsku z powrotem na włoski. To dosłownie tłumaczenie rozmów w czasie rzeczywistym.

Na zakończenie prezentacji pokazano coś "ekstra". GPT-4o potrafi rozpoznawać i nazywać emocje na podstawie obserwacji twarzy przez kamerę. Podczas konferencji przedstawiono uśmiechniętą twarz jednego z przedstawicieli OpenAI, a sztuczna inteligencja zapytała, dlaczego jest szczęśliwy. To właśnie Altman określił jako "magię".

- Na pewno wzbudzają emocje i stanowią sporą wartość dla świata nowych technologii. Z tłumacza na pewno będziemy korzystać, a dla polskich odbiorców najważniejsze będzie to, kiedy dostępny będzie język polski. Na pewno dziś biznes będzie musiał przyjrzeć się, jak wykorzystać to narzędzie w świecie reklamy. W niej emocje są ważne, a wiedza w czasie rzeczywistym o odczuciach potencjalnych klientów wydaje się być bezcenna - komentuje Marcin Stypuła.

GPT-4o reaguje równie szybko co człowiek

GPT-4o ma na celu uczynić interakcje bardziej naturalnymi. OpenAI zapewnia, że GPT-4o reaguje na sygnały audio w zaledwie 232 milisekund (średnia to 320 milisekund), co jest porównywalne z czasem reakcji człowieka podczas rozmowy. Jeśli chodzi o wydajność, GPT-4o dorównuje GPT-4 Turbo w przypadku tekstu w języku angielskim, a w innych językach jest nawet lepszy.

"GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu do istniejących modeli" - twierdzi OpenAI. Jakie są więc możliwości GPT-4o? Tu warto zobaczyć nagranie, na którym model GPT-4o został poproszony o zliczenie od jednego do dziesięciu.

Fast counting with GPT-4o

Na nagraniu widać, jak szybko GPT-4o reaguje na polecenia dotyczące zmiany tempa. Wszystko to dzieje się w czasie rzeczywistym. Podobnie jest w przypadku kolejnego nagrania, na którym GPT-4o zamienia się w nauczyciela języka hiszpańskiego, analizując przedmioty widoczne za pośrednictwem kamery.

Point and Learn Spanish with GPT-4o

Kiedy GPT-4o będzie dostępny?

"Możliwości tekstowe i graficzne GPT-4o zaczynają być udostępniane dzisiaj w ChatGPT. Udostępniamy GPT-4o w warstwie bezpłatnej, a użytkownikom Plus z nawet 5-krotnie większymi limitami wiadomości. W nadchodzących tygodniach wprowadzimy nową wersję trybu głosowego z GPT-4o w wersji alfa w ChatGPT Plus" - informuje OpenAI.

Warto jednak pamiętać, że OpenAI to nie tylko ChatGPT. Nadchodzący model Sora pozwoli użytkownikom na generowanie filmów, co zostało docenione nawet przez zawodowych artystów.

Fundusze Europejskie dla młodych
Co o tym myślisz?
  • emoji serduszko - liczba głosów: 0
  • emoji ogień - liczba głosów: 0
  • emoji uśmiech - liczba głosów: 1
  • emoji smutek - liczba głosów: 0
  • emoji złość - liczba głosów: 0
  • emoji kupka - liczba głosów: 2