Czy słyszeliście o najnowszym dziele Google Deepmind? Mowa o Gemini, modelu AI, który ma stanąć w szranki z popularnym ChatGPT od OpenAI. Czy to prawda, że Gemini ma szansę wykazać się większymi możliwościami niż jego rywal? Oto pogłębione spojrzenie na to, co obie technologie mają do zaoferowania i jak mogą zmienić nasze postrzeganie sztucznej inteligencji.
Google Deepmind wprowadza Gemini – ewolucja AI
Czy wiesz, że Google właśnie wydało swojego asa z rękawa? Gemini, bo o nim mowa, to nowy model AI, który ma być bezpośrednią konkurencją dla ChatGPT, dzieła OpenAI. Oba te modele mieszczą się w kategorii “generative AI”, co znaczy, że tworzą nowe treści, ucząc się wzorców z dostarczonych danych. To właśnie te algorytmy pozwalają maszynom na tworzenie nowych, często zaskakujących nas treści – od tekstów, przez obrazy, aż po muzykę.
ChatGPT to wielki model językowy, który skupia się na generowaniu tekstu. Google natomiast poszło o krok dalej z aplikacją Bard, początkowo bazującą na LaMDA, trenowaną na dialogach, a teraz wzbogaconą o możliwości Gemini. To właśnie Gemini wyróżnia się jako “multi-modal model”, co oznacza, że radzi sobie z różnymi rodzajami danych wejściowych i wyjściowych, jak tekst, obrazy, audio i video. To wprowadza nowy akronim “LMM” do naszego słownika.
Warto zauważyć, że OpenAI nie pozostaje w tyle – mają przecież swój GPT-4 Vision, model, który także potrafi przetwarzać obrazy, audio i tekst. Jednak GPT-4V opiera się na oddzielnych modelach do obsługi danych wejściowych i wyjściowych, które nie są tekstem. Tymczasem Gemini Google od samego początku jest natywnie multimodalny, bezpośrednio radząc sobie z szerokim zakresem typów danych wejściowych i generując odpowiednie wyjścia.
Gemini kontra ChatGPT – starcie tytanów
To, co naprawdę wzbudza emocje, to porównanie Gemini z ChatGPT. Google wypuściło Gemini 1.0 Pro, które można porównać do GPT-3.5. Ale nie poprzestali na tym – zapowiedzieli jeszcze mocniejszą wersję, Gemini 1.0 Ultra, która ma przewyższać możliwości GPT-4. Oczywiście, takie twierdzenia muszą zostać jeszcze zweryfikowane przez niezależne testy.
Demonstracja video możliwości Gemini była imponująca, ale później wyszło na jaw, że nie była prowadzona w czasie rzeczywistym, co nieco podważyło jej efekt wow. Mimo tych początkowych wątpliwości, zarówno Gemini, jak i inne wielkie multimodalne modele, zapowiadają znaczący postęp w generatywnej AI, oferując szersze spektrum możliwości i wzmacniając konkurencyjny krajobraz.
Tak więc, czy biorąc pod uwagę aktualny stan rzeczy da się jednoznacznie określić który model jest lepszy? Czy jest to Gemini, czy ChatGPT? Niestety nie, na odpowiedź na to pytanie będziemy musieli jeszcze poczekać.
Wprowadzenie multimodalnych modeli pozwala na korzystanie z nowego zasobu danych treningowych, co otwiera dalsze perspektywy dla rozwoju AI. Dominacja OpenAI z ich modelami GPT może napotkać poważną konkurencję w postaci Gemini od Google, a cała dziedzina sztucznej inteligencji może rozwijać się w szybkim tempie.
Przyszłość AI – otwarte modele i lekkie wersje
Widnieje nadzieja na coraz lepsze modele open-source i niekomercyjne LLM, które mogą pojawić się na horyzoncie. Wraz z rozwojem takich technologii jak Gemini, pojawia się także perspektywa tworzenia “lekkich” modeli, takich jak Gemini Nano, które mogłyby być używane na urządzeniach mobilnych i brałyby pod uwagę wpływ na środowisko.
W efekcie zarówno postęp technologiczny, jak i dynamika konkurencji w krajobrazie AI są na drodze do znaczących przemian z wprowadzeniem Gemini i potencjalnym pojawieniem się bardziej różnorodnych i dostępnych modeli AI w przyszłości. To niesamowite, jak szybko zmienia się świat technologii, a my jesteśmy świadkami tych zmian na żywo.