Apple właśnie wprowadziło na rynek nowy otwartoźródłowy model AI o nazwie MGIE, który zmienia zasady gry w edycji obrazów, pozwalając na manipulowanie nimi za pomocą prostych instrukcji w języku naturalnym. Ten nowatorski projekt nie tylko podnosi poprzeczkę dla kreatywności cyfrowej, ale również podkreśla zaangażowanie Apple w rozwój sztucznej inteligencji.
MGIE: Jak działa ten rewolucyjny model AI od Apple?
MGIE to skrót od MLLM-Guided Image Editing, co oznacza edycję obrazów kierowaną przez wielomodalne, duże modele językowe. Te zaawansowane modele AI potrafią interpretować polecenia użytkowników i dokonywać manipulacji na poziomie pikseli, otwierając nowe możliwości dla twórców, grafików i zwykłych użytkowników. MGIE wykorzystuje moc MLLM (Multimodal Large Language Models), aby przetwarzać zarówno tekst, jak i obrazy, co do tej pory nie było często stosowane w zadaniach edycji obrazów.
Dzięki integracji MLLM, MGIE jest w stanie przekształcić wprowadzone przez użytkownika instrukcje w wyraźne polecenia edycyjne, co umożliwia edytowanie obrazu na podstawie tych instrukcji. Model korzysta z nowatorskiego schematu szkolenia end-to-end, który optymalizuje wizualizację i moduły edycji obrazów. Dzięki temu, MGIE radzi sobie z różnorodnymi scenariuszami edycji, od prostych dostosowań kolorystycznych po skomplikowane manipulacje obiektami.
Możliwości edycji zdjęć z MGIE – od optymalizacji po lokalne retusze
MGIE nie ogranicza się jedynie do podstawowych zmian. Model ten umożliwia wykonywanie zarówno wprowadzanie ogólnych zmian w zdjęciach, jak i lokalnych edycji na konkretnych rejonach lub obiektach. Użytkownicy mogą dostosowywać zdjęcia według własnych preferencji, wykonując zmiany, które dotyczą całego obrazu lub skupiają się na szczegółach.
- Możliwość wykonywania edycji jak w Photoshopie (na przykład usuwanie obiektów)
- Optymalizacja jakości zdjęć
- Aplikacja efektów artystycznych
- Lokalne edycje na określonych obszarach
MGIE umożliwia również stosowanie zaawansowanych edycji, takich jak zmiana tła i łączenie obrazów, co wcześniej wymagało skomplikowanych manipulacji i obszernej wiedzy o edycji zdjęć. Dzięki temu narzędziu użytkownicy mogą bez wysiłku wprowadzać kreatywne zmiany w swoich obrazach, co otwiera przed nimi nowe możliwości w dziedzinie twórczości cyfrowej.
Dostępność i implikacje MGIE dla przyszłości edycji obrazów
MGIE jest dostępne jako projekt otwartoźródłowy na GitHubie, co oznacza, że każdy może przetestować jego możliwości i dostosować narzędzie do własnych potrzeb. Został udostępniony także przykładowy notebook demo, który ułatwia rozpoczęcie pracy z MGIE. Dzięki temu użytkownicy mogą nie tylko eksperymentować z edycją obrazów, ale również integrować MGIE z innymi aplikacjami, co potencjalnie rozszerza jego zastosowanie.
Rozwój MGIE podkreśla rosnącą potęgę Apple w dziedzinie badań i rozwoju AI, pokazując jednocześnie potencjał wykorzystania wielomodalnych, dużych modeli językowych w kreatywnych zadaniach.