OpenAI właśnie wrzuciło na platformę nową generację swojego modelu do tworzenia grafik – ChatGPT Images 2.0 (w API dostępnego jako gpt-image-2).
Z udostępnionych materiałów i opisu jasno wynika, że firma mocno zmienia wektor. Zamiast skupiać się na generowaniu ładnych, ale często bezużytecznych “obrazków”, celują w użyteczny design, skład tekstu i prototypowanie. Model ma działać bardziej jak system wizualny niż prosta renderownia.
Oto co konkretnie się zmieniło i co warto przetestować:
1. Tekst, UI i alfabet niełaciński To prawdopodobnie największa zmiana. Model ma teraz radzić sobie z gęstym tekstem, drobnymi fontami, ikonografiką i elementami interfejsu (UI). Co więcej, zoptymalizowano go pod kątem alfabetów innych niż łaciński (japoński, koreański, chiński, hindi). OpenAI twierdzi, że nie chodzi tylko o wklejenie napisu, ale o spójne wplecenie języka w projekt (np. strona mangi z poprawnymi wizualnie znakami czy wielojęzyczne plakaty).
2. Tryb “Thinking” – model staje się agentem graficznym Jeśli odpalicie generowanie obrazów w trybach z rozumowaniem (Plus, Pro, Business), Images 2.0 zyskuje nowe możliwości:
-
Generowanie wielu grafik naraz: Możesz jednym promptem poprosić o “paczkę” materiałów – np. kampanię na social media, gdzie model wypluje od razu formaty pod Stories, feed na IG i LinkedIna, trzymając się tych samych assetów. Albo 4-stronicowy komiks.
-
Research w czasie rzeczywistym: Model może przeszukać sieć przed wygenerowaniem grafiki, by np. zaktualizować dane do infografiki (baza wiedzy modelu kończy się na grudniu 2025 r.).
-
Weryfikacja: Model “myśli” nad kompozycją, planuje układ z pustymi przestrzeniami (tzw. negative space) i weryfikuje własne wyniki przed ich wyświetleniem.
3. Swobodne proporcje i realizm Koniec z obejściami na sztywne formaty. Model natywnie obsługuje płynne proporcje obrazu od 1:3 (pionowe bannery) do 3:1 (ultrapanoramy). Poprawiono też estetykę – zdjęcia zyskały ziarno, naturalne niedoskonałości oświetlenia i mniej “plastikowy” wygląd.
4. Dostępność (Codex i API) Nowy model wjeżdża dziś do ChatGPT dla wszystkich. Z punktu widzenia deweloperów ciekawie wygląda integracja z Codexem – można tam wygenerować np. projekt interfejsu, a potem w tym samym oknie poprosić agenta o zakodowanie tego do działającego prototypu. W API model funkcjonuje pod nazwą gpt-image-2. (Z ciekawostek: Figma i Canva już używają tego pod maską).
Gdzie model nadal leży (oficjalne ograniczenia): OpenAI uczciwie przyznaje, że fizyka i spójność przestrzenna nadal sprawiają problemy. Model wyłoży się na instrukcjach origami, układaniu kostki Rubika, perspektywie ukrytych powierzchni oraz bardzo gęstych teksturach (np. ziarnka piasku). Strzałki i etykiety na skomplikowanych diagramach nadal wymagają ręcznej weryfikacji.
Macie to już u siebie aktywne? Jak w pierwszych testach wypada renderowanie długiego tekstu po polsku w porównaniu do poprzednich wersji DALL-E czy Midjourney v6?
