Wstecz

Omówienie najnowszego WWDC24 - Siri z Apple Intelligence

By Sean Chen, 11 czerwca 2024

wwdc24

Apple właśnie zaprezentowało najnowsze Apple Intelligence, które oferuje funkcje takie jak pisanie, konwersja mowy na tekst i podsumowania, inteligentne odpowiedzi, narzędzia do pisania, generowanie obrazów czy emotikonów, a co najważniejsze, sprawia, że Siri staje się bardziej zbliżona do prawdziwego asystenta głosowego.

Na pierwszy rzut oka, przy prezentacji kilku narzędzi, wygląda to jakby Apple ponownie wprowadzało funkcje, które Android miał już od dawna.

Jednak widząc następną generację Siri, można poczuć potężny design i zdolność integracji produktów Apple.

Nie tylko wykorzystanie GPT-4o

Na podstawie informacji z Keynote i strony internetowej, nie wygląda na to, że Apple Intelligence opiera się wyłącznie na modelu GPT-4o. Z urządzeń obsługujących A17 Pro i sprzęt z serii M wynika, że Apple wprowadziło małe modele językowe lub modele generowania obrazów do urządzeń. Jednocześnie wykorzystuje najnowszą technologię Private Cloud Compute, aby zapewnić prywatność, umożliwiając Apple Intelligence lub Siri korzystanie z dużych modeli językowych w chmurze.

Wygląda na to, że generatywny model językowy został specjalnie przeszkolony przez Apple do najczęściej używanych scenariuszy na telefonach. Model GPT-4o, opracowany we współpracy z OpenAI, jest używany tylko w bardziej zaawansowanych sytuacjach, takich jak zadawanie skomplikowanych pytań logicznych. To pozwala AI stojącemu za Siri bardziej skupić się na poprawie „doświadczenia z korzystania z produktów Apple”, czyniąc model bardziej skoncentrowanym i lżejszym. Mieszanie różnych usług zmniejsza presję na Apple w wyścigu GenAI, jednocześnie stawiając czoła funkcji Microsoft Copilot, która bezpośrednio integruje GenAI Chatbot w systemie operacyjnym.

Na drodze do rozwoju dużych modeli językowych, Apple wydaje się nie dążyć do osiągania różnych benchmarków LLM, ale wraca do samego produktu, aby LLM służył produktowi, a nie tylko dążył do wydajności i zdolności multimodalnych LLM.

Jednak do końca 2024 roku, tylko anglojęzyczni użytkownicy będą mogli korzystać z AI Siri, podczas gdy starsze urządzenia lub użytkownicy innych języków będą musieli korzystać z wersji Siri bez wsparcia LLM. W związku z tym, w wyścigu dużych modeli językowych, Apple nadal pozostaje w tyle za głównymi graczami jak OpenAI, Microsoft czy Google, a wsparcie dla innych języków (lub osiągnięcie odpowiedniej precyzji w innych językach) wydaje się być jeszcze daleko.

Jednak ogólnie rzecz biorąc, w kwestii „doświadczenia użytkownika” Apple nadal będzie wyprzedzać obecnych konkurentów.

Od „ChatBot” do „ChatBot+” do „Doświadczenia”

Wśród głównych graczy na rynku LLM: ChatGPT od OpenAI pozostaje na poziomie „ChatBot”, a wyjście poza ChatGPT polega na sprzedaży API do integracji przez deweloperów. Gemeni od Google i Copilot na PC od Microsoftu również są na poziomie „ChatBot+”, co oznacza, że ChatBot jest bardziej zintegrowany z zewnętrznymi funkcjami, ale nadal są to najbardziej prawdopodobni gracze, którzy mogą osiągnąć głęboką integrację LLM. Inne duże firmy sprzętowe, takie jak Samsung i Asus, wydają się pozostawać na etapie „funkcji”, takich jak wyszukiwanie obrazów, tłumaczenie w czasie rzeczywistym, edycja zdjęć AI czy wyszukiwanie obrazów.

Jeśli chodzi o Apple Intelligence, wydaje się, że podniosło usługi LLM do poziomu „doświadczenia”, czyniąc AI naprawdę „istotną” (relewantną), co w przypadku osiągnięcia „relewantności” znacznie zwiększa liczbę scenariuszy lub funkcji, które użytkownik może wykorzystać, nawet zbliżając się do nieskończoności, co pozwala na realizację ideału asystenta AI. Podsumowując, w silnym ekosystemie Apple, inne modele językowe, choćby nie wiem jak potężne, mają trudności z konkurowaniem z Apple w „głębokiej integracji LLM z życiem użytkownika”, a w przyszłości oczekuje się, że różne LLM będą mogły głębiej integrować się z codziennymi sytuacjami użytkowników.

WIĘCEJ Z NASZEGO BLOGA

Skontaktuj się

SKONTAKTUJ SIĘ Z NAMI

Porozmawiajmy o Twoich pomysłach!

Rozpocznij swój biznes z innowacyjnym partnerem cyfrowym. Odpowiemy w ciągu jednego dnia roboczego. (GMT+8)