Tilbage

Diskussion om den nyligt lancerede WWDC24 - Siri med Apple Intelligence

By Sean Chen, 11. juni 2024

wwdc24

Apple har netop lanceret den nyeste Apple Intelligence, som inkluderer funktioner som skrivning, tale-til-tekst og opsummering, smart svar, skriveværktøjer, billedgenerering eller emoji-generering osv., og vigtigst af alt, gør Siri mere som en ægte stemmeassistent.

Ved introduktionen af de første værktøjer ser det ved første øjekast ud som om, Apple igen har introduceret funktioner, som Android allerede har haft i nogen tid.

Men når man ser den næste generation af Siri, kan man virkelig mærke Apples stærke design og integrationskapacitet for deres egne produkter.

Ikke blot brug af GPT-4o som spekuleret

Fra den seneste Keynote og oplysninger på Apples hjemmeside ser det ikke ud til, at Apple Intelligence udelukkende bruger GPT-4o som model, som det oprindeligt blev spekuleret. Med de understøttede enheder A17 Pro og M-serien ser det ud til, at Apple har integreret små sprogmodeller eller specifikke billedgenereringsmodeller i enhederne. Samtidig anvender de deres nyeste Private Cloud Compute-teknologi til at lade Apple Intelligence eller Siri bruge store sprogmodeller i skyen under beskyttelse af privatlivets fred.

Det ser ud til, at denne generative sprogmodel er specielt trænet til de mest almindelige scenarier på telefonen. GPT-4o-modellen, som er udviklet i samarbejde med OpenAI, anvendes kun i mere avancerede scenarier, såsom at stille komplekse logiske spørgsmål. Dette gør det muligt for AI bag Siri at fokusere mere på at forbedre "oplevelsen af at bruge Apple-produkter", hvilket gør modellen mere fokuseret og lettere. Kombinationen af forskellige tjenester reducerer Apples pres for at indhente GenAI og konfronterer samtidig Microsoft Copilot, som integrerer GenAI Chatbot-funktioner direkte i OS.

På vejen mod udvikling af store sprogmodeller ser det ud til, at Apples mål ikke er at jagte forskellige LLM-benchmarks, men snarere at fokusere på selve produktet, så LLM-tjenesterne tjener produktet i stedet for blot at stræbe efter LLM's ydeevne og multimodale kapaciteter.

Indtil slutningen af 2024 vil kun den engelsksprogede AI Siri være tilgængelig. Andre ældre enheder eller ikke-engelsktalende brugere vil stadig kun kunne bruge den gamle version af Siri uden LLM-understøttelse. I denne henseende er Apple stadig bagud i kapløbet om store sprogmodeller sammenlignet med mainstream-aktører som OpenAI, Microsoft eller Google, og det ser ud til, at der stadig er et stykke vej til at understøtte andre sprog (eller opnå præcision for andre sprog).

Men samlet set vil Apple stadig føre på "brugeroplevelse" i forhold til konkurrenterne.

Fra "ChatBot" til "ChatBot+" til "Oplevelse"

Med de nuværende hovedaktører på LLM-markedet: OpenAI's ChatGPT er stadig på "ChatBot"-niveau, og for at komme videre skal ChatGPT sælge API'er til udviklere for integration. Google's Gemeni og Microsofts Copilot på PC er også på "ChatBot+"-niveau, hvilket betyder, at ChatBot er blevet integreret med nogle eksterne funktioner, men de er stadig de mest sandsynlige aktører til at opnå dyb LLM-integration. Andre hardwaregiganter som Samsung og Asus ser ud til stadig at være på "funktion"-stadiet, såsom billedsøgning, realtidsoversættelse, AI-fotoredigering eller billedsøgning.

Med Apple Intelligence ser det ud til, at LLM-tjenesterne allerede er blevet løftet til "oplevelse"-niveauet, hvilket gør AI virkelig "relevant". Når "relevant" er opnået, vil antallet af scenarier eller funktioner, som brugerne kan bruge, stige betydeligt, endda nærme sig uendelig, og kun da kan AI-assistentens ideal virkelig realiseres. Samlet set, under Apples stærke økosystem, vil det være svært for andre sprogmodeller, uanset hvor stærke de er, at true Apples konkurrenceevne i "at integrere LLM dybt ind i brugernes liv", og vi ser frem til, at fremtidige LLM'er kan integreres dybere i brugernes livsscenarier.

MERE FRA VORES BLOG

Kontakt os

KONTAKT OS

Lad os tale om dine idéer!

Kickstart din virksomhed med din innovative digitale partner. Vi svarer inden for én arbejdsdag. (GMT+8)