ChatGPT Kan Nu Spreken, Luisteren en Afbeeldingen Analyseren

OpenAI heeft aangekondigd dat ChatGPT nu kan “zien, horen en spreken”, of beter gezegd, gesproken woorden kan begrijpen, reageren met een synthetische stem en afbeeldingen kan verwerken.

De update aan de chatbot — de grootste van OpenAI sinds de introductie van GPT-4 — stelt gebruikers in staat om zich aan te melden voor gespreksconversaties via de mobiele app van ChatGPT en te kiezen uit vijf verschillende synthetische stemmen voor de bot om mee te reageren. Gebruikers kunnen ook afbeeldingen delen met ChatGPT en aandachtsgebieden of analyses markeren (denk aan: “Welk type wolken zijn dit?”).

De veranderingen zullen binnen de komende twee weken worden uitgerold naar betalende gebruikers, zei OpenAI. Terwijl de spraakfunctionaliteit beperkt zal zijn tot de iOS- en Android-apps, zullen de beeldverwerkingsmogelijkheden op alle platformen beschikbaar zijn.

End-to-End Encryptie komt naar Teams Rooms op Android

AI Concurrentiestrijd

Te midden van een groeiende strijd in kunstmatige intelligentie tussen leiders zoals OpenAI, Microsoft, Google en Anthropic, komt deze omvangrijke feature-update. Technologiegiganten wedijveren om consumenten aan te moedigen generatieve AI dagelijks te gebruiken, door niet alleen nieuwe chatbot-apps te introduceren, maar ook innovatieve functies, met name deze zomer. Google heeft een reeks updates aangekondigd voor zijn Bard chatbot, en Microsoft heeft visueel zoeken aan Bing toegevoegd.

Vroeg in dit jaar leidde een additionele investering van $10 miljard door Microsoft in OpenAI tot de grootste AI-investering van het jaar, aldus PitchBook. In april zou de startup een aandelenverkoop van $300 miljoen hebben voltooid, gewaardeerd tussen $27 miljard en $29 miljard, ondersteund door investeerders als Sequoia Capital en Andreessen Horowitz.

Bezorgdheid over Synthetische Stemmen

Experts hebben hun zorgen geuit over door AI gegenereerde synthetische stemmen, die in dit geval gebruikers een natuurlijkere ervaring kunnen bieden, maar ook overtuigendere deepfakes kunnen mogelijk maken. Actoren op het gebied van cyberdreiging en onderzoekers hebben al onderzoek gestart naar de manieren waarop men deepfakes kan inzetten om in cybersecurity-systemen te infiltreren.

OpenAI erkende deze zorgen in zijn aankondiging op maandag en zei dat synthetische stemmen werden “gemaakt met stemacteurs waarmee we direct hebben samengewerkt”, in plaats van verzameld te zijn van onbekenden.

Het persbericht gaf ook weinig informatie over hoe OpenAI de spraakinvoer van consumenten zou gebruiken, of hoe het bedrijf die gegevens zou beveiligen als het zou worden gebruikt. De algemene voorwaarden van het bedrijf stellen dat consumenten eigenaar zijn van hun invoer “voor zover toegestaan door de toepasselijke wetgeving”.

OpenAI heeft naar de eigen richtlijnen over spraakinteracties verwezen, volgens welke het bedrijf geen audioclips bewaart en de audioclips niet inzet om modellen te verbeteren. Echter, het bedrijf geeft ook aan dat het transcripties als invoer ziet en deze kan gebruiken om de grootschalige taalmodellen te verbeteren.