A tecnológica norte-americana diz que o novo GT pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano numa conversa.
“Estamos a olhar para o futuro da interação entre nós e as máquinas”. Foi desta forma que a diretora de Tecnologia da OpenAI, Mira Murati, apresentou na segunda-feira o novo modelo de Inteligência Artificial (IA) da empresa – chamado GPT-4o – que é gratuito para todos os utilizadores e tem capacidade de os ver, ouvir e responder com praticamente a mesma rapidez do que um ser humano demoraria a responder.
O assistente de voz não quer subscrição, mas está mais evoluído. A equipa de Sam Altman, conhecida por ter lançado o ChatGPT, fez várias atualizações ao sistema, nomeadamente melhorias na qualidade e velocidade dos recursos de idioma, inclusive em português, e nos uploads de imagens, documentos de áudio e texto para a IA analisar e dar resposta.
“O GPT-4o (‘o’ de ‘omni’) é um passo em direção a uma interação humano-computador muito mais natural – ele aceita como input qualquer combinação de texto, áudio e imagem e gera qualquer combinação de texto, áudio e imagem como output. Pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano numa conversa”, explica a tecnológica com sede em São Francisco.
Nas demonstrações públicas da tecnologia, é possível ver um homem a preparar-se para uma entrevista de emprego e a máquina (GPT-4o) a opinar sobre o que está a vestir e a dar-lhe conselhos de roupa para o compromisso que tem. Outro dos exemplos apresentados foi alguém a ligar a câmara do telemóvel, mostrar uma equação matemática ao sistema e ele, através do modo de voz, dar-lhe orientações sobre como resolvê-la, como se de um explicador (ou encarregado de educação) se tratasse.
Segundo os meios de comunicação internacional que estiveram na conferência de imprensa, houve até um momento em que a IA “olhou” para o utilizador, percebeu que estava feliz e perguntou-lhe o motivo daquele “grande sorriso”. Face a estes avanços, a Chief Technology Officer da OpenAI garantiu que a empresa está a implementar medidas para evitar a utilização indevida destes novos recursos de voz, mas não apresentou detalhes da salvaguarda da privacidade e bom uso do reconhecimento facial e geração de áudio.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx