추천 앱과 새소식

표정을 읽고 억양을 바꾸는 AI, chat GPT-4o

iPhoneArt 2024. 5. 15. 08:00
728x90

오픈 AI가 새로운 기능을 업그레이드하면서 GPT-4o를 발표했다. 카메라를 통한 시각적 데이터 분석 기능,  실시간 통역, 이해도 높은 수준의 답변과 대화를 할 수 있다. 사진을 보고 해당 개체에 대한 해석, 분석, 번역 기능이 실시간 음성 대화로 이뤄진다는 것. 새로운 버전에서는 50개 이상의 언어를 지원하며 속도 또한 빨라진다고 한다. 

수식을 보여주고 문제를 풀고 토론할 수 있는 기능을 시연하는 중이다. 이것이 편리함의 극대화를 이루는 궁극의 기술일까. 사람은 이제 필요한 것을 제시하고 질문의 폭과 질을 높이기 위해 공부하면 나머지는  어느정도 AI에게 맡길 수 있다. 생산성을 위해 기업에서 AI를 채택하고 여러 명이 하던 작업을 AI가 대체하게 될 기술인 것이다. 개인이 사용할 때 기술적 혹은 의도한 어떤 이유로든 보안 문제를 남기고 이는 좋지 않은 결과를 초래하기도 한다. 이 때 결국 사람이 제외되고 기업 시스템 내부에서 보안의 한계를 극복할 방법을 찾게 될 것이다. 기업에서 보안이 필요한 부분은  이익에 관련된 문서와 데이터이기 때문이기도 하다. 언젠가 기업은 사람을 대체하는 기술과 사람 중에 선호하는 것을 선택할 때가 올것이다. 사람을 돕는 기술이 비약적인 발전을 거듭하고 있다. 그런데 그것을 사용할 사람에게 미칠 영향은 긍정적이고 또 부정적이기도 하다. 여기에 소개된 기술 중 왜 만들었는지 정확한 목적이 무엇인지 질문하게 되는 대목은 강아지에 대한 반응과 사람의 표정을 읽고 대화하는 부분이다. 신기하긴 하지만 목적과 어떤 영역의 비즈니스 모델일지 궁금하다. 결국 로봇의 뇌에 탑재될 것들 아닌가. 물론 인간을 이해하고 질문에 대답해야하는 기술이기 때문에 이 영역이 필요하겠지만 얼마 동안 긍정적인 방향으로 통제할수 있을지 의문이다. 길어진 사견이니 넘기고 다음 기능으로 넘어가도 된다.

gpt4o는 코드를 파트별로 분석하고 설명해 줄 수도 있다. 해당 화면은 코드가 어떤 역할을 하는지 설명하고 특정 부분을 조절하면 어떤 결과가 나오는지 알려준다. 오류가 있다면 해결도 해주고. 

두가지 언어를 실시간 통역 중 빠른 응답이 가능하며 딜레이가 거의 없다. 회의 중 함께하는 gpt4o의 모습도 볼 수 있는데, AI가 끼면 계산, 데이터 분석, 차트 분석 등을 실시간으로 할 수 있을것이다. 

오픈 AI에서 안내하는 업데이트 내용

-AI 이미지 생성 기술은 한층 더 업그레이드되었다. 오픈 AI에서 공개한 예시 중 텍스트의 이미지 구현, 캐리커처 기술, 로고 제작 등은 보다 섬세하고 정확한 이미지를 생성한다. 이미 홈페이지에 공개되어 있는 예시가 있다. 

-새로운 데스크톱 앱에서 워크플로 간소화: 새로운 macOS용 ChatGPT 데스크톱 앱이 출시한다. 또한 키보드 단축키(Option + 스페이스)를 사용해 ChatGPT에 바로 질문할 수 있게 되며, 앱에서 스크린숏을 찍어 토론할 수 있다.

-컴퓨터에서 바로 ChatGPT와 음성 대화 가능: 현재의 음성 기능에 더해  새로운 GPT-4o의 오디오/비디오을 음성 대화로 할 수 있게 된다.

- 오늘부터 플러스 사용자에게 macOS 앱을 출시하며 윈도 버전은 올해 말에 출시 예정이다. 라이브 행사는 5월 14일 새벽에 진행되었다.

-개발자들의 애플리케이션 제작을 위해 GPT-4o를 오픈 AI의 API 제공할 예정

-GPT-4o는 챗GPT를 이용하는 모든 유저에게 무료로 제공된다. 무료 사용자 현재 제한은 그대로 유지. AI 이미지 생성 모델인 달리3는 무료 플랜에 미지원. Plus 플랜은 GPT-4(3시간 40회)

상세 내용은 openAI의 소개 페이지에서

o는 옴니(omni: 모든)란 뜻을 가진 GPT-4o는 사람의 표정을 읽는다. 얼마나 많은 데이터를 학습했는지 모르지만 표정을 읽고 농담도 하고, 언어에 센스도 추가했다. 심지어 강아지를 보고 귀엽다는 표현을 사람처럼 말한다. 말하는 억양도 주문대로 할 수 있으며, 노래도 다양한 스타일로 부를 수 있고, 평균 320밀리 초 만에 오디오 입력에 대응해 응답할 수 있다. 자연어를 말하는 억양 또한 자연스럽기 때문에  뇌와 눈. 입을 가지게 된 AI가 세상에 미치게 될 영향과 파장은 서서히 커다란 물결이 될듯하다.

728x90