추천 앱과 새소식

구글 키노트, AI 제미나이

iPhoneArt 2024. 5. 16. 08:00
728x90

AI의 다단계 추론(multu-step reasonning) 기능으로 공간, 시간, 사용자 조건에 맞는 검색 결과를 얻을 수 있게 해 준다. 여름에는 음성 대화가 가능한 Live가 출시될 예정이며, 사용자의 음성 패턴에 맞춰 대화 중 Gemini의 말을 끊을 수도 있게 설계되었다. 백만 개의 컨텍스트 윈도우가 지원되는 이번 1.5프로 버전(어드벤스드) 은 한 시간짜리 동영상, 3만 줄의 코드도 업로드할 수 있어 챗봇 중 가장 큰 콘텍스트를 지원한다. 텍스트, 이미지, 영상과 문서를 업로드해서 커다란 프로젝트나 논문을 재구성할 수도 있는 것이다. 내용 분석과 개선 사항, 추가할 것을 제안할 수 있어 공부와 연구 분야에 영향을 미칠 수 있다. 

구글 검색에서는 오버뷰 기능을 이용해 웹사이트 요약해 알려준다. 검색 결과를 목록으로 뿌려 사용자가 검색하는 것에서 bing 챗 처럼 사용할 수 있다. 사진이나 동영상 검색 또한 가능하다.
구글의 Docs, 메일, 스프레드시트 등 워크스페이스 전반에 Gemini가 지원되는데 어드벤스드 사용자여야 한다. 

발표 내용 요약

ask photos

ask photos
구글포토에서 자동차 번호판 검색으로 차량번호를 알려줄수 있다. 딸이 언제 수영을 배웠는지, 수영실력이 얼마나 발전했는지도 사진 검색을 통해 알려줄 수 있다.  사진을 통해 글과 내용을 요약하는 지능을 가지고 있다. ask photos는 기능을 더 추가할 예정이라고 한다.

제미나이 1.5프로에는 백만개의 컨텍스트 윈도우 토큰이 가능하다. 방대한 분량의 데이터를 제공하고 그에 대한 정보를 분석, 요약, 비교 등을 제공받을 수 있는 것이다. 지구상의 모든 챗봇 중에서 가장 긴 컨텍스트다. Gemini 1.5 프로는 advanced 유저가 사용할 수 있다
콘텍스트 윈도 토큰은 이백만 개로 확장 중

구글 워크스페이스에서의 제미나이
특정인에게서 온 이메일을 모두 검색하고 요약해 달라고 요청할 수 있다. 백그라운드에서는 관련 이메일을 식별하고 PDF 같은 첨부파일도 분석할 수 있다. 이를 통해 핵심 사항과 요약도 얻어낼 수 있다. 회의 영상에서 중요 사항에 대한 요약을 부탁할 수도 있다. 스프레드시트를 업로드하고 이익 계산도 할 수 있다. 이는 분석 내용을 단일 차트로 통합해 가능한 것이다. 이런 수치를 계산할 때 맞춤 Python 코드를 작성해 업로드한 파일은 모델학습에 사용되지 않는다. 
workspace labs 에서 사용할 수 있다. 

Gemini 1.5 flash 

프로젝트 astra는 일상생활에서 진정으로 도움이 될 수 있는 범용 AI 에이전트를 구축하는 것이 목적이었다. 영상을 통해 실시간으로 코드의 의미를 해석하고 사물인식 기능을 사용해 안경에 위치를 알려 줄 수도 있다. 이렇게 일상생활에서 가볍게 사용할 수 있는 AI 기능을 Gemini 1.5 flash라고 부른다. 

생성형 비디오 Veo 
텍스트와 영상 및 비디오 프롬프트에서 고품질 1080 P 비디오를 생성 한다. 

영상으로 질문하면 즉시 AI 개요를 제공한다. 어떤 증상이 발생한 이유와 원인에 대해 알려 주고 문제 해결을 위해 어떤 방법을 써야할지 알려 준다.

영상으로 보고 있는 운동 종목에 대한 규칙 질문을 했을 때 동영상도 분석할 수 있고, PDF파일을 분석해  규칙을 알려 줄 수도 있다.

지붕수리 입찰의 가격과 가용성별로 비교할 수 있는 새로운 Q & A 기능. 이 기능을 사용해 받은 편지함에 있는 모든 항목에 대해 쉽고 빠르게 답변을 얻을 수 있다. 

휴가계획 짜기
여행을 하려면 장소 시간 환경 경제적 지원 등 여러 가지를 고려해야 한다. 이런 조건에 대한 우선순위를 정하고 의사 결정을 내리는 진행이 필요하다. AI의 ‘다단계 추론(multu-step reasonning)’ 기능이 여기에도 사용된다. 

Gem
자신의 필요에 맞게 사용자화 할 수 있고 원하는 주제에 대한 전문가를 만들 수 있는 새로운 기능을 만드는 중이다. 셋업은 잼을 만들고 필요할 때 열면 된다.  사용자화 할수 있는 확장 기능일듯 하다. 젬도 1,000,000 개의 콘텍스트 Windows는 최대 1500 페이지 길이의 PDF 또는 여러 개의  파일을 업로드해 프로젝트 전반에 대한 인사이트를 얻을 수 있다. 
advanced 유저가 사용할 수 있다.

 Gemini nano with multimodality
픽셀을 시작으로 다중 모드를 갖춘 Gemini nano으로 가능성을 확장 할 예정이다. 멀티모달기능은 내가 세상을 보는 방식으로 스마트폰이 세상을 이해할 수 있다는 것을 말한다. 텍스트, 사진이나 영상을 통해서 뿐만 아니라 시각 소리 및 음성 언어를 통해서도 가능하다.  
마치 사람처럼 보고 듣고 주변과 환경을 인식하고 추론, 예측, 분석기능을 가진다는 것이다.

Gemma 제품군
개방형 모델 제품군 중 첫 번째 모델인 paliGemma언어 개방형 모델이며 지금 바로 사용 가능하다. 차세대 모델 gemma2는 6월에 출시될 예정이며 새로운 270억만 개의 매개변수 모델을 추가할 예정이다. 

LearnLM
 AI를 책임감있게 구축한다는 것은 위험을 해결하고 사람과 사회에 대한 해택을 극대화한다는 것을 의미한다. 자체 모델을 테스트하고 이를 깨뜨려 약점을 파악하는 레드팀이라는 업계 표준 관행을 통해 모델을 개선하고 있다. Gemini를 기반으로 하고 학습과정에 맞게 정밀하게 조정된 새로운 모델 learn LM.

Gemini nano with multimodality 파트에서 Dave Burke가 말한 '당신이 세상을 보는 방식으로 스마트폰이 세상을 이해할 수 있다는 것을 의미한다' 라는 문장은 다분히 사만다를 연상하게 한다. 그처럼 상황을 보고, 대화의 흐름, 맥락을 이해한다는 뜻이다. 데이브는  문자로 이미지와 동영상, PDF파일을 주고받았다. 이 과정을 제미나이가 알고 있고, 데이브의 다음 요청을 예측, PDF파일을  요청한다. 그런 순서로 사용자의 행동, 필요한 것을 예측하고 그 상황에서 더  도움이 될 것을 제안한다. 제미나이는 픽셀 8a로 픽클볼 규칙에 대한 질문에 PDF 파일 84페이지를 분석하고 대답하기까지 15초 걸렸다. 아직 사만다는 오지 않았다. 사만다는 GPT4o가 더 가까울것 같다. 영화의 사만다는 긍극의 AI라고 할 수 없지만.

Gemini 어드벤스드 월 29000원이며 현재 첫 2개월 무료 사용이 가능하다.

제미나이 무료버전은 현재 한국어 포함 35개국 언어로 바로 사용할 수 있다. 

728x90