Google I/O 2024 представляет расширенные функции Gemini 1.5 Pro

Как криптоинвестор с опытом работы в области технологий и разработки искусственного интеллекта, я в восторге от интеграции модели Google Gemini AI в различные продукты Google. Прогресс и расширение этого LLM за последний год были впечатляющими, и его потенциал произвести революцию в пользовательском опыте в экосистеме Google значителен.


Система искусственного интеллекта Google, названная Gemini, внедряется в ряд технологий в сфере Google, таких как Gmail, YouTube и их мобильные устройства.

На конференции разработчиков Google I/O 2024 14 мая генеральный директор Сундар Пичаи подчеркнул важность искусственного интеллекта в своей программной речи, которая длилась примерно 1 час 50 минут. В своей речи он упомянул ИИ в общей сложности 121 раз. Одной из заслуживающих внимания разработок в области искусственного интеллекта стала Gemini, представленная в декабре, которая призвана сыграть ключевую роль в предложениях Google.

Вскоре Google будет включать эту расширенную языковую модель (LLM) в большинство своих предложений, таких как Android, Search и Gmail. Вот краткий обзор того, что пользователи могут испытать в будущем.

Близнецы

Как аналитик, оглядываясь назад на прошлый год, я вспоминаю захватывающую презентацию Gemini на прошлогоднем мероприятии I/O — революционную модель, разработанную для собственных мультимодальных рассуждений, адаптируемую к различным типам входных данных. С тех пор мы стали свидетелями появления нескольких моделей Gemini, показавших впечатляющие результаты в мультимодальных тестах. Совсем недавно мы познакомились с Gemini 1.5 Pro, что ознаменовало существенный шаг вперед в обработке расширенного контекста во время обработки.

Как исследователь, изучающий мир разработки программного обеспечения, я постоянно ищу инновационные инструменты, которые могут оптимизировать мой рабочий процесс и повысить мою производительность. Среди этих инструментов — Gemini, который приобрел значительную популярность благодаря своей впечатляющей пользовательской базе, насчитывающей более 1,5 миллионов разработчиков. Этот инструмент используется по-разному: от устранения сложных проблем и выявления ценной информации до создания следующего поколения приложений искусственного интеллекта.

Прогресс продукта и взаимодействие с приложением

В предстоящем обновлении Gemini сможет плавно интегрироваться с различными приложениями, позволяя пользователям выполнять такие задачи, как вставка изображений, созданных искусственным интеллектом, в сообщения, просто запросив это.

Пользователи YouTube могут попросить Gemini извлечь определенную информацию из видео, нажав кнопку «Спросить это видео».

Gemini Live и Gemini в Gmail

Gmail представляет новую инновационную функцию под названием Gemini, которая обеспечивает интеграцию искусственного интеллекта в управление электронной почтой. Благодаря этому дополнению пользователи могут легко искать, обобщать и писать электронные письма с помощью передовой технологии искусственного интеллекта. Кроме того, система искусственного интеллекта возьмет на себя более сложные задачи, такие как содействие возврату средств электронной коммерции путем поиска соответствующих электронных писем, получения квитанций и заполнения онлайн-форм.

Как исследователь, изучающий передовые технологии искусственного интеллекта, я в восторге от последней инновации Google под названием Gemini Live. Эта функция позволяет пользователям вести длительные голосовые разговоры с искусственным интеллектом прямо на своих смартфонах. Во время этих взаимодействий чат-бот способен любезно обрабатывать прерывания и запрашивать дополнительную информацию для более четких ответов. Более того, он динамически адаптируется к уникальным моделям речи каждого пользователя в режиме реального времени, делая каждый разговор более персонализированным.

Как аналитик данных, я могу объяснить, что Gemini обладает расширенными возможностями понимать и реагировать на свое физическое окружение. В частности, он может анализировать изображения или видеопотоки, полученные с помощью устройства, для интерпретации.

Развитие мультимодальности

Как аналитик могу вам сказать, что Google активно работает над созданием сложных ИИ-агентов. Эти агенты обладают способностью выполнять сложные рассуждения, планирование и выполнение сложных задач с некоторой степенью участия пользователя. Они оборудованы для обработки различных форм ввода данных, таких как текст, изображения, аудио и видео, расширяя свои возможности за пределы обычного текстового взаимодействия.

Я, Сундар Пичаи, генеральный директор Google и Alphabet, считаю, что возможности Gemini, включающие в себя мультимодальность, понимание длительного контекста и агентов, значительно приближают нас к достижению нашей конечной цели: созданию технологии искусственного интеллекта, полезной для всех.

Функция «Спросить фотографии» — это новая и важная функция, которая позволяет пользователям искать свои коллекции фотографий с помощью разговорных запросов. С помощью Gemini эта возможность использует технологии распознавания контекста, идентификации объектов, распознавания лиц и обобщения для получения точных результатов, когда пользователи задают вопросы о своих фотографических воспоминаниях.

Кроме того, Карты Google будут улучшены за счет сводок по местам и областям, созданных искусственным интеллектом. Используя информацию, полученную из обширной картографической базы данных, эти сводки предлагают краткую и ценную информацию, позволяющую улучшить впечатления пользователей от путешествий.

Смотрите также

2024-05-15 13:42