Быстрый взгляд
— Джефф Дин объявил о выпуске Gemini 1.5 Pro с функцией перевода с ультранизкими ресурсами для языков. Он находится под угрозой исчезновения, включая каламанг.
— Gemini 1.5 Pro достигла паритета с человеком в бенчмарке MTOB, переведя английский язык на каламанг с исключительной точностью.
— Превосходящая OpenAI система Whisper демонстрирует превосходное восприятие аудио, особенно в длинных аудиоконтекстах продолжительностью до 105 минут.
— Выпущенный всего через два месяца после выхода оригинальных моделей Gemini, Gemini 1.5 Pro представляет собой революционные улучшения эффективности и производительности.
— Сундар Пичаи особо отметил усовершенствования модели, в том числе значительное расширение контекстного окна до 1 миллиона жетонов.
— Этика разработки и постоянные внешние аудиты гарантируют соответствие Gemini 1.5 Pro высоким стандартам безопасности, надежности и справедливости.
15 февраля 2024 года мир технологий стал свидетелем важного события. Джефф Дин, главный научный сотрудник DeepMind и Google Research, представил Gemini 1.5 Pro на X. Эта последняя итерация технологии искусственного интеллекта Google устанавливает новую планку в машинном переводе и понимании аудио. Она подчеркивает свое мастерство в переводе с ультранизкими ресурсами для языков, находящихся на грани исчезновения, таких как каламанг. Внимание к таким языкам, на которых говорят менее 200 человек, подчеркивает стремление Google к сохранению языкового разнообразия.
Технические возможности Gemini 1.5 Pro нельзя назвать революционными. Наглядно демонстрируя свое мастерство, модель достигла человеческого паритета в бенчмарке MTOB, переведя с английского на каламанг с непревзойденной точностью. Это достижение свидетельствует о передовых алгоритмах обучения модели и ее потенциале для преодоления языковых барьеров в глобальном масштабе.
Кроме того, модель превосходит конкурентов в понимании аудио, обрабатывая длинные аудиозаписи продолжительностью от 40 до 105 минут и тексты объемом до 700 000 слов, что превосходит показатели OpenAI Whisper без ущерба для качества. Эта способность открывает
новые возможности для применения в различных областях, от академических исследований до юридической и медицинской документации.
Архитектура MoE: 1M токенов и скачок эффективности
Gemini 1.5 Pro построен на передовой архитектуре Mixture of Experts (MoE), что позволяет ему обрабатывать до миллиона токенов с существенным повышением эффективности по сравнению с предшественником. Такой выбор архитектуры повышает производительность и значительно сокращает требуемые вычислительные ресурсы, демократизируя доступ к передовым возможностям ИИ.
Особого внимания заслуживает расширение контекстного окна модели. Изначально предлагая окно в 128 000 токенов, она расширяет его до 1 миллиона токенов для разработчиков и корпоративных клиентов в рамках закрытого предварительного просмотра. Это расширение облегчает работу приложений, требующих обширного синтеза данных, от составления подробных исследовательских работ до анализа огромных массивов данных с целью получения глубоких выводов.
Этичный ИИ: постоянный аудит и справедливость
В процессе разработки Google уделяет большое внимание этическим аспектам. Компания гарантирует, что Gemini 1.5 Pro соответствует самым высоким стандартам безопасности, надежности, справедливости и контроля за предвзятостью. Постоянный аудит и надзор со стороны авторитетных некоммерческих организаций и академических институтов являются частью строгого подхода Google к поддержанию этической целостности и технических гарантий.
Выпуск Gemini 1.5 Pro знаменует собой значительный технологический прогресс и отражает приверженность Google этическому развитию ИИ. Благодаря своим непревзойденным возможностям перевода, превосходному восприятию аудио и этическим нормам Gemini 1.5 Pro способен пересмотреть границы возможностей искусственного интеллекта, предлагая заглянуть в будущее, где технологии и человечество сходятся в гармонии.
COMMENTS