Искусственный интеллект Google DolphinGemma: прорыв в понимании языка дельфинов

Дата публикации 3 недели назад
Время на прочтение 3 мин
Искусственный интеллект Google DolphinGemma стремится расшифровать общение дельфинов
Google представила DolphinGemma – ИИ-модель для анализа и интерпретации звуков дельфинов, разработанную совместно с Georgia Tech и проектом Wild Dolphin Project. Модель использует технологию SoundStream и предназначена для обработки данных непосредственно на устройстве, что позволяет проводить исследования в реальном времени с помощью мобильных устройств. DolphinGemma поддерживает двустороннее взаимодействие через систему CHAT с использованием смартфонов и наушников с костной проводимостью. В будущем модель будет выпущена как открытый исходный код, чтобы мировое научное сообщество могло исследовать межвидовое общение.

Ключевые моменты:

  1. Google представила DolphinGemma, модель ИИ, разработанную для анализа и интерпретации вокализации дельфинов.
  2. Модель была создана в сотрудничестве с Georgia Tech и Wild Dolphin Project (WDP), используя десятилетия акустических данных в реальном мире.
  3. DolphinGemma использует токенизацию SoundStream и предназначен для обработки на устройстве, что позволяет работать в реальном времени с мобильными устройствами.
  4. Он поддерживает двустороннее взаимодействие через систему CHAT (Cetacean Hearing Augmentation Telemetry) с использованием смартфонов и костных наушников.
  5. Google планирует выпустить DolphinGemma в качестве модели с открытым исходным кодом, предложив мировому научному сообществу исследовать межвидовую связь.

Инициатива Google по декодированию коммуникации дельфинов с помощью ИИ DolphinGemma

Google объявила о новой инициативе в области искусственного интеллекта под названием DolphinGemma, предназначенной для расшифровки сложных вокализаций дельфинов. Разработанная в сотрудничестве с Технологическим институтом Джорджии и проектом "Дикие дельфины", эта инициатива объединяет машинное обучение и морскую биологию для изучения одного из самых умных коммуникаторов природы – афалины.

Исторический контекст: Долгосрочный научный интерес

На протяжении десятилетий ученые были заинтригованы сложностью вокализации дельфинов. Дельфины производят широкий спектр звуков – свисты, щелчки, импульсные всплески, которые выполняют функции от эхолокации до социального взаимодействия. Хотя исследователи добились прогресса в выявлении закономерностей, семантическое содержание и структура этих звуков остаются в значительной степени неизученными.

Проект "Дикие дельфины", основанный доктором Дениз Херцинг в 1985 году, собрал обширную базу данных вокализации диких популяций дельфинов на Багамах. Эти долгосрочные наборы данных стали основой для попыток расшифровать коммуникацию дельфинов, предоставляя редкую возможность заглянуть в акустические системы вне человека.

Архитектура модели DolphinGemma и ее возможности

Основанная на легковесной семье моделей искусственного интеллекта Gemma, DolphinGemma представляет собой специализированную аудиопроцессорную модель с примерно 400 миллионами параметров, которая сочетает высокую производительность и портативность. В отличие от многих крупных систем искусственного интеллекта, требующих серверного оборудования, DolphinGemma оптимизирован для периферийных вычислений, то есть может работать непосредственно на устройствах, таких как смартфоны или встроенное оборудование в водной среде.

"Мы разработали специальную аудиопроцессорную модель DolphinGemma путем тонкой настройки семейства легких открытых моделей Gemma для предсказания аудио-токенов непосредственно из последовательностей вокализации дельфинов." — Исследования Google

В основе этой системы лежит SoundStream, нейронный аудиокодек, разработанный Google. Он разбивает непрерывные вокализации дельфинов на дискретные элементы, позволяя модели идентифицировать временные и частотные паттерны внутри звуковых последовательностей. Этот метод помогает различать попытки общения, сигналы социальной связи или поведение при эхолокации.

Применение в реальном времени: полевые испытания с системой CHAT и устройствами Pixel

Что отличает DolphinGemma, так это её интерактивность в реальном времени. Полевые исследователи используют смартфоны Google Pixel, оснащенные наушниками с костной проводимостью, в рамках системы CHAT, которая обеспечивает двустороннюю связь между людьми и дельфинами. Система CHAT использует символический язык свистов, в котором определенные акустические маркеры представляют объекты или концепции, такие как "морская трава" или "веревка". Когда дельфин имитирует один из этих звуков, система распознает его, а соответствующее значение мгновенно отображается на экране исследователя или передается через аудио.

"Если дельфин имитирует свист, телефон распознает его, и ответ передается на наушники и отображается на экране телефона." — Исследования Google

Эта инновационная настройка превращает исследование из пассивного прослушивания в динамическое взаимодействие, позволяющее проводить исследования, оценивающие способность дельфинов понимать и воспроизводить синтетические ассоциации звука-символов.

Значимость: Понимание коммуникации животных

Хотя DolphinGemma не претендует на "перевод" языка дельфинов, её аналитическая мощность предлагает важные достижения в идентификации структур общения. Если можно будет наблюдать устойчивые соответствия между моделями вокала и конкретными контекстами или действиями, исследователи могут приблизиться к ответу на вопрос, являются ли вокализации дельфинов формой языка.

"Модель будет выпущена как открытая позже в этом году." — Исследования Google

Открытый исходный код модели является значительным шагом в демократизации доступа к этой развивающейся области исследований. Морские биологи, биоакустики и специалисты по искусственному интеллекту во всем мире смогут изучать, улучшать и адаптировать DolphinGemma для своих собственных исследований или применять её к другим видам со сложным акустическим поведением.

Мнение экспертов: Многообещающее начало с четкими границами

Эксперты предупреждают, что хотя искусственный интеллект может помочь анализировать структурные паттерны в общении животных, интерпретация семантического значения остается нерешенной задачей. Доктор Дениз Херцинг, чья команда десятилетиями анализировала вокализации дельфинов, ранее подчеркивала важность поведенческого контекста, индивидуальных вариаций и социальных динамик при попытке придать смысл звукам.

Тем не менее, внедрение инструментов искусственного интеллекта, работающих в режиме реального времени и применяемых в полевых условиях, стало революционным событием для логистики морских исследований. Это снижает зависимость от громоздких систем постобработки и позволяет исследователям динамически корректировать эксперименты на основе немедленной обратной связи.

Заключительные мысли

Инициатива Google DolphinGemma демонстрирует пересечение передового искусственного интеллекта и полевой биологии, предлагая мощный инструмент для изучения одного из самых сложных акустических видов в природе. Хотя полное "расшифрование" языка дельфинов может занять еще годы, возможность взаимодействовать с ними и анализировать их вокализации в реальном времени открывает новые горизонты в исследованиях межвидовой коммуникации. С приближением выпуска открытой модели ожидается, что её влияние распространится на различные дисциплины – от морской экологии до машинного обучения, открывая новую эру совместного изучения звуковых ландшафтов моря.