сбер дивайсис что это
О компании «SberDevices»
SberDevices — молодая IT-компания, созданная в 2019 году (входит в группу компаний Сбербанк). У нас работают талантливые инженеры, разработчики и менеджеры, состоявшиеся как специалисты с опытом работы в ведущих IT-компаниях России. Продукты SberDevices создают более 600 человек, и каждый день наша команда растёт.
Что мы делаем?
Вместе мы создаём современные модели обработки естественного языка (NLP — Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатываем системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения.
Благодаря использованию самого быстрого в России суперкомпьютера «Кристофари», мы можем обучать уникальные модели, собственные аналоги знаменитых GPT-3 и T5, обозначающие новые вехи в развитии нейросетевых технологий.
Перед нами стоит амбициозная задача: сделать новейшие технологии максимально доступными в повседневной жизни, помочь им раскрыться и практически, и коммерчески.
На рынке появляются сервисы и умные устройства от SberDevices. Скоро таких устройств станет больше! Приходи к нам, чтобы создавать девайсы, которыми будут пользоваться твои друзья и соседи.
Почему у нас комфортно работать?
У нас нет строгого дресскода. Мы не усложняем коммуникации излишним официозом: даже джуниор может обратиться напрямую к руководителю любого уровня, чтобы оперативно решить рабочий вопрос.
Все члены команды свободны в выборе рабочего места и времени, и самостоятельно решают, как организовать свой рабочий день для достижения наилучшего результата.
Коллеги всегда рядом, чтобы помочь словом и делом — вы никогда не останетесь один на один со своей проблемой.
Мы сотрудничаем с ведущими производственными и исследовательскими коллективами во всём мире, участвуем в ведущих мировых научных конференциях. Поэтому, работая в нашей команде, вы получите доступ к актуальным знаниям и мировому опыту.
Мы убеждены, что только в атмосфере свободы, доверия и взаимоуважения рождаются правильные технологии!
Кого мы ищем?
SberDevices — это компания полного цикла. Мы создаём идеи, самостоятельно разрабатываем продукты, занимаемся прототипированием, конструированием, придумываем дизайн, программные решения, контролируем качество на фабриках и создаём инструменты для аппаратного тестирования.
Специалисты junior-, middle- и senior-уровней — нам нужны все. Новички найдут для себя интересные задачи и смогут вырасти. Опытные профессионалы оценят амбициозность и масштабность наших проектов.
Мечтаешь работать на переднем крае технологий и создавать нужные людям продукты, которыми сможешь гордиться? Тебе к нам!
Используй возможность стать частью грандиозных релизов — подписывайся на вакансии от SberDevices!
«Дочка» Сбербанка представила свой первый гаджет
Во вторник, 18 февраля, начнутся продажи Okko Smart Box — ТВ-приставки, разработанной компанией «СберДевайсы» для онлайн-кинотеатра Okko. Об этом РБК рассказал глава «СберДевайсов» Константин Круглов.
Это небольшое устройство размером 77x53x16 мм, которое подключается к телевизору через HDMI-кабель и к интернету через Wi-Fi, управляется с помощью пульта. Пользователь получает возможность смотреть на телевизоре контент онлайн-кинотеатра Okko, сервиса YouTube, а также 160 ТВ-каналов с возможностью записи программ для отложенного просмотра. При этом устройством можно управлять в том числе с помощью голосовых команд через микрофон на пульте. Производство ТВ-приставки осуществляется в Китае. Константин Круглов не назвал размер первой партии, как и планы по продажам, но сообщил, что компания успела произвести довольно много ТВ-приставок до того момента, как китайские фабрики встали из-за вспышки коронавируса. «Часть устройств находится на складе в Москве, часть — в Китае», — сообщил он.
ТВ-приставка станет первым публично известным устройством компании «СберДевайсы». Как пояснил Константин Круглов, ранее его команда сделала несколько продуктов для внутренних нужд Сбербанка. Детали он не раскрыл, как и то, над какими еще устройствами работает «СберДевайсы». «Компания фокусируется на создании устройств для жизни с использованием речевых технологий, — описывает Круглов. — Это могут быть устройства как для сегмента b2c, так и b2b: «умные» устройства могут понадобиться почти каждой компании экосистемы Сбербанка». По его словам, компания может работать и на внешних заказчиков, «но приоритет, скорее всего, будет отдаваться компаниям экосистемы».
По данным СПАРК, компания «СберДевайсы» была зарегистрирована в октябре 2019 года и на 100% принадлежит «дочке» Сбербанка — ООО «Цифровые активы». Основной вид деятельности — «производство компьютеров и периферийного оборудования». До этого момента компания входила в структуру банка в качестве отдельного подразделения SberDevices. В начале августа Сбербанк опубликовал несколько вакансий для SberDevice, которые по косвенным признакам указывали, что она работает над собственной «умной» колонкой. Это подтверждали несколько собеседников РБК, в том числе близких Сбербанку.
Сбербанк начал активно развивать свою экосистему с 2017 года, в конце того же года была утверждена новая стратегия, согласно которой к 2020 году банк должен трансформироваться в универсальную технологическую компанию и конкурировать не с кредитными организациями, а с такими ИТ-гигантами, как Google, Amazon или Alibaba. Сейчас в экосистему Сбербанка SberX входит более 20 финансовых и нефинансовых компаний из разных отраслей. В конце августа банк закрыл сделку по покупке 46,5% Rambler Group, куда входит в том числе онлайн-кинотеатр Okko. На конец 2019 года месячная платящая аудитория этого сервиса, по собственным данным, составила 1,1 млн человек, а ежемесячная — 2,8 млн человек.
Выручка легальных онлайн-видеосервисов в первом полугодии 2019 года, по данным TelecomDaily, равнялась 10,62 млрд руб. Лидером рынка был кинотеатр ivi с долей 26,4%, Okko был вторым, занимая 14,2% рынка.
В выпуске ТВ-приставки участвуют еще несколько компаний экосистемы Сбербанка. За ее доставку будет отвечать «СберЛогистика», а приобрести устройство на первом этапе можно будет только на маркетплейсе «Беру!» (входит в совместное предприятие Сбербанка и «Яндекса»). После старта продаж будет решаться вопрос о выводе устройства в физическую розницу. Константин Круглов не исключил, что в рамках эксперимента устройство можно будет заказать в отделениях Сбербанка.
Партнером, отвечающим за ТВ-контент, выступила компания «ЛайфСтрим», разработчик OTT-сервиса «Смотрешка». Исполнительный директор «ЛайфСтрима» Марина Левочкина отметила, что партнерство с разработчиками Okko Smart Box ее компания рассматривает как первый шаг взаимодействия со всей экосистемой Сбербанка, что позволит расширить круг лояльных пользователей «Смотрешки». По ее словам, в различных пакетах сервиса уже представлено четыре онлайн-кинотеатра. «В случае с Okko Smart Box мы, скорее, выходим на новый тип устройств для распространения сервиса», — пояснила она.
Сбер дивайсис что это
Когда вы слышите слово «творчество», какие ассоциации приходят к вам в голову? Скорее всего, не в последнюю очередь вы подумаете о музыке. Зачастую она — прямое выражение глубоких эмоций и переживаний. Как будто из идеального мира Платона к нам проникает свет, который композитор просто записывает в виде нот. Возможно поэтому мы и считаем музыку творчеством в чистом виде. Музыка — проявление глубинных эмоций. Как же ИИ может создавать её, не испытывая эмоций?
В этой статье я расскажу, как наша команда Управления экспериментальных систем машинного обучения SberDevices попыталась формализовать сочинение музыки и научить ему нейронную сеть. Запускайте наш первый генеративный альбом «Thriving Machine» и устраивайтесь поудобнее.
Новости
Генеративные диалоговые модели: как мы разговорили виртуальных ассистентов Салют
Порой люди обращаются к искусственному интеллекту не для того, чтобы заказать еду, найти подходящий фильм или решить какую-то ещё свою задачу, а для того, чтобы просто поболтать. Например, потому что грустно, а рядом нет тех, с кем было бы удобно про это поговорить. И пусть виртуальные помощники пока не заменяют настоящих друзей или близких людей (они и не должны), но всё же они могут поднять настроение, помочь снизить уровень напряжения. Чтобы такое общение было живым и действительно интересным, мы разработали и применяем мощные разговорные модели на русском языке для виртуальных ассистентов Салют в режиме «Собеседник». Так, за Сбера с пользователем общается SBERT (retrieval-модель), за Джой — ruGPT-3 (генеративная модель), а за Афину — обе сразу. Поговорим сегодня о генеративной части.
Передаю слово моему коллеге, руководителю RnD NLP SberDevices Валерию Терновскому.
ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России
2021 год в машинном обучении ознаменовался мультимодальностью — активно развиваются нейросети, работающие одновременно с изображениями, текстами, речью, музыкой. Правит балом, как обычно, OpenAI, но, несмотря на слово «open» в своём названии, не спешит выкладывать модели в открытый доступ. В начале года компания представила нейросеть DALL-E, генерирующую любые изображения размером 256×256 пикселей по текстовому описанию. В качестве опорного материала для сообщества были доступны статья на arxiv и примеры в блоге.
С момента выхода DALL-E к проблеме активно подключились китайские исследователи: открытый код нейросети CogView позволяет решить ту же проблему — получать изображения из текстов. Но что в России? Разобрать, понять, обучить — уже, можно сказать, наш инженерный девиз. Мы нырнули с головой в новый проект и сегодня рассказываем, как создали с нуля полный пайплайн для генерации изображений по описаниям на русском языке.
В проекте активно участвовали команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud.
Мы обучили две версии модели разного размера и дали им имена великих российских абстракционистов – Василия Кандинского и Казимира Малевича:
1. ruDALL-E Kandinsky (XXL) с 12 миллиардами параметров;
2. ruDALL-E Malevich (XL), содержащая 1,3 миллиарда параметров.
Некоторые версии наших моделей доступны в open source уже сейчас:
2. Sber VQ-GAN [GitHub, HuggingFace]
Две последние модели встроены в пайплайн генерации изображений по тексту (об этом расскажем ниже).
Версии моделей ruDALL-E Malevich (XL), ruDALL-E Kandinsky (XXL), ruCLIP Small, ruCLIP Large, Super Resolution (Real ESRGAN) также скоро будут доступны в DataHub.
Обучение нейросети ruDALL-E на кластере Christofari стало самой большой вычислительной задачей в России:
1. Модель ruDALL-E Kandinsky (XXL) обучалась 37 дней на 512 GPU TESLA V100, а затем ещё 11 дней на 128 GPU TESLA V100 — всего 20 352 GPU-дней;
2. Модель ruDALL-E Malevich (XL) обучалась 8 дней на 128 GPU TESLA V100, а затем еще 15 дней на 192 GPU TESLA V100 – всего 3 904 GPU-дня.
Таким образом, суммарно обучение обеих моделей заняло 24 256 GPU-дней.
Разберём возможности наших генеративных моделей.
Как увидеть в фильме больше, чем способен человеческий глаз?
Обращали ли вы когда-нибудь внимание на то, сколько всего в кадре упускает наш мозг при просмотре фильма? Каждый раз, когда вы пересматриваете своё любимое кино, вы замечаете что-то новое.
А помните ли вы диван, на котором так уютно сидели “Друзья” в квартире Моники и Рейчел? Наверняка, у нас всех в памяти хранится его общий вид, но когда заходишь в магазин и хочешь купить такой же, вряд ли вспомнишь всё в деталях.
В момент просмотра фильма, мы часто сфокусированы на сюжете и происходящем на переднем плане, из-за чего можем упускать детали, без которых фильм может показаться не столь продуманным.
Но не беспокойтесь. В 2021 это больше не проблема, ведь теперь есть платформа компьютерного зрения Layer, которая смотрит кино вместе с вами. От неё никаким деталям не спрятаться и не скрыться. Давайте заглянем “под капот”?
Оплата не отходя от девайса: как мы реализовали персонализацию в устройствах Sber с помощью распознавания голоса и лица
Сегодня на рынке изобилие умных домашних устройств. Часто они становятся своего рода центром дома – инструментом, к которому обращаются домочадцы с разными задачами: узнать погоду, найти фильм, заказать еду или такси. Некоторые сценарии платные, и проводить оплату хочется, с одной стороны, быстро и удобно, без лишних телодвижений – чтобы не нужно было брать в руки телефон, заходить в онлайн-банк, вводить реквизиты или коды из пуш-уведомлений. А с другой стороны, хочется безопасности и защищённости, чтобы ребенок, например, не заказал ящик мороженого без ведома взрослых. Мы в SberDevices занялись вопросом персонализированных оплат на наших умных устройствах и придумали, как это сделать с помощью распознавания лица и голоса пользователя. В области лицевой биометрии нашим технологическим партнёром стала команда VisionLabs.
Светодиодная матрица: управляем домашним уютом с помощью голоса
Сейчас стало достаточно модно украшать свои дома с помощью светодиодов. Обычной светодиодной лентой, даже с голосовым управлением, уже сложно удивить кого-либо. Но очень часто забывают, что, расположив светодиоды в виде квадрата или прямоугольника, можно создать что-то похожее на многопиксельный экран. С его помощью можно оживить обстановку в помещении, например отображать на нём прогноз погоды или просто весёлые картинки.
Сегодня и мы попробуем сделать что-то такое, а также добавим управление голосом с помощью виртуальных ассистентов Салют.
Когда используется Power Delivery, и что происходит при установлении соединения между блоком питания и устройством
В прошлый раз я рассказывал про минимальный набор компонентов, который может быть включён в устройство для поддержки базовых функций USB-C. Но бывают ситуации, когда этих базовых возможностей недостаточно – например, нужно использовать несколько профилей напряжения, чтобы блок питания от одного устройства подходил к другому. Или же есть необходимость подстроить сами профили. Или просто нужна бОльшая мощность питания (в случае с USB-C доступный максимум – 15 Вт). Во всех этих ситуациях на помощь придёт стандарт Power Delivery. Он, например, используется в линейке зарядных устройств Apple – профили с бОльшим напряжением доставляют бОльшую мощность к устройству и позволяют его быстро заряжать. В нашем смарт-экране SberPortal есть узлы, которые требуют значительной мощности питания – прежде всего это высокопроизводительная система на кристалле (SoС) и акустика. Один только звук требует около 30 Вт. Поэтому при разработке устройства пришлось усложнить систему питания и реализовать Power Delivery. Об этом стандарте и пойдёт ниже речь.
Также разберёмся в его особенностях и посмотрим, как со временем изменился способ передачи данных в стандарте. А ещё я расскажу и покажу с помощью анализатора протокола, что происходит при установлении подключения в устройствах, на примере ноутбука с Power Delivery. Затем посмотрим, как мы реализовали PD в нашем смарт-экране SberPortal.
Как устроена аппаратная часть SberBox Top: разбираем девайс
За последние два года команда SberDevices запустила серийное производство нескольких устройств: ТВ-приставки SberBox, смарт-экрана SberPortal, ТВ-медиацентра с умной камерой SberBox Top. Последний значительно расширил функциональность такого типа устройств за счёт камеры, микрофонной матрицы и акустики, а также виртуальных ассистентов на борту. С помощь SberBox Top можно смотреть фильмы и ТВ-каналы, видео в интернете, слушать музыку, заказывать доставку продуктов, управлять умным домом. АI-камера позволяет играть в игры с распознаванием жестов, устраивать AR-спектакли с детьми, проводить видеовстречи на большом экране, заниматься фитнесом. Устройство объединяет в себе возможности смарт-экрана и умной колонки. Взаимодействовать с ним можно с помощью голоса, жестов и пульта. Чтобы использовать девайс, нужно только подключить его к телевизору или монитору – любому устройству отображения с HDMI. (Многие функции при этом доступны и без использования экрана.) И, конечно, нужен интернет.
Все эти возможности нужно было уместить в довольно компактный корпус, обеспечив нужную производительность, и при этом не допустить перегрева.
Давайте разберём наш гаджет и посмотрим, как устроена его аппаратная часть.
Как улучшить распознавание русской речи до 3% WER с помощью открытых данных
Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.
Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.
ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка
В зоопарке русскоязычных моделей прибавление: в открытом доступе появилась модель text2text-генерации ruT5 и модели-энкодеры ruRoBERTa и ruBERT, формирующие семантическое пространство текста. Модели можно использовать для создания классификаторов текстов, кластеризации, извлечения информации, суммаризации и многих других NLP-задач.
Ещё в начале пути создания виртуальных ассистентов Салют мы, команда NLP R&D SberDevices, поняли, что нужно обучать базовые языковые модели для русского языка, ориентируясь на успешные модели для английского. Опыта в этом, надо сказать, у нас было немного. Прошло два года, и сейчас мы обучили множество моделей, которыми хотим поделиться с вами.
С нашими «гптшками» вы уже знакомы, и про них мы уже рассказывали. Сейчас мы решили расширить наш открытый зоопарк и остальными моделями. Их все легко дообучать и использовать в проме на одной GPU, в том числе в Colab. Мы надеемся, что эти модели будут полезны русскому NLP-сообществу и помогут родиться многим интересным решениям.
В этой статье мы поделимся общими характеристиками и результатами замеров моделей на разных задачах.
Все модели размещены в формате PyTorch-Transformers. Вы можете скачать их в HF transformers.
Как ИИ учится литературному творчеству, или Любовные письма от тостера
Довольно долго считалось, что творчество — это удел людей, а животные и уж тем более машины творить не могут. Но так ли это? Ответ на этот вопрос зависит от определения творчества. Давайте разберёмся, при каком определении машины обретают возможность творить, и как у них обстоят дела с текстовыми произведениями — поэзией и прозой.
Под творчеством в самом простом случае понимают создание новых изображений, текстов, музыки и других объектов культуры. Но, согласитесь, это слишком широкое определение: согласно ему даже обыкновенный игральный кубик может что-то сотворить! Если сопоставить каждой из его граней ноту, можно получить мелодию. Она, правда, не будет соответствовать требованиям классической гармонии и вряд ли кому-то понравится, а та, которая понравится, будет просто исключением, как в «Теореме о бесконечных обезьянах».
ruCLIP — мультимодальная модель для русского языка
Известно, что глубокие нейронные сети (DNN) и модели компьютерного зрения, в частности, хорошо справляются с конкретными задачами, но зачастую не могут сделать обобщение при работе с новыми. Так, модель, которая хорошо работает с данными о продуктах питания, может показать себя не очень хорошо на спутниковых изображениях и т. д..
В начале этого года OpenAI опубликовала модель под названием CLIP (Contrastive Language–Image Pre-training). В статье авторы модели привели потрясающие результаты по точности zero-shot-классификации изображений, а также сопоставили тексты и картинки в рамках одной системы. Однако модель OpenAI работает только с английским языком. Можно ли быстро адаптировать её для работы с русским?
Команды R&D SberDevices и Sber AI увлеклись этим вопросом. В этой статье мы расскажем про первые результаты наших исследований CLIP для русского языка, опишем ключевые идеи предложенной модели и поделимся с вами кодом для её использования — решения задач zero-shot image classification.
Что же можно сделать с помощью ruCLIP?
Сценарии для виртуальных ассистентов Салют на NodeJS и фреймворке SaluteJS
Привет! В одной из прошлых статей мы рассказывали о создании клиентской части навыков для виртуальных ассистентов на веб-технологиях и обещали вернуться с обзором создания сценарной части на NodeJS. Торжественно сдерживаем своё обещание!
Недавно мы выложили в открытый доступ фреймворк SaluteJS. Он позволяет создавать сценарии для виртуальных ассистентов Салют, используя стандартные методы JavaScript. Поскольку взаимодействие с NLP-платформой реализовано по http, мы подумали, что было бы круто писать сценарии примерно так же, как мы пишем обычные веб-сервисы, используя NodeJS. Вы можете интегрировать SaluteJS с любыми фреймворками вроде next.js, express, hapi или koa. Интеграция выполняется посредством middleware, где вы можете выражать обработку команд ассистента и голосовых команд пользователя, которые приходят в виде обычного http-запроса. Ниже покажу на конкретном примере, как это работает.
Обучение универсальной модели NLU c BERT и Multitask Learning
В современной компьютерной лингвистике понимание смысла написанного или сказанного достигается с помощью моделей естественного языка (NLU). С постепенным ростом аудитории виртуальных ассистентов Салют встает вопрос об оптимизации наших сервисов, работающих с естественным языком. Для этого оказывается целесообразно использовать одну сильную модель NLU для решения сразу нескольких задач обработки текста. В этой статье мы расскажем, как можно использовать многозадачное обучение для улучшения векторных представлений и обучения более универсальной модели NLU на примере SBERT.
В высоконагруженных сервисах обработки текста решается целый ряд различных задач NLP:
Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе
Меня зовут Саша, в SberDevices я занимаюсь системой распознавания речи и тем, как данные могут сделать её лучше. В этой статье я расскажу о новом речевом датасете Golos, который состоит из аудиофайлов и соответствующих транскрипций. Общая длительность записей составляет примерно 1240 часов, частота дискретизации – 16кГц. На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную. Мы выпустили корпус под лицензией, близкой к CC Attribution ShareAlike, что позволяет его использовать как для научных исследований, так и в коммерческих целях. Я расскажу о том, из чего состоит датасет, каким образом он был собран и каких результатов позволяет достичь.
1000 и 1 способ сесть на мель в Spring WebFlux при написании высоконагруженного сервиса
Источник изображения: Shutterstock.com/photowind
Добрый день, меня зовут Тараканов Анатолий, я senior java разработчик SberDevices. 2.5 года программирую на Java, до этого 6 лет писал на C# и 1 год на Scala. Хочу поделиться опытом создания сервиса-оркестратора Voice Processing Service. Он является точкой входа для пользователей семейства виртуальных ассистентов Салют. Через него также проходит часть трафика приложений SmartMarket, где любой разработчик может написать навык для наших виртуальных ассистентов Салют.
Одним словом, на сервис приходится немалая нагрузка. Давайте посмотрим, какие проблемы при его создании возникли и как мы их решали, а также сколько времени ушло на поиск причин. И всё это в контексте реактивного фреймворка Spring WebFlux.
Немного о сервисе
Начнем с обзора архитектуры нашего сервиса-оркестратора. Он управляет процессом обработки входящего трафика от пользователей, формированием и передачей ответа. Среди смежных систем, к которым он обращается, есть такие сервисы:
Как машины учатся эмоциональному поведению
Нередко при взаимодействии с техникой люди проявляют эмоции: мы можем злиться на сломавшийся банкомат или умиляться пронырливости робота-пылесоса. Да, мы общаемся с роботами, но не стоит оценивать это общение как одностороннее: в логику аватаров, которые компании используют для взаимодействия с пользователем, часто бывает встроен навык понимания эмоций, и даже их проявления. Обычно это нужно, чтобы сделать общение приятным для клиента. Как же это всё работает?
Часто сюжеты фильмов и книг о роботах вращаются вокруг темы эмоций. «Добрые» роботы учатся у людей любви и самопожертвованию, а «злые» оказываются повержены из-за неспособности любить, жертвовать собой, предугадывать «иррациональные» поступки людей. Так, робот Вертер из фильма «Гостья из будущего» мучается из-за любви к Полине, а Электроник из одноименных «Приключений» в разные моменты фильма плачет, улыбается и смеётся, и в итоге именно это делает его человеком.
Смогут ли машины в самом деле испытывать эмоции? Ответить на этот вопрос будет трудно, покуда нам непонятна физиологическая составляющая эмоций. Если смотреть на эмоции широко, даже в поведении примитивных организмов наблюдаются явления, которые можно интерпретировать как эмоции. Например, у некоторых моллюсков в результате обучения формируются условные рефлексы, которые заставляют их избегать определённых стимулов. А что это, как не страх? Но оставим философствования философам, а современным учёным и разработчикам — практические исследования. По данным последних, с уверенностью можно сказать, что машины можно научить распознавать эмоции и их симулировать.
Всё, что нам нужно — это генерация
Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров
С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.
Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.
Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат, отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.
А также ее публичное API:
Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим
Автор исходного изображения: Blue Flourishes/Shutterstock.com
Всем привет! В этом посте мы расскажем про синтез голосов Сбера, Афины и Джой — виртуальных ассистентов семейства Салют. О том, как мы в SberDevices обучали модели, чтобы сделать синтез живым и специфичным для каждого персонажа, а также с какими проблемами столкнулись и как их решали.
Согласно нашей «библии ассистентов», Сбер — энергичный гик, Афина — взрослая и деловая, а Джой — дружелюбная и веселая. Они отличаются не только уникальными характерами, обращением на «ты»/«вы» и предпочтениями в шутках. Мы попытались сделать так, чтобы их личности отражались и в голосах, которыми они разговаривают.
Персонажей озвучили телеведущая Анастасия Чернобровина (Афина) и актёры дубляжа Даниил Щебланов и Татьяна Ермилова (Сбер и Джой). Виртуальных ассистентов можно услышать в приложениях Сбер Салют, СберБанк Онлайн, нашем колл-центре по номеру 900, а также в устройствах SberBox и SberPortal. Всё, что вы услышите, — это синтез речи, реализованный с помощью нейросетей. Он работает на связке Tacotron 2 и LPCNet.
Но, чтобы было понятно, что, зачем и почему, — немного теории и истории
Как мы анализируем предпочтения пользователей виртуальных ассистентов Салют
Приветствую всех! Меня зовут Ибрагим, я работаю в SberDevices и занимаюсь машинным обучением. Сегодня я расскажу о том, как мы находим и анализируем интересы и предпочтения пользователей наших виртуальных ассистентов Салют.
Также поделюсь видео с моего недавнего выступления на онлайн-конференции «Применение ML в Digital-продуктах», которую проводили коллеги из AGIMA и Epoch8.
В этом посте мы разберём следующее:
Вступление
Работая над виртуальными ассистентами, нам часто необходимо обучать специфические модели-классификаторы, которые решают свою узкую задачу. У таких задач есть несколько особенностей: