самая нефиговая модель что значит
Вероятностные модели: от наивного Байеса к LDA, часть 1
Продолжаем разговор. Прошлая статья была переходной от предыдущего цикла о графических моделях вообще (часть 1, часть 2, часть 3, часть 4) к новому мини-циклу о тематическом моделировании: мы поговорили о сэмплировании как методе вывода в графических моделях. А теперь мы начинаем путь к модели латентного размещения Дирихле (latent Dirichlet allocation) и к тому, как все эти чудесные алгоритмы сэмплирования применяются на практике. Сегодня – часть первая, в которой мы поймём, куда есть смысл обобщать наивный байесовский классификатор, и заодно немного поговорим о кластеризации.
Классификация: наивный Байес
Тематическое моделирование решает классическую задачу анализа текстов – как создать вероятностную модель большой коллекции текстов, которую затем можно будет использовать, например, для информационного поиска (information retrieval), классификации или, как в нашем случае, для рекомендаций контента. Мы уже говорили об одной из простейших моделей, пытающихся решить эту задачу – о широко известном наивном байесовском классификаторе. Можно, конечно, классифицировать тексты и по-другому – при помощи метода опорных векторов, например, или логистической регрессии, или любого другого классификатора – однако наивный Байес будет нам сейчас наиболее полезен как пример для дальнейшего обобщения.
В модели наивного байесовского классификатора каждому документу присваивается скрытая переменная, соответствующая его теме (взятой из заранее определённого дискретного набора, например «финансы», «культура», «спорт»), и слова условно независимы друг с другом при данной теме. Каждой теме соответствует дискретное распределение на словах, из которого они порождаются; мы просто предполагаем, что слова условно независимы при условии темы:
В результате каждая тема представляет собой дискретное распределение на словах. Можно представить себе огромный нечестный кубик, который вы кидаете, чтобы получить следующее слово, или мешок слов, в который вы не глядя запускаете руку, чтобы вытащить следующее. Нечестный мешок, правда, труднее представить – ну, скажем, каждое слово на камушках в мешке встречается по несколько раз, причём разные слова по-разному (вся эта интуиция нам ещё пригодится, bear with me for a moment). У вас есть один мешок, на котором написано «финансы», другой – «культура», третий – «спорт»:
И когда вы «генерируете» из этих мешков новый документ в наивном байесе, вы сначала выбираете мешок (кидая кубик), а потом из этого мешка начинаете выбирать слова одно за другим:
Графическая модель этого процесса выглядит очень просто (о том, как читать эти картинки, мы говорили в первой части предыдущего цикла, а во второй части даже был пример именно наивного байесовского классификатора). Слева – графическая модель полностью, в центре – модель одного документа с плашкой, которая скрывает повторяющиеся одинаковые переменные, а справа – та же модель, но для всего датасета, с явно выделенными переменными α и β, которые содержат параметры всех этих дискретных распределений:
Она тоже показывает, что наивный Байес состоит из одного дискретного распределения (кубика), которым определяется сравнительный «вес» тем, и нескольких дискретных распределений (мешков), по числу тем, которые показывают вероятности выпадения того или иного слова в теме.
А чтобы обучить наивный Байес (да и любой другой классификатор, тут уж никуда не денешься), нужно иметь размеченный набор текстов, на которых можно будет обучать эти распределения:
При обучении наивного Байеса мы для каждого документа знаем его тему, и остаётся обучить только распределение слов в каждой теме по отдельности и вероятности выпадения тем:
Для этого достаточно просто подсчитать, сколько раз то или иное слово встретилось в той или иной теме (и сколько раз темы встречаются в датасете), а результат сгладить по Лапласу.
От классификации к кластеризации
Начать будет логично с первого направления, о том, как перейти к обработке датасетов без меток, ведь даже если мы сделаем модель, в которой у каждого документа несколько тем, разметить большой датасет руками, да ещё и на несколько тем для одного документа, будет крайне затруднительно. Итак, давайте представим, что у нас есть датасет, состоящий из текстов, и мы предполагаем, как и в наивном Байесе, что каждый документ был порождён из одной-единственной темы. Разница только в том, что теперь мы не знаем, из какой именно, и задача для нас выглядит так:
Давайте предполагать (мы и в LDA будем так делать; чтобы от этого избавиться, нужны непараметрические методы, до которых нам ещё далеко), что число потенциальных категорий (разных мешков со словами) нам известно, неизвестно только их содержание. Таким образом, вероятностная модель выглядит точно так же: ,
и распределения в ней всё те же. Разница только в том, что раньше мы при обучении знали для каждого документа его тему, а теперь не знаем. Иначе говоря, совместное распределение, из которого порождаются документы, всё то же: если обозначить через w вектор слов и через c категорию документа D, его общее правдоподобие будет
где βc – это распределение в мешке слов, соответствующем категории c; а общее правдоподобие, которое нужно максимизировать при обучении – это, соответственно,
и максимизировать его надо по-прежнему по α и βc. Но если раньше мы делали это при известных c, и задача максимизации разбивалась по отдельным темам и была в сущности тривиальной, то теперь надо максимизировать при неизвестных c, т.е. фактически взяв ожидание по ним:
Как это сделать?
Общая идея того, почему EM-алгоритм, собственно, работает, такова: на каждом Е-шаге EM-алгоритм фактически строит вспомогательную функцию от параметров модели, которая в текущем приближении касается функции правдоподобия и при этом везде остаётся меньше неё (миноризует функцию правдоподобия). Вот картинка из одного из источников на эту тему (честно признаюсь, забыл, из какого именно):
А затем на М-шаге ЕМ-алгоритм находит параметры, максимизирующие эту вспомогательную функцию. Очевидно, что при этом мы переходим в точку, в которой общее правдоподобие увеличивается. Я не буду сейчас подробно углубляться в доказательство того, что EM-алгоритм действительно это всё делает и действительно корректно работает, нам важна только общая идея.
Что дальше
Сегодня мы сделали первый из двух шагов на пути от наивного байесовского классификатора к LDA: перешли от задачи классификации, в которой у каждого документа в обучающем датасете должна быть фиксированная категория, к задаче кластеризации, в которой документы не обязательно должны быть размечены по категориям. Отметим, кстати, что если у вас всё-таки размечена часть документов (это называется semi-supervised learning), это очень легко добавить в получившуюся модель. Нужно просто зафиксировать соответствующие переменные ci(D), сделать их равными единице в размеченной теме и нулю во всех остальных, и в рамках EM-алгоритма не обучать эти переменные, оставляя их значения фиксированными. Такой «посевной датасет» будет, кстати, очень полезен для дальнейшего обучения модели.
В следующий раз мы сделаем второй шаг на пути к латентному размещению Дирихле: от категорий, присваиваемых всему тексту целиком, перейдём к темам, которых в каждом документе может быть несколько.
Что такое NFT и почему они приносят миллионы
Все говорят о сделках с NFT на сотни тысяч и миллионы долларов. Что там продают?
С помощью NFT можно продать почти любой виртуальный объект — изображения, музыку, тексты, 3D-модели. Но чаще всего речь идет об объектах цифрового (или оцифрованного) искусства.
Аукционный дом Christie’s продал работу художника именно в виде NFT. За 255-летнюю историю площадки это первый такой случай и одновременно — самая крупная сделка в истории на рынке NFT.
Участие Christie’s и итоговая сумма сделки подогрели хайп вокруг нового инструмента. На следующий день после аукциона Christie’s российский художник Покрас Лампас сделал свой NFT. Оригинал работы был написан на холсте, затем оцифрован и спроецирован на бетонные сооружения Чиркейской ГЭС — крупнейшей гидроэлектростанции Северного Кавказа. После этого художник перевел фото проекции в токен и выставил на продажу.
Работа высмеивает коллекционеров, тратящих большие деньги на предметы искусства. На трафарете изображен аукцион: его участники борются за картину с надписью I canʼt believe you morons actually buy this shit («Не верится, что вы, кретины, реально скупаете это дерьмо»).
Илон Маск тоже не мог остаться в стороне от шумихи. Он спродюсировал трек про NFT и объявил в своем Twitter, что собирается его продать как токен.
Как цифровые объекты превращаются в NFT?
Это происходит на специальных платформах, работающих с NFT. Есть несколько популярных площадок — например, Rarible, Mintable, OpenSea. Последняя — самая крупная. Все они являются одновременно NFT-маркетплейсами и NFT-мастерскими.
Для создания токена понадобится кошелек в системе Ethereum (криптовалюта и блокчейн-платформа, созданные выходцем из России Виталиком Бутериным. — РБК Тренды), а также файл с цифровым контентом. Обычно алгоритм действий похож на работу с виртуальным фотоальбомом. Просто создаете коллекцию и добавляете в нее медиафайл (или файлы) в любом из доступных форматов — от PNG до MP4. Каждому файлу нужно придумать название и, желательно, описание.
Теперь остается только нажать кнопку Create. Площадка сама создает токен и отправляет его на верификацию. Некоторые платформы делают это с отсрочкой: токен создается уже после того, как на медиаконтент нашелся покупатель.
Схема монетизации у платформ разная: одни берут комиссию с покупателей NFT, другие — с автора (продавца). Размер комиссии тоже отличается — от десятых долей процента до 10% и более процентов от суммы сделки.
Так что такое NFT?
NFT — это non-fungible token, невзаимозаменяемый, или уникальный токен. Работают NFT на блокчейне, впервые они появились еще в 2017 году в системе Ethereum.
Сам по себе блокчейн фактически является реестром записей. Например, биткоин или эфир — записи в блокчейне. NFT — тоже. Такие токены, как и любую криптовалюту, можно хранить в своем криптокошельке и совершать с ними транзакции, покупать и продавать.
Но есть важное отличие. Биткоины, эфиры, прочие цифровые валюты и даже реальные деньги легко заменяют друг друга и делятся на части. Скажем, 0,1 биткоина или 0,1 эфира, как и 0,1 руб. — неуникальны. Их можно поменять на любые другие 0,1 биткоина, 0,1 эфира или 0,1 руб.
NFT нельзя разделить на части или заменить на аналогичный токен. С этой точки зрения NFT обладает всеми свойствами уникального предмета в физическом мире.
Понятнее не стало. У NFT есть четкое определение?
Единого и четкого определения для уникальных невзаимозаменяемых токенов нет и, вероятно, не появится. Попробуем привести более приземленный пример.
Когда вы покупаете квартиру в России, запись об этом появляется в Едином государственном реестре недвижимости (ЕГРН). Эта запись регистрирует и доказывает ваши права на объект. Там указаны ваши личные данные и параметры квартиры. Так реальный объект недвижимости связывается с записью, подтверждающей права на него.
NFT — тоже реестровая запись, но в блокчейне. Она содержит в себе сам цифровой объект, например, картину Everydays: The First 5000 Days, информацию о создателе произведения (так NFT помогают защищать авторские права) и данные о владельце, а именно — номер его кошелька в системе Ethereum.
Кроме того, в NFT вшит определенный набор прав владельца. Обычно это разрешение на свободную демонстрацию изображений или проигрывание музыки и видео. Но иногда продавцы включают в токен весь набор авторских прав.
Таким образом, NFT — цифровое имущество (картины в формате JPG, аудиодорожки, видео, фотографии и много другое) плюс набор определенных прав на него. И с технической точки зрения неважно, идет ли речь о настоящем искусстве или о случайно созданном файле.
Откуда такой хайп вокруг NFT и такие суммы сделок? Люди сошли с ума?
Ажиотаж вокруг NFT только на первый взгляд кажется безумным. Давайте сделаем несколько шагов назад.
Ни о каких уникальных токенах или авторских правах речь здесь не идет: пользователи платят реальные деньги за кусок кода и картинку на экране. Причем принадлежит все это разработчикам — Valve в случае с Dota 2 и Team Fortress 2 или Blizzard в случае с Diablo 3.
Изображение T206 Honus Wagner легко найти в интернете. Посмотреть на него может каждый. Но оригиналом бейсбольной карты владеет тот, кто за нее заплатил. Так и с NFT, которым стала, к примеру, фотография проекции работы Покраса Лампаса на ГЭС. Фотография доступна всем, у кого есть доступ в Сеть. На нее можно посмотреть в Instagram художника. Но NFT с этим фото — уникальный цифровой объект, и он хранится в криптокошельке единственного владельца.
Если принять во внимание все эти факты, то NFT-бум уже не кажется чем-то странным. Почва для него давно была подготовлена геймерами и коллекционерами.
А причем тут котики?
«Криптокотики» (CryptoKitties) — популярная игра на блокчейне Ethereum, запущенная в конце 2017 года. Здесь пользователи создают, покупают, продают и разводят виртуальных котят.
Получается, NFT — это дорогая игрушка для геймеров и коллекционеров?
NFT, как и блокчейн с криптовалютами, — это всего лишь инструмент. Использовать его можно по-разному. Теоретически, в NFT можно упаковать что угодно, любой цифровой объект.
Сейчас NFT как инструмент активнее всего используют для распространения цифровых коллекционных предметов. Криптокотики, карточки с покемонами, работы Покраса Лампаса, Бэнкси и Beeple прекрасно оцифровываются и, с одной стороны, удовлетворяют тягу людей к коллекционированию, с другой — поддерживают создателей искусства.
Но использование уникальных токенов не ограничивается одним только коллекционированием.
Так, в 2019 году Nike запатентовала систему проверки подлинности кроссовок CryptoKicks. При покупке пары обуви генерируется NFT. Как и в случае с криптокотиками, такой токен содержит всю «родословную» кроссовок: данные о производителе, внешний вид и особые параметры, информацию о перепродажах.
Дальше виртуальная обувь начинает жить своей жизнью. Владельцы уникальных токенов с цифровыми кроссовками смогут скрещивать пары (да, опять как в CryptoKitties), и получать потомство, но уже в виде реальной обуви. Впрочем, новостей о CryptoKicks с 2019 года не было: похоже, пока эти планы остаются на бумаге.
Еще один пример связки реального и виртуального мира через NFT — проект Crypto Stamp австрийской почтовой службы. Это почтовые марки, привязанные к токенам. Их используют для отметки реальных почтовых отправлений. При этом каждая марка сохраняется на блокчейне и может быть частью цифровой филателистической коллекции.
А я могу дорого продать свои файлы с помощью NFT?
Скорее всего, здесь вы немного опоздали. В продажу и создание NFT уже включились коллекционеры и известные художники. Поэтому придумать что-то хайповое и привлечь внимание к своим цифровым произведениям обычным пользователям довольно сложно.
Судя по последним новостям и участию таких игроков как Christie’s, в 2021 году рынок NFT может еще раз рвануть вверх. Но как долго продлится этот рост и что будет с ценами на уже реализованные цифровые объекты, предсказать невозможно.
Что такое NFT на самом деле, сколько обмана может скрывать, и в каких сферах реально применим
NFT — одна из самых обсуждаемых тем в криптосообществе, которая стала настолько популярной, что привлекла немало внимания и за его пределами.
Единственная проблема заключается в том, что очень немногие знают, что такое NFT и как это работает на самом деле.
Пришло время пролить свет на NFT и глубоко погрузиться в детали того, как они работают, и сколько обмана может быть в сфере NFT.
Что такое NFT на самом деле?
Всем известна аналогия с предметами коллекционирования. К сожалению, эта аналогия в лучшем случае совершенно неадекватна, а в худшем — явно вредна.
NFT (Non Fungible Tokens, не взаимозаменяемый токен) как термин означает, что каждый цифровой токен в сети уникален. Каждый токен содержит небольшое количество данных, которые уникальны для данного токена. Вот и все. Это просто небольшие контейнеры данных, которые перемещаются по блокчейну между адресами.
Сейчас у NFT на блокчейне Ethereum есть ряд особенностей, благодаря которым именно они являются весьма популярными. Также вероятно, что в других сетях будут реализованы некоторые или все подобные функции, если они еще не реализованы.
Адрес создателя NFT сохраняется как часть NFT. Таким образом, информация о текущем владельце NFT является публичной.
В токене NFT может быть установлен процент роялти. Когда NFT затем торгуется в любой момент времени между любыми двумя адресами ETH, роялти от этой «продажи» будет перенаправляться на адрес создателя токена.
Теперь, прежде чем мы пойдем дальше, важно понять еще один аспект. NFT очень и очень малы. Хранить реальные данные в блокчейне, даже такие маленькие, как jpg размером 64×64, непомерно затратно. В большинстве NFT будет храниться всего несколько байтов данных. Например, серийный номер или URL.
Короче говоря, NFT — это, по сути, уникальный клочок бумаги с серийным номером, паролем или веб-адресом.
Чем NFT не являются
NFT — это не цифровые хранилища медиаконтента. Они не хранят цифровой контент (файл) в блокчейне. Если вы покупаете NFT изображения или песни, на самом деле вы получаете токен с URL-адресом песни или изображения, размещенный на случайном веб-сервере.
NFT не препятствуют копированию, изменению, удалению или любым другим действиям в отношении любых цифровых или физических объектов, на которые они ссылаются.
NFT по своей сути не предоставляют права собственности и не удостоверяют авторские права на какие-либо активы, с которыми они связаны.
Давайте еще раз сделаем краткое резюме: NFT — это просто уникальные торгуемые клочки бумаги с небольшим количеством нацарапанной на них информации.
У NFT есть несколько потенциальных способов действительно что-то значить
NFT может разблокировать функции при подключении к внешней системе. Пример — проект NBA Topshot. Токен имеет ценность благодаря взаимодействию с внешней системой, чтобы отображать «спортивный момент», который находится на веб-сайте. Если сайт закроется, токены немедленно станут бесполезными, так как достум к «моментам NBA» теряется. То же самое с CryptoKitties. Если сайт падает, токены CryptoKitty бессмысленны и не работают. В обоих случаях NFT — это просто торгуемый серийный номер, который связан с «моментом» или «котиком» на серверах владельцев проектов. Еще один пример: NFT, которые могут быть отправлены в приложение, которое затем сжигает (уничтожает) их в обмен на отправку вам какого-либо физического товара, например, футболки.
Создатель цифрового объекта (или физической вещи) может продавать законные права на него вместе с NFT. Нет гарантии, что продавец NFT владеет правами на связанный объект. Чтобы юридически передать права/собственность, нужно оформить юридически значимый договор. Для крупных объектов, как дом или бизнес, потребуется значительная юридическая работа и оформление документации. Если вы хотите купить право собственности на актив с NFT, вы должны убедиться, что продавец является правообладателем и он дает письменное согласие на продажу вам прав вместе с NFT и прилагает всю документацию, если она требуется. Однако нет причин, по которым вы не можете продать права собственности независимо от NFT в будущем. Короче говоря, в настоящее время ничто юридически не связывает NFT с владением цифровыми правами.
Уникальные / секретные данные. В этом случае NFT содержит уникальные данные, видимые только адресу, которому он принадлежит, например, URL-адрес или пароль к секретному клубу. Если у покупателя есть основания полагать, что информация все еще секретна, покупка NFT становится способом ее получения. Проблема очевидна — это интернет, ничто не остается секретом надолго, и нет гарантии, что создатель или предыдущие владельцы не разгласили секретную информацию.
Обман с использованием NFT
Как вас могут обмануть с помощью NFT:
Покупка NFT для владения связанным с ним объектом, когда продавец изначально не владеет объектом.
Покупка NFT для владения объектом без фактического получения юридически подтверждаемых оформленных прав на объект.
Покупка NFT для владения объектом и получение неисключительных прав (вместо исключительных прав), что означает, что автор может продолжать чеканить бесконечное количество NFT для этого же объекта.
Покупка «коллекционного» NFT, после чего сайт/сервер/система с контентом, на который ссылается NFT, перестает работать или исчезает.
Покупка NFT для инвестиций, при этом у NFT установлена непомерная (50–100%) выплата роялти. Это означает, что большая часть или вся выручка от ваших инвестиций поступает создателю, а не вам, когда вы перепродаете NFT.
Покупка арта/прочего вместе с NFT, после чего URL-адрес хоста цифрового контента упал (или его злонамеренно изменили), так что ваш NFT больше не не ссылается на объект, который вы купили. (Но, по крайней мере, у вас все еще есть права собственности, если вы не попадаете под пункты №1 и №2).
Где применимы NFT прямо сейчас?
Самая большая реальная история успеха NFT на данный момент — проекты CryptoKitties, CryptoPunks, TopShot и т. д. То есть, когда веб-сайт/приложение могут взаимодействовать с NFT, чтобы показывать вам контент в качестве доказательства владения этим контентом в рамках сайта/игры. NFT имеют большой потенциал для проектов с торговлей игровыми предметами, поскольку компания-разработчик игры может выпускать игровые предметы с определенной ставкой роялти (например, 1%) и всегда получать прибыль, если игра и торговля набирает обороты. NFT также могут служить сувенирами на мероприятиях, то есть вам может быть выдан токен за посещение концерта в качестве доказательства того, что вы там были. NFT подходят для продажи цифровых билетов. Их нельзя напрямую скопировать/клонировать, и даже если они будут перепроданы на вторичном рынке, вы получите роялти (до тех пор, пока люди не начнут обходить роялти и просто не начнут продавать адрес ETH, на котором находится токен, или принимать наличные в качестве оплаты, а затем переводить токен бесплатно). Что касается владения самостоятельными цифровыми активами или физическими объектами, там, безусловно, есть потенциал, но сейчас NFT в этой сфере юридически бесполезны. Да, NFT также отлично подходят для отмывания денег, поскольку, если вы покупаете какую-то чушь, например, коллекционную фотографию шляпы в Интернете, невозможно сказать, что вы переплатили, так как разброс цен на NFT огромен, а сами цены — произвольны.
Дизайн персонажа. От простого к замысловатому. Часть 1. Основы
Искусство дизайна персонажей годами накапливало знания, приёмы и хитрости, которые художники используют сегодня, чтобы воплотить в жизнь самые разные замыслы. Попробуем заглянуть за кулису этого процесса и понять, как устроена работа над внешним обликом персонажа для мультфильмов и мультсериалов.
Прежде чем углубиться в то, какого оттенка голубого должны быть глаза у прекрасного принца, необходимо заложить надёжный фундамент для образа героя.
Дизайн персонажа держится на трех китах: форма, силуэт, цвет. Вокруг этих понятий вращается всё, что связано с визуальной разработкой героев. Почему это так важно?
Миллионы лет назад, до появления зубных врачей и счетов за коммунальные услуги, наши предки больше всего боялись природы. И вопрос “быть или не быть” решался скоростью реакции. Пара секунд, чтобы отделить крадущегося тигра от мирно бредущего по своим делам муравьеда, оценить устойчивость камня, отличить дружелюбного соплеменника от разозленного соседа с острой палкой — вот какие задачи нам приходилось решать.
Поэтому наш мозг выработал своеобразные схемы, в рамках которых определенные формы и их сочетания вызывают у нас моментальные реакции. Хотя сегодня нам не грозит встреча с диким зверем, стремление как можно быстрее идентифицировать объект как угрожающий или безопасный — у нас в подкорке.
Пока философы гадают: определяет ли бытие сознание или сознание определяет бытие, художники по персонажам давно знают, что сознание определяет лежащую в основе героя форму. Скажем, что общего у Малефисенты и Джафара?
Гордая осанка, отвратительный характер, магическое могущество и треугольники.
Естественно, при создании персонажа мы не можем целиком полагаться только на одну фигуру, ведь характеры наших персонажей редко укладываются в одно слово. Например, «злой тупой великан» и «злой коварный волшебник», безусловно, будут иметь сходные черты, но показать различия между ними помогут сочетания и вариации трёх основных форм.
Вот пара известных персонажей с не совсем неоднозначными характерами.
Кроме того, для коммерческой анимации яркий и уникальный силуэт — жизненная необходимость. Он понадобится для продвижения бренда и производства различного мерча.
Во имя чистоты силуэта создатели иногда закрывают глаза на законы логики и биологии. Например, уши Микки Мауса всегда выглядят, как два идеальных круга независимо от того, как он поворачивает голову.