教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

音画代码(这个Python包只需几行代码)

  音画代码(这个Python包只需几行代码)
  Lucid Sonic Dreams 包可以实现 GAN 生成图像的「音画同步」效果,且支持自定义。
  GAN 生成图像奇幻诡谲,对此我们早已不陌生。如果它们还可以卡音效呢?最近,有人就创建了一个实现类似效果的 Python 包——Lucid Sonic Dreams,只用几行代码就可以实现 AI 生成画作与音乐的同步。
  GitHub 地址:https://github.com/mikaelalafriz/lucid-sonic-dreams
  Colab 教程地址:https://colab.research.google.com/drive/1Y5i50xSFIuN3V4Md8TB30_GOAtts7RQD?usp=sharing
  在该项目提供的 demo 视频中,伴随着 Saje 的歌「Raspberry」,GAN 生成的图像不断变换且呈现出了对应的节奏。
  工作原理
  生成艺术品通常是由 GAN 网络来完成的。Lucid Sonic Dreams 包默认使用 StyleGAN2-ADA 架构,不过 GAN 架构也可以自定义。将这些模型在特定「风格」的图像数据集上进行训练,使之能够输出与训练图像风格一致的无穷多张图像。此外,Lucid Sonic Dreams 使用 Justin Pinkney 创建库中的 StyleGAN2 预训练模型(地址:
  https://github.com/justinpinkney/awesome-pretrained-stylegan2) 。
  那么这些图像到底是如何生成的呢?
  将输入馈送至 StyleGAN2 模型(输入为有 512 个数字的向量),输入决定了模型的输出图像,因此对输入向量进行微小更改也将带来输出图像的微小变化。
  现在,有趣的部分到了:如果我们从音乐中获取声波,从声波中提取数值(如振幅)并添加至输入向量,会发生什么?
  Lucid Sonic Dreams 对视频每一帧执行这些操作,生成脉冲与变换与音乐一致的图像。
  具体而言,利用 Lucid Sonic Dreams 包,音乐控制了 3 个主要视觉组件:脉冲(Pulse)、运动(Motion)和类别(Class):
  脉冲指视觉画面随着音乐的敲击性节奏而「跳动」。从数学角度来看,「脉冲」是向输入向量暂时添加声波振幅的结果(即在下一帧中该向量仍是初始向量);
  运动指视觉画面变换的速度。从数学上看,它是向输入向量累积添加振幅(即添加的振幅后续不会被清零);
  类别指生成图像中物体的标签,例如基于 WikiArt 图像训练的风格中就有 167 个类别(包括梵高、达芬奇、抽象派等)。而这些由音调进行控制,具体而言,12 个音高分别对应 12 个不同类别。这些音高的振幅对传输至第二个输入向量(类别向量)的数字造成影响,而这由模型生成的对象来决定。
  项目作者表示,这个想法受到 Matt Siegelman 的 Deep Music Visualizer 项目的启发。目前网上也有一些类似的项目,但 Lucid Sonic Dreams 的独特之处在于以 Python 包形式实现,且允许自定义。
  使用 Lucid Sonic Dreams 包,你可以做到这些
  Lucid Sonic Dreams 具备极强的易用性和灵活性。用户可以使用 pip 进行安装:
  然后只需输入几行 Python 代码即可:fromlucidsonicdreamsimportLucidSonicDream      L=LucidSonicDream(song='chemical_love.mp3',style='abstractphotos')  L.hallucinate(file_name='chemical_love.mp4')
  改变风格
  运行以下代码,我们可以查看默认可用的风格:fromlucidsonicdreamsimportshow_styles      show_styles()
  这样就可以得到一组风格名称,这些风格来自 Justin Pinkney 创建的库。你还可以输入自己的 StyleGAN 权重,或者使用其他 GAN 架构。
  调整参数
  Lucid Sonic Dreams 包的默认设置很好用,但它实际上有很多参数——30 多个,不过这些参数是可以调整的(参数详细信息参见 Colab 教程)。
  哪些参数最重要呢?我们来看整个视频生成 pipeline:
  首先,对输入向量进行初始化和插值,作为视频的「基础运动」(base motion)。参数 speed_fpm 控制运动的速度,fpm 表示「每分钟帧数」,即每分钟初始化的向量数。对于每个后续帧而言,参数 pulse_react, motion_react, and class_react 控制音频操纵每个对应组件的程度。
  模型基于这些向量生成图像后,图像被传输经过一系列特效(也对音乐产生反应)。默认情况下,Lucid Sonic Dreams 包具备「contrast」和「flash」特效,可以与音频的敲击性节奏同步。通过设置 contrast_strength 和 flash_strength 参数,即可进行调整。使用者还可以创建自定义特效。
  以下代码展示了调参过程:L=LucidSonicDream('pancake_feet.mp3',style='modernart')L.hallucinate(file_name='pancake_feet.mp4',  speed_fpm=0,  motion_react=0.8,  contrast_strength=0.5,  flash_strength=0.7)
  使用自己的 StyleGAN 权重
  如果你自己训练过 StyleGAN,或者在网上获得了一些模型权重,你可以选择将文件路径传输至这些权重,作为风格参数的值。
  例如,文章开头的视频使用的是 Jeremy Torman 训练的模型。生成视频所用代码如下所示:L=LucidSonicDream(song='raspberry.mp3',style='VisionaryArt.pkl')L.hallucinate(file_name='raspberry.mp4',  pulse_react=1.2,  motion_react=0.7,  contrast_strength=0.5,  flash_strength=0.5)
  使用单独的音轨
  这个包还可以用作音乐可视化工具,使用者可以上传单独的音轨,进而控制 Pulse、Motion、Class、Contrast 和 Flash。如果你想使这些视觉组件与特定的乐器同步,使用这个包是不错的选择。你还可以利用这些单独的音轨自定义特效。
  以下是示例代码:L=LucidSonicDream(song='lucidsonicdreams_main.mp3',  pulse_audio='lucidsonicdreams_pulse.mp3',  class_audio='lucidsonicdreams_class.mp3',  style='wikiart')L.hallucinate('lucidsonicdreams.mp4',  pulse_react=0.25,  motion_react=0,  classes=[1,5,9,16,23,27,28,30,50,68,71,89],  dominant_classes_first=True,  class_shuffle_seconds=8,  class_smooth_seconds=4,  class_pitch_react=0.2,  contrast_strength=0.3)
  自定义特效
  除了内置的「Contrast」和「Flash」特效外,Lucid Sonic Dreams 包还允许用户自定义创建特效。用户只需创建一个包含至少以下 3 个参数的函数即可:array,表示应用特效的图像;strength,决定对音乐的反应强度;amplitude 表示在任意给定时间点的音量。之后,将该自定义函数传输至 EffectsGenerator 对象。
  作者用以下代码进行了试验,其使用的是 scikit-image 的 swirl 特效:importnumpyasnpfromskimage.transformimportswirlfromlucidsonicdreamsimportEffectsGeneratordefswirl_func(array,strength,amplitude):  swirled_image=swirl(array,  rotation=0,  strength=100*strength*amplitude,  radius=650)return(swirled_image*255).astype(np.uint8)swirl_effect=EffectsGenerator(swirl_func,  audio='unfaith.mp3',  strength=0.2,  percussive=False)L=LucidSonicDream('unfaith.mp3',  style='textures')L.hallucinate('unfaith.mp4',  motion_react=0.15,  speed_fpm=2,  pulse_react=1.5,  contrast_strength=1,  flash_strength=1,  custom_effects=[swirl_effect])files.download("unfaith.mp4")
  使用其他 GAN 架构
  你还可以使用其他 GAN 架构。只需定义一个函数,该函数以一组噪声向量和类别向量(NumPy 数组)作为输入,输出一组 Pillow 图像。事实上,该函数甚至不需要使用 GAN,它可以是能够将输入向量转换成图像的任意函数。
  下列代码使用 BigGAN 的 PyTorch 实现复现了 Deep Music Visualizer:frompytorch_pretrained_bigganimportBigGAN,convert_to_imagesimporttorchbiggan=BigGAN.from_pretrained('biggan-deep-512')biggan.to('cuda:0')defbiggan_func(noise_batch,class_batch):  noise_tensor=torch.from_numpy(noise_batch).cuda()  class_tensor=torch.from_numpy(class_batch).cuda()  withtorch.no_grad():  output_tensor=biggan(noise_tensor.float(),class_tensor.float(),truncation=1)  returnconvert_to_images(output_tensor.cpu())L=LucidSonicDream('sea_of_voices_inst.mp3',  style=biggan_func,  input_shape=128,  num_possible_classes=1000)L.hallucinate('sea_of_voices.mp4',  output_audio='sea_of_voices.mp3',  speed_fpm=3,  classes=[13,14,22,24,301,84,99,100,134,143,393,394],  class_shuffle_seconds=10,  class_shuffle_strength=0.1,  class_complexity=0.5,  class_smooth_seconds=4,  motion_react=0.35,  flash_strength=1,  contrast_strength=1)

东莞女孩(东莞女孩电视剧)东莞女孩(东莞女孩电视剧)走失者姓名黄申欣走失者性别女走失者年龄12走失者特征穿粉色拖鞋,其他衣着信息不详,黑色齐肩发,高1米45,六年级学生走失时间20210505走失地点广东,天津休闲(休闲在天津好吃好玩)天津休闲(休闲在天津好吃好玩)4月天春光正好,清明节小长假让市民及全国游客都把视线集中到天津,为了不辜负春光,天津都有哪些好景点值得一去?好静的市民及游客可以去博物馆图书馆享受安静小区公共设施(社区里有哪些公共设施)小区公共设施(社区里有哪些公共设施)一般来说,社区很多内容都是为了居民服务的,包括一些公共设施。那社区里有哪些公共设施?PChouse带大家了解下吧。公共设施是指由政府或其他社会组男同电视剧(台湾新上映的腐剧)男同电视剧(台湾新上映的腐剧)相信大家对千星传说里面的Tian一定不陌生,这个角色是由泰国演员汪始慧出演,千星传说是他的第一部出演的影视剧,也是他跟球哥搭档的第一部剧,可以说很多人钩吻海蛇(为什么渔民都害怕海蛇)钩吻海蛇(为什么渔民都害怕海蛇)现今是一个看脸的时代,长得好看与长的一般待遇上会差很多,在蛇类的世界当中也是这样的,长的好看的蛇类会被人类所喜爱,成为家里饲养的宠物,从此衣食无忧,万峰伊甸园(万峰节目录音全集)万峰伊甸园(万峰节目录音全集)十三邀第三季第四期来了,这次它要带你走进电波背后看一看。这一期的对话者是三位只闻其声不见其人的电台主播。叶文,哈尔滨都市女性频道主持人,2005年创办远离伊甸园(大佬的日常(快穿系统))远离伊甸园(大佬的日常(快穿系统))在生命的肇始之初和历史的源头,有一个人类心灵的栖息地和精神的永恒家园伊甸园。在圣经中,伊甸园的失落,祸起上帝创造的万物之中最狡猾的一种蛇,是它引伊甸园婚介(宁波伊甸园婚恋服务有限公司)伊甸园婚介(宁波伊甸园婚恋服务有限公司)新京报202012041847242020年9月12日,广州白云区一相亲联谊活动现场。图源视觉中国文叶克飞下午6点半后,单身男女从城市各个角我有钱了(我有钱了电影)我有钱了(我有钱了电影)原创凌青云20210423165028对于两个人而言,能够结婚走到一起生活,自然是有一定的感情基础,即便是相亲结识,也是抱着成家过日子的想法。人们常说一日夫恐怖网文(恐怖网文为什么不写了)恐怖网文(恐怖网文为什么不写了)1。逃生片场作者豪饮地沟油简评一封离奇的邮件改变了主角的生活,由此他进入了一个个诡谲难测的未知世界,并在里面扮演着不同的角色,探索着一个个神秘而危险半个喜剧豆瓣(半个喜剧三观不正)半个喜剧豆瓣(半个喜剧三观不正)这种自私并非完全体现在利己方面,而是面对关系的亲疏,我们对于不同的人的相同行为可能会做出完全相反的反应。我曾经看到过微博上这样一个话题你的朋友出轨了
数码知识魅族16sPro有几种颜色配色数据如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道魅族16sPro有数码知识coloros7的适配机型都有哪些升级计划如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道coloros7的数码知识originos支持什么机型适配机型名单如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道originos支数码知识mate40有几个版本mate40有几款如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道mate40有几个木建筑结构(建筑木方规格尺寸表详细)木建筑结构(建筑木方规格尺寸表详细)资溪县融媒体中心20210530080000山西素有中国古代建筑艺术宝库和东方古代建筑艺术博物馆的美誉,山西现存的古建筑以时代早价值高数量多品类数码知识iPhone11屏幕刷新率屏幕刷新率多少如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道iPhone11屏数码知识iqooneo3屏幕刷新率屏幕刷新率多少如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道iqooneo3屏数码知识OPPOReno3屏幕刷新率是多少屏幕刷新率如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道OPPOReno3数码知识华为智慧屏S刷新率多少屏幕刷新率如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道华为智慧屏S刷新率数码知识OPPOReno3有几颗摄像头摄像头如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道OPPOReno3数码知识vivos7有什么颜色配色版本如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多小技巧的,这些技巧很多小伙伴一般都是不知道如何来实用的,就好比最近就有很多小伙伴们想要知道vivos7有什么