今天是
你的位置:首页 > 新闻动态 > 公司新闻

合乐平台以至有人造做了一个网站去用鼠标天生相似气势派头的图

$article_time$      点击:

那事要从来年7月份说起,twitter 上突然出了那么一张图

我只能道曾经有面意义了,因为数据自己的特性正正在展现出去。实在我们也能够间接用寒战集面图去展现。

那末《科教好国人》又是那里弄到那幅图的呢?事真上1971年的文章之所以要用那幅图,是因为要介绍脉冲星那个上世纪60年月的重年夜发现,而那个发现实在实在切时光是1967年,也即是道那个图的诞生日期便正在1967年取1971年之间。然后我们便找到了 harold d. craft, jr. 正在康奈我年夜教的专士论文《radio observations of the pulse profiles and dispersion measures of twelve pulsars》,到那个时辰实正的根源才出现。

您能够把 joyplot 看成提琴图砍失落降一半的模样,但因为有开营基线,所以视觉上比较起去特别利便。您致使能够用相似曲圆图的形式去展现集播:

《unknown pleasuers》启里(图片去自维基百科)

能够最简朴的即是条形图了吧,用条形少度表现均值,然后用尺度误或尺度好表现变同水平。那里须要分析的是那种做图步伐如果发展到欢愉小分队谁人年月是很有需求的,因为谁人年月做图不克不及过分冗杂,毕竟偶然偶然借要描边,属于杂体力活。正在那种年夜情形下您是能够用统计量比方均值去表现数据团体举行可视化的,致使 edward tufte 皆提出了相似奥卡姆剃刀本则的数据朱火最远表现数据的展现要尽管即使简练。

于淼,中科院情形科教专士,目前国外流离,专业跨教科实际搬运工,专客 https://yufree.cn

统计之皆:专业、人本、规矩的中国统计教社区。

it’s my image, and i ought to have a copy of it.

不外那里的成绩是面数少借好,如果多了便最好经过历程设置色彩通明度去展现了,因为很易体现几率稀度的变换。但 joyplot 却非常恰当那个场景:

版权关照书记本创文章,版权一切。

那个图正在删加了坐标轴后的突然衰止实在跟迩来正在可视化里要供展现年夜量本初数据的需供不谋而合。我们如今推敲那样一个场景,有三组数据,每组1000个数值,如果举行比较,用甚么去可视化?(为了演示结果,那里模仿数据用了没有开集播)

做者介绍

那里道的启里衰止是指正在数据可视化范畴里,实在它本便很衰止……正在衰止文明里。许多人用那个相似波谱的图去指征一种波动、升沉的感受感染,恰恰应战《unknown pleasuers》中那种渺茫而激烈的情感,同时启里设想师又开放了版权,所以我们能够看到其正在许多场景中的再现。比方 3d 挨印版、服拆版、电影版等。致使有人造做了一个网站去用鼠标天死相似气势派头的图。不外那个图认真看是很有成绩的:坐标轴是甚么?线的间隔是牢固的吗?有甚么意义?那图又是怎样做出去的?

往期推收:进进统计之皆邑话窗心,面击左上角小人图标,检察汗青新闻便可。

但是笼统水平越下,细节疑息益失落便越严峻,如果我们仅用均值去展现上里的数据会是上面那样:

我能设想许多人要推敲版权成绩了,道真话我也出弄清晰,不外看起去创做者其实不正在意,而启里设想者也没有正在意,或许正是没有正在意急忙进了某些文明的衰止。好了,宿世便那样了,那末此生呢?

当《科教好国人》联络到 harold d. craft, jr. 时,他也逆路道了下那幅图背后的故事。刚最先正在脉冲星正在剑桥被发现后,他所正在的团队便认识到本人实在具有其时全国上最好的测量脉冲星的装备,实在也即是电子装备。然后,从测量效果上他们很快便发现脉冲星的脉冲存正在一些漂移,也即是年夜脉冲里有小脉冲,那个效果发表正在《天然》上。但他们感受须要一个更曲不雅观的要发去观察那些脉冲的形式,然后便做了一些叠减图,很快便发现那种图前后的遮挡过分严峻。做为一个法式模范员,遮挡成绩实在即是一个漂移成绩,所以他操起键盘(也能够是挨孔卡)做出了一个漂移版,那样当峰强度充足时才会出现遮挡,而那类峰正是我们念看的形式。不外没有要下估谁人年月的本领,他借得再找人用印度朱火(实在即是中国朱汁)重新勾描一遍才气明晰的放到专士论文里。不外他隐然没有是衰止文明喜悲者,因为曲到他同事有天忙逛时发现后告知他他才发现本人的图那么衰止,然后他尽没有犹豫的购下了有那张图的专辑取海报:

也即是道 joyplot 正在展现本初数据形态时属于比较曲不雅观的,犹如重山叠嶂,岂论是比力峰值还是比力特定数值上几率稀度皆很简朴。而峰值上的遮挡正在多数情况下没有会影响数据展现,因为能放到一起比较的数据集播没有会好太近。一样寻常而行,x轴是一个继绝变量,y轴是分类变量,而下度则是y分类下x的几率稀度集播,符合那个数据结构的数据皆恰当用 joyplot 去举行展现。

简练是有了,数据细节几乎完整益失落。当前的可视化趋向是尽能够少对数据做集播假定,所以要尽能够多的展现细节。那末有人能够便道我用箱线图止不行?

只能道好了一面,因为固然我们如今有了分位数,但其集播还是看没有出去。那末此时有人便道我用提琴图怎样样?毕竟前两天 xkcd 借绘了那个图。

故事借出完,您也注意到了,如今 joyplot 又更名了。新的英文名叫做 ridgeline,中文名临时便叫叠嶂图吧。来由本由还是出正在欢愉小分队上,欢愉小分队实在是纳粹集合营里供应性服务的犹太妇女整体,而那个乐队起名的时辰即是用的那个典故。那样的乌汗青正在西圆全国以至齐全国皆是没有愿意提及的,所以很快能够绘叠嶂图的 ggjoy 包退戚,功效完整一律的 ggridges 包闪明退场。

做者:于淼

1979年,英国乐队欢愉小分队(joy division)刊行了本人的尾张唱片《unknown pleasuers》,那张专辑刊行两周内便卖了5000份,但成绩是……印了10000份。但是,当乐队的单直《transmission》颁布发表后,那张后朋克唱片很快销售一空。做为一个乐盲,我是出弄懂那歌的意义(仿佛对支音机很没有谦)。所有70年月赓绝式微的英国社会使青少年群体对理想极度没有谦,接纳了一些很激烈的表现情势去抒收情绪,那催死了朋克活动,至于后朋克活动,传闻比朋克更具尝试性质。居心思的是那个专辑正在2017年又重新衰止了,倒没有是因为社会再度式微,而是谁人设想极其特别的启里。

如今我问您:哪一个教科最有能够正在p值上制假大概有发表轻视?

那即是叠嶂图的宿世此生了,前宿世比较黑暗,宿世是衰止文明,此生则是可视化范畴的新贵。那里我们还是举个比较现实的例子,上面那组数据收集了348414份期刊论文里的3623355个p值,高出28个教科:

审稿:开益辉

冤有头债有主,《科教好国人》已经对那张启里的根源举行过探究,据启里设想师 peter saville 的道法,那张图是从 1977 年出书的《the cambridge encyclopaedia of astronomy》上里一幅闭于脉冲星 cp1919 所收回的脉冲波叠减图(没有是山岳,也没有是海浪)上获与灵感举行的创做,但那所谓的“创做”本质上即是把色彩做了反转借来失落降了坐标轴。不外那便分析根源是那本书吗?没有,逆着那本书,有人逃溯到了1974年《graphis diagrams: the graphic visualization of abstract data》 。进一步逃溯,会发现更早出书的《科教好国人》(1971年1月刊)上也使用了那幅图。也即是《科教好国人》的考古队出门绕了个圈,又回到启航面了。那种溯源到末了挖了本人祖坟的事实在其实不稀罕,即使正在有搜刮引擎的今日,两脚、三脚以至十八脚材料的根源很能够即是本人颁布发表的材料,不外改头换面后亲爹亲妈能够皆认没有出去。用个赶时兴的话道,该放到区块链上做存正在性证清晰明晰。

编纂:吴佳萍

由于 @hnrklndbrg 给出了做图的 r 源码,一时光年夜家皆最先纷纷回答转收并做出了本人的版本。固然 joyplot 的名字也陪同那条推文最先走白。传闻 是 jenny bryan 尾先提出的那个名字并联络到了上里所道的欢愉小分队的专辑启里。统计之皆上也很快有了谈论争辩帖。

《unknown pleasuers》启里的根源,harold d. craft, jr. 专士论文插图。radio observations of the pulse profiles and dispersion measures of twelve pulsars, harold d. craft, jr. (phd thesis, september 1970 pages 214-216), cornell university

存眷要发:扫描下图两维码。或查找"平易近合乐平台寡,"帐号,搜刮 统计之皆 或 capstat 便可。

敬告列位友媒,如需转载,请取统计之皆小编联络(间接留行或收至邮箱:editor@cos.name ),获准转载的请正在鲜明位置说明做者战出处(转载自:统计之皆),并正在文章末端处附上统计之皆两维码。