Redian新闻
>
科技爱好者周刊 #244:大数据已死

科技爱好者周刊 #244:大数据已死

科学

这里记录每周值得分享的科技内容,周五发布。

本杂志开源[1],欢迎投稿[2]。周刊另有《谁在招人》[3]服务,发布程序员招聘信息。合作推广请邮件联系[4][email protected][5])。

封面图

新西兰小镇 Tirau,在公路边放置了很多波纹铁皮做的奇特建筑。上图的小狗其实是一个公共厕所。(via[6]

本周话题:大数据已死

“大数据”这个词,大家想必耳熟能详。这是最大众化的 IT 词汇之一,全社会曾经都热衷于它。

百度指数[7]显示,“大数据”从2011年开始进入搜索引擎,然后快速传播,在2017年~2019年之间达到顶峰。

那时,大家都认为,数据在未来将指数式增长,世界将被海量数据淹没。如何处理这些数据,就成为了关键问题。它决定了一个企业甚至一个国家在信息时代的竞争力。

于是,企业纷纷寻求大数据解决方案,出现了很多相关的招聘岗位,还都是高薪。高校也积极响应,有报道[8]称,国内有600多所高校开设了“大数据专业”或“大数据学院”,其中包括北京大学[9]复旦大学[10]这样的名校。

但是,十年过去了,大数据并没有成为发展的瓶颈,我们依然足以处理产生的所有数据,在可预见的将来也是如此。

预言中的大数据时代,看上去不仅没有来临,反而变得遥遥无期了。 “大数据“这个词的热度,也在不断降温,被提及次数变少了,招聘岗位也慢慢不见了。

与之相应的是,”大数据“这个技术领域,也进展甚微,没有诞生新的概念和理论,技术没有突破,很多方向都停滞不前。

比如,专为处理大数据而设计的 NoSQL 数据库,声势越来越小,陷入停滞,反而是传统的关系型数据库(SQLite、Postgres、MySQL)强劲增长,越发受欢迎。

这是怎么回事?

谷歌的大数据工程师乔丹·蒂加尼 (Jordan Tigani),最近直言不讳地说:“大数据已死[11]”。

他认为,大数据时代已经结束了,大数据的存储和分析,作为一个技术问题已经解决了。 用户已经不必担心数据大小了,再多的数据都不是问题。

他提出了“大数据已死”的6个理由,我觉得很有说服力,下面就跟大家分享。

(1)绝大多数企业到不了大数据级别。 企业的数据量往往不到 1TB,很多甚至不到 100GB。

假设一家中等规模的制造业公司,拥有1000个客户,每个客户每天产生一个订单,每个订单包含100个产品。这家公司一天产生的数据量,依然远远小于 1 MB。三年后,数据总量也只有 1 GB,达到 1 TB 需要几千年。

就算是大型互联网公司,大多数时候也到不了大数据级别。假设某个营销活动有100万用户参加,并且同一时间,该公司开展了几十个这样的营销活动,每天的数据量依然不足 1 GB,就算加上各种日志,可能也只有几个 GB,这跟大数据相差甚远。

(2)存储和计算正在分离。 大数据包含“数据存储”和“数据计算”两个方面,如果放在一个系统里面处理,确实很难。

但是,这两方面现在已经能够脱钩,变成两个独立系统,各自都能独立扩展。这意味着,“数据计算”不受“数据存储”(数据库大小)的限制,反之依然。

因此,大数据作为单一问题就不存在了,变成了海量存储和大型计算两个问题。

(3)没有新业务的情况下,数据是线性增长的, 即每天的新增数据与以前的数据结构相同。

以前的数据一旦写入数据库,通常就不再发生变化,也没有新的计算需求,相关计算在以前就完成了。这时只要对最近的新增数据进行单独计算,然后保存就可以了。你很少需要每天扫描一遍旧数据:那些数据一成不变,为什么要一遍一遍计算它们呢?

因此,对于一家企业来说,“数据会指数式增长”这个假设并不成立。而且,数据计算的需求,其实比数据存储的需求小得多,因为老数据很少需要再次计算。

(4)人们看重的往往只是最近的数据。最频繁的查询是针对24小时内产生的数据,一周前的数据的查询可能性要低20倍,一个月前的历史数据只会偶尔被查询。

这意味着,大数据更像静态数据,而不完全是动态数据。既然以前的数据很少用到,那么就可以压缩保存。一个包含10年数据的表格,可能会达到 PB 级别,但是如果压缩保存历史数据,压缩后可能不到 50 GB。

(5)真正拥有大数据的公司,几乎从不查询全部数据。他们90%的查询涉及的数据少于 100 MB,涉及 TB 级别数据的查询非常少。

就算查询 TB 级别数据,查询性能的优先级往往并不高。等一个周末或几天才拿到结果,通常是可以接受的。

另外,大型数据集的查询非常昂贵。谷歌的 BigQuery 的 PB 级别查询报价是 5,000 美元,即使是大公司也不会经常使用。

(6)硬件的飞速发展,使得单台计算机的计算能力大增。 2004年,谷歌发表 MapReduce 论文时,单机的计算能力还比较弱,很多计算必须通过分布式完成。

2006年,AWS 推出了 EC2 云主机,你只能用到一个单核 CPU 和 2 GB 内存。今天,AWS 的标准实例具有64个内核和 256 GB 内存。如果愿意多花钱,还可以拿到445个内核和超过 24 TB 内存。

单机计算能力大大增强,意味着大数据的最大难点——分布式计算——即使被用到,困难程度也大大降低。

综上所述,结论就是:数据量已经不需要特别关注了,再也不必担心处理不了海量数据了。 大数据作为一个技术问题,已经解决了。

科技动态

1、AI 时装表演[12]

一位非洲艺术家使用 AI 生成了一场时装表演。

他告诉 AI,他想要一场非洲老年人展示民族服装的时装表演,AI 就生成了相应的图片。经过不断调整,最终得到了相当理想的结果。

可以看到,这些图片可能比真实的时装秀效果更好、影响更大。

在现实生活中,找到这些模特,以及准备好这些服装,是非常困难的,成本也很高。

以后肯定有很多时装展示,会用 AI 生成。这对于时尚行业也许会产生很大的冲击,谁能想到,AI 还能影响到模特儿的生计。


2、马桶冲水的气溶胶[13]

公共卫生学家一直呼吁,马桶冲水会产生气溶胶的粒子扩散,可能会传播病原体,但是没有证据证实这种扩散的速度和分布。

科罗拉多大学的工程师团队,使用绿色激光和高速摄像设备,拍摄马桶冲水,证实确实存在气溶胶扩散。

实验发现,冲水时,颗粒以每秒2米的速度快速射出,可以到达马桶上方1.5米的高度(上图)。

虽然较大的颗粒会在几秒钟内沉降到马桶表面上,但较小的气溶胶颗粒可以在空气中悬浮几分钟或更长时间。

下图是实验时的激光拍摄场景。


3、GPS 艺术[14]

谷歌地图会根据 GPS 信号,显示运动轨迹。很多人就通过这种方式,在谷歌地图作画,称为 GPS 艺术。

一个日本男子为了向女友求婚,在谷歌的日本地图上写下了“Marry Me”,最后还画了一颗被箭射中的心。

他从日本北部的北海道,一直开车到南端的鹿儿岛,一共行进了7163公里,为期6个月,是世界最大的 GPS 艺术品。


4、火山熔岩表演[15]

冰岛首都雷克雅未克有一个特殊的剧场演出,表演熔岩流出火山。

它使用的是1918年火山喷发出来的真实熔岩,一次要用到600公斤。重新加热到熔点(1100摄氏度)后,已经冷却的熔岩重新变成火红的液体,从高处的滑梯流下来,让游客感受一下火山喷发的感觉。

真实的火山熔岩含有硫磺气体,是有毒的,但是经过多次加热后,这些气体都已经散发掉了,所以是安全的。

活动主办人说,有一次火山喷发,他看到很多游客都赶去观看,就萌生了举办熔岩秀的念头。

文章

1、我如何搭建自己的博客[16](英文)

作者详细介绍自己使用 Next.js 框架和其他 React 工具,搭建博客的过程。他要使用 MDX 格式将 React 组件加入 Markdown 文件。


2、Steam Deck 上市一周年[17](英文)

本月,掌上游戏机 Steam Deck 上市满一周年了。本文介绍了这个设备的很多创新,尤其在软件上。


3、如何配置 nano 编辑器[18](英文)

服务器都自带 nano 编辑器,但是一般认为它的功能比较弱。本文介绍只要正确配置,它就会变得很好用。


4、Stripe 如何用 Markdoc 构建交互式文档[19](英文)

Markdoc 是 Markdown 的一种扩展语法,允许在生成 HTML 页面时插入组件,用户可以跟文档交互。本文介绍 Stripe 公司怎么使用 Markdoc 构建文档。


5、CSS 的颜色格式[20](英文)

这篇长文详细介绍 CSS 颜色的各种格式,如果想深入掌握如何表示颜色,推荐阅读这篇文章。


6、使用 ClickHouse 查询 GitHub[21](英文)

ClickHouse 是著名的数据仓库软件,它的官网有一个练习场[22],可以在线查询2011年以来所有的 GitHub 事件,总共31亿条记录。本文演示怎么使用这个数据库。


7、用信鸽解释 HTTPS[23](英文)

作者以信鸽传书举例,解释 HTTPS 协议是什么,写得很好,这个例子也很贴切。


8、Windows 11 有多少层 UI?[24](英文)

一篇挺有趣的文章,作者检视 Windows 11 的 UI 里面保存了多少以前的样式,甚至找出了遗留的 Windows XP 和 Windows 3.1 的样式。

工具

1、kill-sticky[25]

一个书签脚本,用于去除网页的粘性(sticky)元素。很多网站使用这种元素生成遮罩层,非常讨厌。类似的脚本还有 unsticky[26]


2、幕境[27]

英语学习软件,用户上传原版视频和字幕,软件会自动生成词库。以后播放视频时,遇到词库里面的单词,该词就会以弹幕形式自动展示释义。(@tangshimin[28] 投稿)


3、轻快图床[29]

一个基于 Web 的图床系统。(@it-chenliang[30] 投稿)


4、Datasette[31]

开源的数据探索工具,可以从各种数据源导入数据,然后自定义数据的查询和展示形式(图表、仪表盘、地图等等)。(@jerrylususu[32] 投稿)


5、DrissionPage[33]

一个基于 Python 的网页自动化工具,可以编写脚本操作浏览器。(@g1879[34] 投稿)


6、git-hours[35]

一个 JS 写的命令行工具,可以估计开发某个代码库花费的大致时间。


7、Manticore Search[36]

一个开源的全文搜索引擎,号称可以替代 Elasticsearch,支持中文。


8、Unsilence[37]

一个命令行工具,自动删除视频里面的无声片段,比较适合处理演讲、讲座视频。


9、Tabler[38]

一个基于 Bootstrap 的网页 UI 框架,专用于开发管理后台。


10、Code Language Converter[39]

这个网站可以把一种语言的代码,转成另一种语言,比如把 JS 代码转 PHP 代码。它是收费服务,但是有免费额度。


11、VueTube[40]

网友自己开发的 Youtube 手机客户端,支持安卓和 iOS。

资源

1、CSS Bed[41]

这个网页收集并展示各种无类的极简化 CSS 框架。如果你想选一个简单的 CSS 框架,可以看看它。


2、C 语言手册[42](GNU C Language Manual)

理查德·斯托曼最近编写的 C 语言教程,这是源码,GitHub[43] 有转换好的 PDF 文件下载。


3、Atkinson Hyperlegible 字体[44]

一种高辨识度的英文字体,容易混淆的字符都做了明显区别,比如 1 和 I、i 和 l。


4、Python 实用教程[45]

一本简单实用的 Python 入门英文教程。

图片

1、美国总统的 AI 画像[46]

一位美国专栏作家使用 AI,为每一位美国总统生成了 Pixar 式的卡通风格画像。

下面是最近半个世纪的美国总统。


2、布鲁塞尔化[47]

上个世纪60年代和70年代,比利时首都布鲁塞尔对城市规划放任自流,导致传统街区里面出现了很多毫不协调的高层建筑。

上图中,高层建筑完全随意地建在传统街区里面,破坏了城市功能和景观。

后来,在建筑学中,“布鲁塞尔化”就用来指杂乱无章的城市规划。

文摘

1、苏联潜艇 K-219[48]

K-219 是苏联海军的一艘核潜艇,可以携带16枚导弹,这些导弹配备32枚或48枚核弹头。

1986年10月3日星期五,它正在大西洋航行,导弹发射管突然爆炸起火。苏联后来声称,这是因为与美国潜艇发生了碰撞,但是美国海军否认。

两名苏联水手在爆炸中当场丧生,第三名水手不久后死于有毒气体。更糟糕的是,爆炸将潜艇炸出一个缺口,海水涌入,潜艇从海底40米快速坠落到300米。

艇长不得不立即关闭所有舱室之间的密封门,防止海水不断涌入。

25名水手被困在一个密封舱出不来。经过紧张的会议,艇长最终同意打开这个密封舱,让他们出来。

最可怕的是,核反应堆本应自动关闭,但还在运行。如果一直这样下去,后果不堪设想。反应堆舱室的温度已经超过60摄氏度,并且充满了有毒的硝酸烟雾,但还是必须有人进去,手动将控制棒放入反应堆,让其停止运行。

第一个士兵进入反应堆舱,但是只插入一根控制棒(共需插入四根),就耗尽了氧气。他不得不退出,一走出来就昏了过去。

这时,一个20岁的士兵表示,愿意去完成这项任务。他穿着防化服,进入房间,成功关闭了反应堆。但是,房间里发生了大火,增加了压力,压力差使得这个士兵无法再打开门出来,最后他在反应堆舱内窒息而死。他后来被追授俄罗斯联邦英雄称号。

核反应堆关闭后,潜艇就失去了动力。艇长完全依靠电池供电,让 K-219 浮出水面。然后,苏联准备派出一艘货轮将这艘潜艇拖回港口。

但是,海水仍在不断渗入,到了三天后的10月6日,已经完全无法修复。所有人员不得不撤离,这艘潜艇和携带的核武器就这样沉入了6000米的大西洋海底,至今仍在那里。

言论

1、

摩尔定律只说了,每18个月计算机芯片的晶体管数量增加一倍,但是没有说增加一倍所需要投入的科研人员,今天是1970年代的18倍。

-- 《2022 年生物学突破》[49]


2、

我做过70多个创业项目,只有4个成功。总体来看,我的成功率只有5%左右,我做的事情95%是要失败的。

所以…… 我就要去做更多的项目啊。

-- 推特网友[50]


3、

一些科学家像鸟,从鸟瞰的角度看待问题,注重面前的广阔风景,不需要太多细节。另一些科学家像青蛙,只盯着眼前的事物,喜欢深入细节。

-- 《物理学的鸟和青蛙》[51]


4、

你应该开始写博客,如果不知道写什么,就写你学到的东西,以及写下你创造或建立的东西。

-- 《博客写什么》[52]


5、

世界隐藏的终极真相是,这个世界是我们创造出来的东西,而且可以很容易地做出不同的样子。

-- Hacker News 读者[53]

历史上的本周

如果这个世界有快乐机(2022 #197)

寻找你愿意忍受的痛苦(2021 #147)

远程办公暴露冗余岗位(2020 #95)

阿西莫夫回忆录《人生舞台》(2019 #45)

鸣谢

周刊得到国内新一代知识管理与协作平台 FlowUs[54] 的帮助,深表感谢。

FlowUS[55] = 文档 + 表格 + 网盘。你可以用它写文档、做主页、管理数据、存储文件等等。

每一期周刊同时发布在 FlowUs 专栏[56],欢迎大家也去开通自己的专栏和主页。

(完)

References

[1] 开源: https://github.com/ruanyf/weekly
[2] 投稿: https://github.com/ruanyf/weekly/issues
[3] 《谁在招人》: https://github.com/ruanyf/weekly/issues/2960
[4] 邮件联系: mailto:[email protected]
[5] [email protected]mailto:[email protected]
[6] via: https://www.newzealand.com/us/tirau/
[7] 百度指数: https://index.baidu.com/v2/main/index.html#/trend/%E5%A4%A7%E6%95%B0%E6%8D%AE?words=%E5%A4%A7%E6%95%B0%E6%8D%AE
[8] 报道: https://m.mp.oeeee.com/a/BAAFRD000020200728349302.html
[9] 北京大学: https://www.math.pku.edu.cn/bks/zyjs/69751.htm
[10] 复旦大学: https://sds.fudan.edu.cn/
[11] 大数据已死: https://motherduck.com/blog/big-data-is-dead/
[12] AI 时装表演: https://mymodernmet.com/malik-afegbua-fashion-show-for-elders/
[13] 马桶冲水的气溶胶: https://www.colorado.edu/today/2022/12/08/cu-scientists-shine-light-what-comes-when-you-flush
[14] GPS 艺术: https://interestingengineering.com/culture/man-travels-4000-miles-marriage
[15] 火山熔岩表演: https://phys.org/news/2022-12-lava-iceland-volcano.html
[16] 我如何搭建自己的博客: https://www.joshwcomeau.com/blog/how-i-built-my-blog/
[17] Steam Deck 上市一周年: https://boilingsteam.com/steam-deck-first-anniversary-of-the-ultimate-gaming-platform/
[18] 如何配置 nano 编辑器: https://ariadne.space/2021/08/13/gnu-nano-is-my-editor-of-choice/
[19] Stripe 如何用 Markdoc 构建交互式文档: https://stripe.com/blog/markdoc
[20] CSS 的颜色格式: https://www.joshwcomeau.com/css/color-formats/
[21] 使用 ClickHouse 查询 GitHub: https://til.simonwillison.net/clickhouse/github-explorer
[22] 练习场: https://play.clickhouse.com/play?user=play
[23] 用信鸽解释 HTTPS: https://baida.dev/articles/https-explained-with-carrier-pigeons
[24] Windows 11 有多少层 UI?: https://ntdotdev.wordpress.com/2023/01/01/state-of-the-windows-how-many-layers-of-ui-inconsistencies-are-in-windows-11/
[25] kill-sticky: https://github.com/t-mart/kill-sticky
[26] unsticky: https://github.com/nothingless/unsticky
[27] 幕境: https://github.com/tangshimin/MuJing
[28] @tangshimin: https://github.com/ruanyf/weekly/issues/2936
[29] 轻快图床: https://github.com/ischenliang/quickly-picture-bed
[30] @it-chenliang: https://github.com/ruanyf/weekly/issues/2937
[31] Datasette: https://datasette.io/
[32] @jerrylususu: https://github.com/ruanyf/weekly/issues/2950
[33] DrissionPage: https://github.com/g1879/DrissionPage
[34] @g1879: https://github.com/ruanyf/weekly/issues/2946
[35] git-hours: https://github.com/kimmobrunfeldt/git-hours
[36] Manticore Search: https://github.com/manticoresoftware/manticoresearch
[37] Unsilence: https://github.com/lagmoellertim/unsilence
[38] Tabler: https://github.com/tabler/tabler
[39] Code Language Converter: https://codelanguageconverter.com/
[40] VueTube: https://github.com/VueTubeApp/VueTube
[41] CSS Bed: https://www.cssbed.com/
[42] C 语言手册: https://lists.gnu.org/archive/html/info-gnu/2022-09/msg00005.html
[43] GitHub: https://github.com/VernonGrant/gnu-c-language-manual
[44] Atkinson Hyperlegible 字体: https://brailleinstitute.org/freefont
[45] Python 实用教程: https://dabeaz-course.github.io/practical-python/Notes/Contents.html
[46] 美国总统的 AI 画像: https://twitter.com/DSzymborski/status/1627038833455038469
[47] 布鲁塞尔化: https://en.wikipedia.org/wiki/Brusselization
[48] 苏联潜艇 K-219: https://en.wikipedia.org/wiki/Soviet_submarine_K-219
[49] 《2022 年生物学突破》: https://cell.substack.com/p/biology-breakthroughs-2022
[50] 推特网友: https://twitter.com/levelsio/status/1457315274466594817
[51] 《物理学的鸟和青蛙》: https://3quarksdaily.com/3quarksdaily/2020/11/birds-and-frogs-in-physics.html
[52] 《博客写什么》: https://simonwillison.net/2022/Nov/6/what-to-blog-about/
[53] Hacker News 读者: https://news.ycombinator.com/item?id=34211460
[54] FlowUs: https://flowus.cn?promotionChannel=GW_RYF_01
[55] FlowUS: https://flowus.cn?promotionChannel=GW_RYF_01
[56] FlowUs 专栏: https://ruanyf-weekly.flowus.cn/?code=FLOWUS&promotionChannel=WX_RYF_00


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
科技爱好者周刊#249:最成功的软件企业家叙事已死、人物已死、作者已死UCLA人最爱的小食堂回归,嗦粉爱好者看过来!科技爱好者周刊(第242期):一次尴尬的服务器被黑科技爱好者周刊(第240期):教育年限可以缩短吗?买星巴克被收小费4444.44元 奥州夫妇没钱回亚洲科技爱好者周刊#250:新技术的最大风险科技爱好者周刊(第239期):未来两种人会增加科技爱好者周刊(第241期):中国的增长动力在内陆科技爱好者周刊#251:国产单板机值得推荐第二次徒步圣路,750公里葡萄牙之路+英国之路:D24~乡间求助爸爸头七,写写我心目中的爸爸建了个中医学习群,历史爱好者免费进,涉及失眠、头疼、脖子痛...等问题调理法,还剩200人群满 !科技爱好者周刊#248:不要夸大 ChatGPT点2杯星巴克被收$4444美元!亚裔夫妻卡被刷爆 一看小票懵圈了又一名女子在Hiking的时候跌落山崖死亡!最近天雨路滑,户外爱好者务必谨慎买星巴克被收小费4444.44元 奥克拉荷马夫妇没钱回亚洲截团提醒:咖啡爱好者看过来!方言爱好者们请进!| 1月评刊开奖广场离谱!买星巴克被收小费4444.44元!明确了!刚刚正式公布了:1月份起全体英语爱好者恭喜了!这波惊喜来的太突然了科技爱好者周刊 #243 :与孔子 AI 聊天拜登政府如惊弓之鸟!F-22击落的疑似民间爱好者的玩具气球,40万美元的导弹击落12美元的气球面食爱好者狂喜!为什么说“世界面食在中国”?狐狸精少女拜登政府如惊弓之鸟!F-22击落的是民间爱好者的玩具气球,40万美元的导弹击落12美元的气球热门方向Top4:大前端监控、移动端性能与效率优化、团队可持续发展、低代码|GMTC 北京站圆满落幕科技爱好者周刊#245:摩天大楼是反人类的钓鱼爱好者注意!美淡水鱼含致癌“永久性化学物”,吃一条等于喝一个月污水!科技爱好者周刊(第238期):停止寻找的最佳时间古典音乐爱好者的爵士入门【美国春天妇女节文艺复兴钢琴三部曲2灵魂音乐不喊口号艺术节27/244】现代思想知识产权《美好和谐社会冬季罕见水果?!蓝莓爱好者速来拿!!科技爱好者周刊#252:互联网创业变难了洛杉矶街头, 遇到黑人流浪汉……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。