Redian新闻
>
数据库小白请教:如果数据库文件很大,MySQL和Python Pandas分
avatar
数据库小白请教:如果数据库文件很大,MySQL和Python Pandas分# Programming - 葵花宝典
h*e
1
错判形势,以为最多一个半月就有结果
现在是5月中交到加州的center今天还在initial review,老妈原定月底走,看来是等
不到了
各位都等了多久了?
avatar
c*z
2
之前邮寄file 了 今年tax return(是政府欠我钱)。后来也没管它。到现在查状态也
查不到。可能寄信掉了?
现在在申请OPT 的EAD card。请问没有tax filing的缺失会影响OPT的申请吗。多谢
avatar
m*s
3
数据库小白请教(最近我在业余学习数据库,为了了解system design面试题):如果数
据库文件很大比如10GB,内存6GB,MySQL和Python Pandas分
别是怎么处理的?
看了这个链接:
http://stackoverflow.com/questions/31765123/pandas-dataframe-merge-memoryerror
感觉Pandas要加chunks处理。
而MySQL似乎内部直接处理了。文中的代码没有分批处理的大小size参数,是default的
么?
另外,在一个10GB的数据库里,搜索一个Name field里,名字叫"Mark"的一行,需要费
时多长呢?
怎么估计呢?
是不是估计软件要把这个数据文件分几部分load进memory,然后加上memory搜索的时间。
如果你没有时间解释,能否请给些链接。谢谢!
祝鸡年吉祥如意!
avatar
t*s
4
1-3个月都是正常的。
等待期间的身份看置顶文章。
avatar
h*c
5
数据库这东西发明就是针对硬盘用的。
10年左右的数据库教科书,主要讲MYSQL,有treeindex 还有hash index,去年看mYSQL
好像有新的index 种类。
如果是hash index,应该是O(M),
MYSQL 有个monitor,你可以自己编不同 size ,然后比较一下query 开销。
然后找个地方arvxiyz 一下。
另外MYSQL是开原的,可以自己变变玩,编过一次。没什么技术意义,太泛泛代码太多
avatar
B*t
6
我妈妈的签证延期也是5月中旬交到加州,目前也还是initial review的状态。已经
cancel了机票。焦急......
avatar
n*u
7
服务器加点内存会死人吗?公司服务器内存比个人笔记本电脑还小的公司怎么想的?人
工不要钱的?
10GB又不算大数据。。。
mysql用硬盘比较狠一点,内存只是cache用,小一点他也无所谓,也就慢而已。
搜索field是看index和query,如果是搜名字完全等于“Mark”的话,如果有index会很
快,O(log n)。没index比较慢,O(n),硬盘里一行一行慢慢搜。
你只说10GB,又没说有多少行,数据库设定(myiIsam还是innodb)之类的,没法估计
时间。
pandas不确定,只是一个软件,数据都是临时load的,不像mysql可以提前加上index,
所以应该只能读到内存里再用。
avatar
h*c
8
hard disk I/O 6Gb/s,很简单的数学题
avatar
m*s
9
谢谢回复。
最近我在业余学习数据库,为了了解system design面试题.
》》没index比较慢,O(n),硬盘里一行一行慢慢搜。
在硬盘里一行一行搜,很慢吧。
我还以为是,MySQL自己把数据文件分成几大块,按时间顺序,读一块到内存,搜索,
记下来。
然后处理下一块。

【在 n*********u 的大作中提到】
: 服务器加点内存会死人吗?公司服务器内存比个人笔记本电脑还小的公司怎么想的?人
: 工不要钱的?
: 10GB又不算大数据。。。
: mysql用硬盘比较狠一点,内存只是cache用,小一点他也无所谓,也就慢而已。
: 搜索field是看index和query,如果是搜名字完全等于“Mark”的话,如果有index会很
: 快,O(log n)。没index比较慢,O(n),硬盘里一行一行慢慢搜。
: 你只说10GB,又没说有多少行,数据库设定(myiIsam还是innodb)之类的,没法估计
: 时间。
: pandas不确定,只是一个软件,数据都是临时load的,不像mysql可以提前加上index,
: 所以应该只能读到内存里再用。

avatar
m*s
10
这么简单吗?
处理中也是要读数据到内存里处理。
那么每次要读多少大小的数据到内存呢?
一行一行地读,速度很慢吧。
比如先读进500M内存,处理,接着读下面500M内存。
这个大小有什么讲究?
衔接过程中间有没有什么overhead?

【在 h**********c 的大作中提到】
: hard disk I/O 6Gb/s,很简单的数学题
avatar
h*c
11
你横竖要把硬盘扫一遍。比较硬盘的开销,内存是不是可以忽略了,差一个 order 左右。
具体数据库系统的课本里讲,在这里太叫真意义不大。
cache 的功能就是缓存你追进用过的,没用过的,一下就要swap,开销就大了。
其实课本上讲得也是二三十年前的理论,MYSQL, MSSQL ORCALE什么背后的优化都是技
术秘密,开原的MYSQL比企业版少很多东西。你如果装个单机的话,开原的就够了。

【在 m****s 的大作中提到】
: 这么简单吗?
: 处理中也是要读数据到内存里处理。
: 那么每次要读多少大小的数据到内存呢?
: 一行一行地读,速度很慢吧。
: 比如先读进500M内存,处理,接着读下面500M内存。
: 这个大小有什么讲究?
: 衔接过程中间有没有什么overhead?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。