Redian新闻
>
跑SDS-PAGE的一个小问题
avatar
跑SDS-PAGE的一个小问题# Biology - 生物学
A*i
1
填表的时候填的按了10个指纹,可约签证的时候接线员说按照上次签证的日期(07年2
月),应该还没开始实施按10个指纹。有可能我父母记错了。现在表格已经提交了,这
个问题答得不对会不会有什么问题?另外我父母在北京住的新房子是我姐的名字,房产
证就不用带了吧?如果要房产证拿不出来,会不会有问题呢?谢谢。
avatar
j*a
2
【 以下文字转载自 LosAngeles 讨论区 】
发信人: junipa (小火慢炖), 信区: LosAngeles
标 题: 8/17星期五晚组织吃绿岛 看画皮2 AMC MontereyPark
发信站: BBS 未名空间站 (Mon Aug 13 00:11:21 2012, 美东)
活动主题:
8/17星期五晚 吃饭看画皮2,电影时间AMC要周3才安排好,预计是7:30电影开场,如果是8
活动时间:
6:00 -7:00 吃绿岛
7:30-9:30 看画皮2
活动地点及集合方法:
AMC Atlantic Times Square 14,at Monterey Park
500 North Atlantic Boulevard #169 同一个palace的绿岛 Green Island 集合先吃饭
活动内容描述:
时间搞的宽裕了一点 绿岛上菜那个点可能没那么快. 吃饭AA 估计10$以内,电影票我买
了8张9$,也可以自己去costco网站 或者店里买AMC Gold Experience,这种是最便宜的.
我因为用了express快递要另收快递费,去店里应该就不用.吃饭如果人数不多 所有小费
我给.吃饭 看片可以只参加一项 ,都参加的吃饭的时候发票. 只看片的 7:00前赶到领
票.
报名方式及截止日期:
re文 或回站内信 都可以. 我的电话 周三我发信通知.不用电话确认 临时不来不用通
知,临时来,如果没票 自己买...
其他说明:
免责声明(可选):
是否需要版务置顶:
avatar
d*u
3
主要用来上网,邮件,看照片
avatar
ET
4
想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。
avatar
b*3
5
为什么制备蛋白样品的时候要加dye,然后跑完还要染色?
avatar
l*e
6
junipa,帮你置顶了。修改了一下标题。希望不要介意。
avatar
A*C
7
够了
但是上网邮件照片其实不用台机的
噪音大又耗电还占地方

【在 d********u 的大作中提到】
: 主要用来上网,邮件,看照片
avatar
p*2
8
regex根据class自己拼不难吧?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
T*t
9
目的不一样,工作原理也不一样。
loading buffer里的dye是tracking dye,一个作用是显色,把样品溶液从无色透明变
成比较深的颜色,方便上样,样品孔加没加,有没有溢出一目了然。另一个作用是示踪
,因为每个染料组分的分子量大小不同,在电泳时的迁移速度相当于不同分子量的蛋白
,让你知道电泳跑到什么时候应该停止以免小分子蛋白跑到胶外面去了。tracking dye
不会结合蛋白,独立于蛋白而迁移,在电泳中只是起到一个指示作用。
跑完之后的染色是为了显示胶里的蛋白,用的染料最常见的是考马斯亮蓝,它特异性结
合蛋白质,让胶里的各种蛋白组分都能显示出来。
avatar
j*a
10
good thanks

【在 l*****e 的大作中提到】
: junipa,帮你置顶了。修改了一下标题。希望不要介意。
avatar
d*d
11
也不一定,台机的好处就是24*7的开着驴子下东西,haha

【在 A******C 的大作中提到】
: 够了
: 但是上网邮件照片其实不用台机的
: 噪音大又耗电还占地方

avatar
d*e
12
各种soup不行?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
b*3
13
Thanks!!

dye

【在 T**********t 的大作中提到】
: 目的不一样,工作原理也不一样。
: loading buffer里的dye是tracking dye,一个作用是显色,把样品溶液从无色透明变
: 成比较深的颜色,方便上样,样品孔加没加,有没有溢出一目了然。另一个作用是示踪
: ,因为每个染料组分的分子量大小不同,在电泳时的迁移速度相当于不同分子量的蛋白
: ,让你知道电泳跑到什么时候应该停止以免小分子蛋白跑到胶外面去了。tracking dye
: 不会结合蛋白,独立于蛋白而迁移,在电泳中只是起到一个指示作用。
: 跑完之后的染色是为了显示胶里的蛋白,用的染料最常见的是考马斯亮蓝,它特异性结
: 合蛋白质,让胶里的各种蛋白组分都能显示出来。

avatar
D*3
14
我都是用笔记本24*7的开着驴子下东西
省电.

【在 d****d 的大作中提到】
: 也不一定,台机的好处就是24*7的开着驴子下东西,haha
avatar
ET
15
python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】
: 各种soup不行?
avatar
i*r
16
很好很强大。

【在 d********u 的大作中提到】
: 主要用来上网,邮件,看照片
avatar
A*C
18
给我普及一下为啥笔记本不能24*7开驴子下东西?

【在 d****d 的大作中提到】
: 也不一定,台机的好处就是24*7的开着驴子下东西,haha
avatar
j*a
19
js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
d*t
20
浪费的...E5400就能完成的工作

【在 d********u 的大作中提到】
: 主要用来上网,邮件,看照片
avatar
p*2
21
你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。

【在 ET 的大作中提到】
: 有些难度。看看quora里pocket 应用的parser作者这么说的:
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

avatar
ET
22
没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。

【在 p**2 的大作中提到】
: 你的意思是不是放虫出去抓,
: 抓下来的内容根据dd来定义新闻内容的雷同,
: 差别大的留下来?
: 如果是那样
: 这个俺没做过,比较高达上,
: 如果你搞定了,也给俺说说,
: 让俺学习学习。
: 如果只是特定网站,比如抓所有的CNN的新闻,
: 那很简单,一般都有rss,就算直接从页面上也很容易。

avatar
w*m
23
爬虫都是体力活。
先上个jquery抓抓试试。
avatar
p*2
24
页面排版啥的都不确定?
只能靠common sense或者自建库filter?

【在 ET 的大作中提到】
: 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
avatar
n*w
25
. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*2
26
你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。

【在 n*w 的大作中提到】
: . net 上我用agile HTML。用XPath。我的情况还不错。
avatar
n*t
27
一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了

【在 p**2 的大作中提到】
: 你用XPATH是预定义了,这个很简单。
: 感觉ET要的是自动识别,
: 我个人感觉要么别人有现成的常见识别list,
: 要么就要自己训练程序做自动识别,
: 一开始必然没法完美。

avatar
m*i
28
scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
m*u
29
I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*2
30
其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。

【在 n*****t 的大作中提到】
: 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
avatar
ET
31
想要把一个链接里的文章的主要内容给提取出来。
比如这个链接:
http://www.nbcnews.com/politics/2016-election/outsider-left-out
我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
语言不限,python, php, javascript, 我都能处理。
使用过一些现成的api,效果都不 是太好。
这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
关系。
avatar
p*2
32
regex根据class自己拼不难吧?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
d*e
33
各种soup不行?

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
ET
34
python下beautuflsoup似乎不能分别主要内容和其它的广告等内容

【在 d******e 的大作中提到】
: 各种soup不行?
avatar
j*a
36
js可以做 没什么依赖
var parser = new DOMParser();
var doc = parser.parseFromString(result, "text/html");
$('table tr', doc).each(function() {
});

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*2
37
你的意思是不是放虫出去抓,
抓下来的内容根据dd来定义新闻内容的雷同,
差别大的留下来?
如果是那样
这个俺没做过,比较高达上,
如果你搞定了,也给俺说说,
让俺学习学习。
如果只是特定网站,比如抓所有的CNN的新闻,
那很简单,一般都有rss,就算直接从页面上也很容易。

【在 ET 的大作中提到】
: 有些难度。看看quora里pocket 应用的parser作者这么说的:
: https://www.quora.com/Whats-the-best-method-to-extract-article-
: HTML-documents#!n=24

avatar
ET
38
没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。

【在 p**2 的大作中提到】
: 你的意思是不是放虫出去抓,
: 抓下来的内容根据dd来定义新闻内容的雷同,
: 差别大的留下来?
: 如果是那样
: 这个俺没做过,比较高达上,
: 如果你搞定了,也给俺说说,
: 让俺学习学习。
: 如果只是特定网站,比如抓所有的CNN的新闻,
: 那很简单,一般都有rss,就算直接从页面上也很容易。

avatar
w*m
39
爬虫都是体力活。
先上个jquery抓抓试试。
avatar
p*2
40
页面排版啥的都不确定?
只能靠common sense或者自建库filter?

【在 ET 的大作中提到】
: 没那么复杂。 就如wanqu。co一样,给个link, 抓主要内容。
avatar
n*w
41
. net 上我用agile HTML。用XPath。我的情况还不错。

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*2
42
你用XPATH是预定义了,这个很简单。
感觉ET要的是自动识别,
我个人感觉要么别人有现成的常见识别list,
要么就要自己训练程序做自动识别,
一开始必然没法完美。

【在 n*w 的大作中提到】
: . net 上我用agile HTML。用XPath。我的情况还不错。
avatar
n*t
43
一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了

【在 p**2 的大作中提到】
: 你用XPATH是预定义了,这个很简单。
: 感觉ET要的是自动识别,
: 我个人感觉要么别人有现成的常见识别list,
: 要么就要自己训练程序做自动识别,
: 一开始必然没法完美。

avatar
m*i
44
scrapy selectors
or 从 google cache parse

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
m*u
45
I think you meant DOM processing. It's not very straight foward. I worked on
something like that about a year ago.
https://github.com/major1xu/webapp

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*2
46
其实还好,就是safari的那个阅读模式,
实际操练起来8,9不离十不难,
做到完美很难。

【在 n*****t 的大作中提到】
: 一般都是固定几个网站吧,随便给个都能抓出来,这牛鞭大法了
avatar
ET
47
我最后用了node module
https://github.com/luin/readability
它是基于readiblity 开源项目出来的。
我之前直接用readability的api, 但是一call多了,就出错误。

【在 p**2 的大作中提到】
: 其实还好,就是safari的那个阅读模式,
: 实际操练起来8,9不离十不难,
: 做到完美很难。

avatar
d*r
48
抓取分析成功率高不,都能抓取哪些网站?

【在 ET 的大作中提到】
: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api, 但是一call多了,就出错误。

avatar
p*r
49
刚看了下,貌似还行,
支持一页多篇文章的抓取吗?

【在 ET 的大作中提到】
: 我最后用了node module
: https://github.com/luin/readability
: 它是基于readiblity 开源项目出来的。
: 我之前直接用readability的api, 但是一call多了,就出错误。

avatar
r*r
50
如果用Java, 可以考虑用Jsoup去分析内容。我试过,感觉还不错。
谁有更好的?
avatar
ET
51
比如小说?
这个readbility还是很有名的一个项目。

【在 p**r 的大作中提到】
: 刚看了下,貌似还行,
: 支持一页多篇文章的抓取吗?

avatar
w*k
52
Boilerpipe
Dragnet
Readability

【在 ET 的大作中提到】
: 想要把一个链接里的文章的主要内容给提取出来。
: 比如这个链接:
: http://www.nbcnews.com/politics/2016-election/outsider-left-out
: 我只需要新闻的主要内容。其它html页面,广告什么或者其它链接一概不需要。
: 语言不限,python, php, javascript, 我都能处理。
: 使用过一些现成的api,效果都不 是太好。
: 这个湾区日报似乎是自己parse的,还不错。当然他能控制文章来源,也许和这个也有
: 关系。

avatar
p*r
53
比如说一页面里面包含了多个作者的观点,
每个观点都单独一篇文章,这也是比较常见的。

【在 ET 的大作中提到】
: 比如小说?
: 这个readbility还是很有名的一个项目。

avatar
w*k
54
我以前写过个算法 可以搞这个
比如一篇博客 下面很多评论
博客带评论一起提取出来
后来跳槽 代码不知道扔哪里了

【在 p**r 的大作中提到】
: 刚看了下,貌似还行,
: 支持一页多篇文章的抓取吗?

avatar
p*r
55
如果是对固定源,这个不难。
难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
我以前做过的方法:
在抓内容之前,先看metadata,
然后根据metadata再抓各类tag里的内容,
然后根据doc distance between metadata and content的最小差异,
来决定抓那部分内容,这样基本可以做到不抓错。

【在 w****k 的大作中提到】
: 我以前写过个算法 可以搞这个
: 比如一篇博客 下面很多评论
: 博客带评论一起提取出来
: 后来跳槽 代码不知道扔哪里了

avatar
e*o
56
斧頭幫學術水平也不錯

【在 p**r 的大作中提到】
: 如果是对固定源,这个不难。
: 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
: 我以前做过的方法:
: 在抓内容之前,先看metadata,
: 然后根据metadata再抓各类tag里的内容,
: 然后根据doc distance between metadata and content的最小差异,
: 来决定抓那部分内容,这样基本可以做到不抓错。

avatar
w*k
57
是general的
算法利用几个因素
1. 主文章,这个用boilerpipe搞定
2. 评论,评论的html dom结构是重复的。
然后里面有日期,有作者名字等
所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是
个评论。这里用了一点机器学习算法来score
是就把内容提取出来

【在 p**r 的大作中提到】
: 如果是对固定源,这个不难。
: 难的是泛源,因为你都不知道对方是什么,能否说说你算法的原理?
: 我以前做过的方法:
: 在抓内容之前,先看metadata,
: 然后根据metadata再抓各类tag里的内容,
: 然后根据doc distance between metadata and content的最小差异,
: 来决定抓那部分内容,这样基本可以做到不抓错。

avatar
p*r
58
学习收藏了,
找时间看看你提到boilerpipe,目前对这没概念。
机器学习算法score,能否展开说说,或者给个link?

【在 w****k 的大作中提到】
: 是general的
: 算法利用几个因素
: 1. 主文章,这个用boilerpipe搞定
: 2. 评论,评论的html dom结构是重复的。
: 然后里面有日期,有作者名字等
: 所以先找出所有重复性的dom结构,再看这个div里面有没有日期等元素来决定它是不是
: 个评论。这里用了一点机器学习算法来score
: 是就把内容提取出来

avatar
ET
59
then just check this one out
https://github.com/seomoz/dragnet

【在 p**r 的大作中提到】
: 学习收藏了,
: 找时间看看你提到boilerpipe,目前对这没概念。
: 机器学习算法score,能否展开说说,或者给个link?

avatar
p*2
60
好,多谢,收藏了,看过之后再来请教。

【在 ET 的大作中提到】
: then just check this one out
: https://github.com/seomoz/dragnet

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。