Redian新闻
>
怎样截取网页<div></div>中多个<p></p>之间的内容?
avatar
怎样截取网页<div></div>中多个<p></p>之间的内容?# Java - 爪哇娇娃
T*n
1
或是自我认同 为 文青吗?
文艺青年、文学青年。。。
中年也算
avatar
l*u
2
需要同时view data from tables from different databases. how can I create a
view that across different databases?
Thanks
avatar
o*g
3
已读入html文件,现用正则表达式截取
里的内容。如果
里只有一段内容(一

),则可以成功截取。但若
里有大于等于2段内容时,则这一整块

内的内容无法截取。有谁知道怎么搞定这个问题吗?求给点意见
以下是Java的代码:
public static void main(String[] args) throws IOException {
File source_file = new File("./data/page source.txt");
FileReader fr = null;
BufferedReader br = null;
try {
fr = new FileReader(source_file);
br = new BufferedReader(fr);
} catch (FileNotFoundException e2) {
e2.printStackTrace();
}
String pageSource = null;
String regEx = "
(

.+?)

";

int i=0;
while ((pageSource = br.readLine()) != null) {
Pattern pat = Pattern.compile(regEx);
Matcher mat = pat.matcher(pageSource);
while(mat.find()) { // replace" "
i++;
System.out.println(i+" "+mat.group(1));
}
}
}
正则表达式为:String regEx = "

(.+?)
";
以下是匹配的HTML源代码的样例

I am really excited about taking this course, because as a student, I
have always been very excited about teachers who made a point to incorporate
media and technology in the classroom.  For me, it has always made
learning a bit more fun.  Particularly, in high school, I remember
taking physics (which I really didn't enjoy) but my teacher used a
SmartBoard and incorporated our cell phones into our lessons, and it always
made it that much more intriguing.  I think it is important to learn
how to incorporate such technology into the classroom setting because it
will stimulate the students, even if they don't have a strong interest
in the particular subject.

At the same time, I hope that I am able
to keep up with classroom technology.  As a young teacher-hopeful, I am
very aware of technology in today's society and learning about all of
the new available technologies.  Yet, I know it is a very fast paced
market,and I hope to be able to keep learning as I continue into my career.&
#160;


这一块能截取

The game I remember was the Oregon Trail. Maybe this is because no other
game stuck in my head or because my classroom was so into it this game that
it stuck in my head. 


The best part of this game was that everyone in my class was involved and
excited about the game. From the very extroverted to those who were not, it
allowed all of my classmates to have input and participate.


这一块不能截取
问题是出在正则表达式里么?求懂这一块的高手支招啊~~艾玛谢不尽啊e*****t
发帖数: 1005
2
不是regex高手,要是我,直接把html parse了,用xpath搞定。

【在 o********g 的大作中提到】
: 已读入html文件,现用正则表达式截取
里的内容。如果
里只有一段内容(一
: 组

),则可以成功截取。但若
里有大于等于2段内容时,则这一整块

: 内的内容无法截取。有谁知道怎么搞定这个问题吗?求给点意见
: 以下是Java的代码:
: public static void main(String[] args) throws IOException {
: File source_file = new File("./data/page source.txt");
: FileReader fr = null;
: BufferedReader br = null;
: try {
: fr = new FileReader(source_file);
m*****r
发帖数: 298
3
晕,貌似这个xpath很适合我前两天的提问啊。。。。
http://www.mitbbs.com/article_t/Java/31141889.html

【在 e*****t 的大作中提到】
: 不是regex高手,要是我,直接把html parse了,用xpath搞定。
o********g
发帖数: 14
4

嗯多谢给出意见,试试去

【在 e*****t 的大作中提到】
: 不是regex高手,要是我,直接把html parse了,用xpath搞定。
i**w
发帖数: 883
5
Pattern p = Pattern.compile("
>(.+?)");
Matcher m = p.matcher(input);

if (m.matches()) {
int cnt = m.groupCount();
System.out.println(cnt);

String g1 = m.group(1);
System.out.println(g1);

String g2 = m.group(2);
System.out.println(g2);
}o***e
发帖数: 65
6
试试jsoup?
b******y
发帖数: 9224
7
你需要用jsoup等html parsing的工具。
不要写regex, 这个我做过很多时间了。你会发现,你写了,就算没问题,将来维护也
麻烦。得不偿失哈。
我的经验总结。
avatar
M*N
4
你才文青呢,你全家都文青~

【在 T******n 的大作中提到】
: 或是自我认同 为 文青吗?
: 文艺青年、文学青年。。。
: 中年也算

avatar
B*g
5
create view a_view
as
select a.*, b.*
from db1.schema1.tab1 a, db2.schema2.tab2 b
where ....



【在 l********u 的大作中提到】
: 需要同时view data from tables from different databases. how can I create a
: view that across different databases?
: Thanks

avatar
e*t
6
不是regex高手,要是我,直接把html parse了,用xpath搞定。

【在 o********g 的大作中提到】
: 已读入html文件,现用正则表达式截取
里的内容。如果
里只有一段内容(一
: 组

),则可以成功截取。但若
里有大于等于2段内容时,则这一整块

: 内的内容无法截取。有谁知道怎么搞定这个问题吗?求给点意见
: 以下是Java的代码:
: public static void main(String[] args) throws IOException {
: File source_file = new File("./data/page source.txt");
: FileReader fr = null;
: BufferedReader br = null;
: try {
: fr = new FileReader(source_file);
avatar
l*a
7
娜娜学得这么快!:)

【在 M****N 的大作中提到】
: 你才文青呢,你全家都文青~
avatar
m*r
8
晕,貌似这个xpath很适合我前两天的提问啊。。。。
http://www.mitbbs.com/article_t/Java/31141889.html

【在 e*****t 的大作中提到】
: 不是regex高手,要是我,直接把html parse了,用xpath搞定。
avatar
q*i
9
嗯,我从来觉得文青比骂人猥琐还狠毒
avatar
o*g
10

嗯多谢给出意见,试试去

【在 e*****t 的大作中提到】
: 不是regex高手,要是我,直接把html parse了,用xpath搞定。
avatar
T*n
11
no ah, I am under-educated and illiterate.
Moreover, not young any more.

【在 M****N 的大作中提到】
: 你才文青呢,你全家都文青~
avatar
i*w
12
Pattern p = Pattern.compile("
>(.+?)");
Matcher m = p.matcher(input);

if (m.matches()) {
int cnt = m.groupCount();
System.out.println(cnt);

String g1 = m.group(1);
System.out.println(g1);

String g2 = m.group(2);
System.out.println(g2);
}o***e
发帖数: 65
6
试试jsoup?
b******y
发帖数: 9224
7
你需要用jsoup等html parsing的工具。
不要写regex, 这个我做过很多时间了。你会发现,你写了,就算没问题,将来维护也
麻烦。得不偿失哈。
我的经验总结。
avatar
wh
13
哈哈,你这个文青……

【在 q*****i 的大作中提到】
: 嗯,我从来觉得文青比骂人猥琐还狠毒
avatar
o*e
14
试试jsoup?
avatar
M*N
15
比小资好点~

【在 q*****i 的大作中提到】
: 嗯,我从来觉得文青比骂人猥琐还狠毒
avatar
b*y
16
你需要用jsoup等html parsing的工具。
不要写regex, 这个我做过很多时间了。你会发现,你写了,就算没问题,将来维护也
麻烦。得不偿失哈。
我的经验总结。
avatar
T*n
17
I hate 小资
I hate bourgeoisie

【在 M****N 的大作中提到】
: 比小资好点~
avatar
M*N
18
哈哈,还有个垫底的词儿,banker.

【在 T******n 的大作中提到】
: I hate 小资
: I hate bourgeoisie

avatar
T*n
19
Nana, bankers tune in webradio and youtube too.

【在 M****N 的大作中提到】
: 哈哈,还有个垫底的词儿,banker.
avatar
M*N
20
yeah, just like 文青 and 小资

【在 T******n 的大作中提到】
: Nana, bankers tune in webradio and youtube too.
avatar
I*d
21
俺觉得,文学女青年似乎比文学青年更加不妥,似乎女性宁可小资,万不可文学女青年
avatar
M*N
22
咳咳,我发现综合了刚才我们讨论的这几个词的好像是曾子墨童鞋。。。

【在 I***d 的大作中提到】
: 俺觉得,文学女青年似乎比文学青年更加不妥,似乎女性宁可小资,万不可文学女青年
: 。

avatar
Y*e
23
我认为这是个谦辞
avatar
T*n
24
是说文青吗?

【在 Y*********e 的大作中提到】
: 我认为这是个谦辞
avatar
Y*e
25


【在 T******n 的大作中提到】
: 是说文青吗?
avatar
T*n
26
你喜欢别人叫 文人
哈哈

【在 q*****i 的大作中提到】
: 嗯,我从来觉得文青比骂人猥琐还狠毒
avatar
T*n
27
wh 你也是

【在 wh 的大作中提到】
: 哈哈,你这个文青……
avatar
T*n
28
不是标榜吗?
咋谦了??

【在 Y*********e 的大作中提到】
: 啊
avatar
wh
29
什么曾子墨童鞋?

【在 M****N 的大作中提到】
: 咳咳,我发现综合了刚才我们讨论的这几个词的好像是曾子墨童鞋。。。
avatar
wh
30
我倒没觉得文青怎么贬义。你要是想贬我就失策了。哈哈。

【在 T******n 的大作中提到】
: wh 你也是
avatar
q*i
31
嗯,你是文青不如

【在 wh 的大作中提到】
: 我倒没觉得文青怎么贬义。你要是想贬我就失策了。哈哈。
avatar
T*n
32
巴结

【在 wh 的大作中提到】
: 我倒没觉得文青怎么贬义。你要是想贬我就失策了。哈哈。
avatar
wh
33
哈哈那是啥?
你快看你快看,疯鱼的soulmate是晨曦……嫉妒不?

【在 q*****i 的大作中提到】
: 嗯,你是文青不如
avatar
m*e
34
不检点的同义词?

【在 I***d 的大作中提到】
: 俺觉得,文学女青年似乎比文学青年更加不妥,似乎女性宁可小资,万不可文学女青年
: 。

avatar
n*o
35
反对污蔑。
女文青很好听。

【在 m**e 的大作中提到】
: 不检点的同义词?
avatar
s*y
36
这种话只有小北京用北京话说起来有意思,你这么假模假式的用英文说出来真是索然无
味啊

【在 T******n 的大作中提到】
: no ah, I am under-educated and illiterate.
: Moreover, not young any more.

avatar
T*n
37
你说说看嘛

【在 s*******y 的大作中提到】
: 这种话只有小北京用北京话说起来有意思,你这么假模假式的用英文说出来真是索然无
: 味啊

avatar
s*y
38
这是口语,得说了听才有意思啊,呵呵,我在网上怎么说,何况我也不是北京人

【在 T******n 的大作中提到】
: 你说说看嘛
avatar
T*n
39
你是北方人

【在 s*******y 的大作中提到】
: 这是口语,得说了听才有意思啊,呵呵,我在网上怎么说,何况我也不是北京人
avatar
s*y
40
四川话还算是北方语系呢,呵呵

【在 T******n 的大作中提到】
: 你是北方人
avatar
T*n
41
他们是北方加内地
哦,你也是哇

【在 s*******y 的大作中提到】
: 四川话还算是北方语系呢,呵呵
avatar
s*y
42
这个哦和哇用得好,很做作啊

【在 T******n 的大作中提到】
: 他们是北方加内地
: 哦,你也是哇

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。