有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>DataSciences - 数据科学

有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。

有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。# DataSciences - 数据科学

j*a2015-05-02 07:05

1 楼

东方民族定律，东方民族经济学，东方民族主义，东方民族政治学，东方民族理论，大
家支持。

m*r2015-05-02 07:05

2 楼

有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应
该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。
DIR = 'C:\Users\Desktop\data\rec.sport.hockey'
posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)]
x_train = vectorizer.fit_transform(posts)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240:
invalid start byte
Traceback (most recent call last):
File "C:/Users/PycharmProjects/Project3/demo10.py", line 16, in
x_train = vectorizer.fit_transform(posts)
File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_
extractiontext.py", line 804, in fit_transform
self.fixed_vocabulary_)
File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_
extractiontext.py", line 739, in _count_vocab
for feature in analyze(doc):
File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_
extractiontext.py", line 236, in
tokenize(preprocess(self.decode(doc))), stop_words)
File "C:UsersAppDataRoamingPythonPython27site-packagessklearnfeature_
extractiontext.py", line 113, in decode
doc = doc.decode(self.encoding, self.decode_error)
File "C:Python27libencodingsutf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240:
invalid start byte
DIR = 'C:\Users\Desktop\data\rec.sport.hockey'
posts = [codecs.open(os.path.join(DIR,f),'r','utf-8') for f in os.listdir(
DIR)]
x_train = vectorizer.fit_transform(posts)
Traceback (most recent call last):
File "C:/Users/PycharmProjects/Project3/demo10.py", line 15, in
posts = [codecs.open(os.path.join(DIR,f),'r','utf-8') for f in os.
listdir(DIR)]
File "C:Python27libcodecs.py", line 878, in open
file = __builtin__.open(filename, mode, buffering)
IOError: [Errno 24] Too many open files: 'C:\Users\Desktop\data\rec.sport.
hockey\53909'

j*a2015-05-02 07:05

3 楼

细论大规模集体买彩票产生百万富翁创业上市
我们的堪称经典经济学公式的投资方案：“1，私人也可以利用财产储备黄金，达到保
值和升值。2，25万元人民币存支付宝的余额宝（或更多余利宝），每日20元利息，算
算如果在麦当劳肯德基过夜，可以不工作，因此炒不炒股票，买不买房，也就不重要了
。3，资金少也可以建立外国银行账号，兑换外国货币，使财产国际化，高级化。”
这套方案，已使超过5000万人直接盈利，那么在大家资金，黄金，外国货币都很充实，
但是又都在一定的国家局限和封锁的情况下，如何有效率的，有规模的创业上市？这就
是利用集体大规模购买彩票，每轮产生几位百万富翁的方式，达到创业，上市的目的就
可以了。当然，如果国内仍然不是很方便，那么也可以买香港六合彩或台湾和美国的乐
透彩票，我们在海外包括台湾网站，已有超过10万人按照这个方法盈利，创业，因此事
实就是已经有很多我们支持的，我们策划的公司上市了，只是我们并没有直接的合作，
不过这样的公司多了，特别是中国国内，我们总的产业就会很快集合，具备规模，具备
合作运作的条件，这或许可以算作我们的第4条投资理论：“集体购买彩票产生百万富
翁创业上市”，相信大家一定非常认可，非常赞同，非常感谢。
;

Y*a2015-05-02 07:05

4 楼

我不确定，只是几个建议
试试UTF-16呢?
看看你的路径里是不是少了一个／
file打开用完之后及时关上

j*a2015-05-02 07:05

5 楼

h*d2015-05-02 07:05

6 楼

【在 m**********r 的大作中提到】

: 有一个文件夹里有大概1000个文件。我有以下的Python语句调用后出现下面的错误。应
: 该是涉及到特殊字符的问题，我试了其他的方法，都不能解决问题。
: DIR = 'C:\Users\Desktop\data\rec.sport.hockey'
: posts = [open(os.path.join(DIR,f)).read() for f in os.listdir(DIR)]
: x_train = vectorizer.fit_transform(posts)
: UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 240:
: invalid start byte
: Traceback (most recent call last):
: File "C:/Users/PycharmProjects/Project3/demo10.py", line 16, in
: x_train = vectorizer.fit_transform(posts)

j*a2015-05-02 07:05

7 楼

集体买数码产品，建立媒体公司
我们要就事务发表确切可靠的信息，当然是要诉诸媒体机构，但是在各项事务还不是很
充分的情况下，要尽快，提早为大家发送这类信息，我们选择直接的，突出的建立媒体
机构，去推动和促成这件事的实现。我们的经济学理论已然具备这样的条件——只要集
体够大，然后集中购买数码产品，就可以达到这个目的。我的意思是，我们其实需要购
买的是音像器材，印刷机械，不过统一以数码的系统类型去购买，就显得比较容易综合
说明，并且比较先进快捷。因此事实就是，当大家要求我们具备某种事物的功能的时候
，其实是要求我们拥有这种事物本身。以媒体机构作为例子，当我们希望可以任意在媒
体机构发表作品的时候，我们其实是希望以应用媒体机构的方式，达到拥有媒体机构的
目的。叠加归纳我们以前的经济学理论：“1，私人也可以利用财产储备黄金，达到保
值和升值。2，25万元人民币存支付宝的余额宝（或更多余利宝），每日20元利息，算
算如果在麦当劳肯德基过夜，可以不工作，因此炒不炒股票，买不买房，也就不重要了
。3，资金少也可以建立外国银行账号，兑换外国货币，使财产国际化，高级化。4，集
体购买彩票产生百万富翁创业上市。5，集体购买股票拥有上市公司股权，成为股东。6
，集体买交通票，获得自由行动和移民权。7，集体买基金，获得期权，印刷货币权。8
，集体买电影票，获得国际军事支持。9，集体买日历，获得出版权，媒体权。10，集
体买仓库，获得领土和国际组织支持。11，集体买公益金，获得国际行动权。12，集
体买《魔兽世界》游戏卡，获得国际组织接应。13，集体买路由器，获得我们的网站合
作。14，集体买球票，获得外交豁免权。15，集体买马票，获得国际开发权。16，集体
买门票，获得建立组织权。17，集体捐助救济金，获得宗教支持并建立特务组织。18，
集体买比特币，获得区块链和局域网建设。19，集体储备石油，获得军事工业生产权
。20，集体储备钢铁，开始建立政府框架。21，集体买债券，获得证券发行权和借壳上
市。22，集体买电子游戏机，建立科学技术公司。”

b*g2015-05-02 07:05

8 楼

取决于设计，出现特殊字符的文件多少以及是否重要，要不然就encode，要不然就忽略
异常
except UnicodeDecodeError: