1
我在Amazon AWS EMR群集中运行以下代码时出现'No Space'错误。在AWS EMR中下载nltk会导致'[Errno 28]设备上没有剩余空间'
import nltk
nltk.download('all')
我检查在命令行的内存,下面是可用内存available memory in the cluster的屏幕截图。请迎接我。
我在Amazon AWS EMR群集中运行以下代码时出现'No Space'错误。在AWS EMR中下载nltk会导致'[Errno 28]设备上没有剩余空间'
import nltk
nltk.download('all')
我检查在命令行的内存,下面是可用内存available memory in the cluster的屏幕截图。请迎接我。
NLTK下载器将数据下载到基于Unix/Linux操作系统的目录/usr/share/nltk_data/
。
将此数据下载到具有足够磁盘空间和写入权限的其他位置。
python -m nltk.downloader -d /mnt/nltk_data all
由于默认数据位置现在更改,相应地设置NLTK_DATA
环境变量。
export NLTK_DATA=/mnt/nltk_data
您的实例似乎已经用尽了根目录下的磁盘空间。 /
目录填充到100%,在继续之前释放一些磁盘空间。
感谢您的建议。我还有一个疑问:是否可以在s3fs中下载nltk数据并将环境变量设置为指向该路径?我正在尝试在s3fs中下载,但它需要花费相当长的时间来下载数据。 – coder007
将您的S3存储桶挂载到挂载点并将路径设置为“NLTK_DATA”。我自己没有尝试过,但理想情况下它应该可以工作。 – franklinsijo
非常感谢:) – coder007