2017-08-02 58 views
1

我与形式的值的svmlight格式的文件:Python的H2O svmlight数据

92.91 18256731:1 71729421:1 72329637:1 83328561:1 118265976:1 134892759:1 198163358:1 352348616:1 526943048:1 5.30 102156934:1 134892759:1 198163358:1 254112843:1 262373758:1 512748316:1 526943048:1 22.00 32172600:1 72329637:1 118265976:1 134892759:1 198163358:1 411824213:1 443226486:1 445371412:1 526943048:1

我试图在水导入此使用h2o.import_file(fname.svmlight)

是否H2O支持高维稀疏二进制特征?

是否需要转换某些索引中的散列值才能使其工作?

+0

你可以显示你的完整代码和一些示例数据吗? –

+0

也许尝试将文件重命名为'“fname.svmlight”'。 –

+0

示例数据如图所示,导入文件需要时间,但是当我将它们转换为小型索引时,它似乎可以正常工作。 – user90772

回答

0

你的三行svmlight就像病毒!根据top,java进程接近800%的CPU(8核机器)。在CPU工作45分钟后(5-6分钟挂钟),我不得不使用kill -9来取回我的机器。

即使你的文件的类型不正式支持,我认为它带来下来一台机器的事实使其成为一个严重的错误,所以我在这里报道的那样:https://0xdata.atlassian.net/browse/PUBDEV-4798

顺便说一句,你可以找到一个单元测试显示在这里使用smvlight: https://github.com/h2oai/h2o-3/blob/30f382efac687be3959a253d975cb48c341c92b4/h2o-r/tests/testdir_misc/runit_parser_type.R

+0

谢谢你报告它。我认为这是稀疏数组的重点,通过仅使用索引:值组合来节省内存。这是一个有效的svmlight格式,你可以尝试在scikit-learn上解析它。如果索引是1,100或1,000,000,应该没有关系。感谢您的及时答复! – user90772