如何使用wget或curl在php中获取网页上所有路径/文件的列表?

问题描述:

我使用wget -p $url来获取网页上的所有文件,以便我可以得到一个列表。但是对于一些URL,事实证明只有index.html可以被wget获取。有没有办法通过wget或cURL获取特定URL上的文件列表?我需要检查请求标头和响应标头吗?如何使用wget或curl在php中获取网页上所有路径/文件的列表?

+1

如果你能举一些例子,你会得到更好的答案。链接看起来像wget没有遵循的是什么? –

+0

@Pekka,例如:wget -p amazon.com,我只获得index.html。 –

+0

“网页上的文件”究竟是什么意思? 'wget -p'加载所有先决条件,即。附着的样式表等。那是你要的吗? –

某些服务器不允许您浏览目录列表,并且如果该目录中有默认文档,它将接管并且您无法浏览。

你需要实现一个蜘蛛来解析所有的路径,文件和链接,并创建一个在HTML中声明和使用的文件的目录结构。 然后你可以下载这些文件。

+0

您可以在页面上输入一些网址:http://tools.pingdom.com,文件列表就是我想要的。你知道我怎么能得到这种类型的所有文件列表? –