收集網路資訊用人工方式,遜。可以建立自己的 Web spider 來處理,還可以過濾掉 HTML 與 JavaScript 等內容,保留有意義的內容部分。
下列這篇文章介紹如何在 Linux 中建立一個 Web spider 來收集網站資料:
Build a Web spider on Linux