從98年google以搜索技術起家開始,互聯網至今,以提供内容爲主的互聯網企業每一家都離不開小爬蟲的幫助,大到互聯網巨頭,小到剛成立沒幾天的創業公司, 在早期沒有足夠内容來撐住自家網站和app時,都會採取抓取手段來補充内容,讓自家産品顯得内容滿滿。
還有好些公司的商業模式就建立在爬蟲技術之上的,比如搜索引擎公司、大數據處理公司、網路輿情監控公司,無非就是把數據分分類,歸納一下,如果不搞些小來小去的所謂創新,這類公司就沒法運轉。另外現如今互聯網公司的獲客成本上升,出現了增長黑客這個概念,裡面的大量運營技巧都是要依賴於爬蟲技術的手段來敺動,這裡不是指抓數據,而是模倣用戶請求,模倣用戶操作,自動發貼等手法來新增和激活用戶。
淺談幾家在這方面做得成功的公司
1. 提到爬蟲,必然會說起搜索引擎,它是直接利用爬蟲抓取信息來構建底層服務的。簡單粗暴,但是直接有效,而如今世界上最大的兩家搜索引擎服務公司(Google和百度),已分別是5100億和600億美金市值。
2. 現在已是國民資訊APP的今日頭條,早期通過抓取數百家機構的新聞源,然後以用戶行爲屬性標簽歸納和深度自然語言搜索優化手段來分發給用戶,做到千人千面的閲讀體驗,現在已在中國互聯網公司第一梯隊。目前今日頭條的搜索優化程度甚至做的比百度都要好。
這也是一個在早期直接利用爬蟲手段而成功的例子,如果不抓取別人的新聞資訊,今日頭條根本不可能成功。
3. 做職場社交,獲得2億美金投資的脈脈,早期直接抓取微博用戶信息,用來彌補自身用戶數量的不足,完成了脈脈早期幾百萬用戶積累,不過脈脈抓取微博用戶信息已被法院判決爲非法,做社交媒體和輿情監控的估計沒幾家沒抓過微博的數據吧。要小心噢。
當下隨著國家知識産權法槼越來越完善和嚴格,這種直接抓取別人信息然後直接商業化的行爲夠你進去蹲幾年了。所以要慎重哦!
每個時代都有它所謂的企業原罪,8090年代是企業産權不明,要論互聯網時代的原罪估計就是企業早期冷啓動時抓取的内容是否應該直接商業化吧。
如果現在再做一個類似搜索引擎和今日頭條的産品,不解決版權問題,會隨時出現法律問題吧。那麽現在爬蟲抓取的内容就不能商業化了嗎?
也不盡然,比如政府公開的數據是可以直接商用的。
4.在企業工商信息查詢領域另辟蹊徑的各種類似天眼查等企業。 這若干家企業把各個省,市的官方幾千萬家工商信息通過人工加三方c++工具自動破解網頁驗证碼的方式把國家網站公示抓取出來,重新做了數據結構調整, 在前耑頁面用Echart之類的插件輸出成靈活的PPT, 出售會員, 提供用戶查詢。
這個APP已成爲創業者,投資人,老板們的標配APP,查詢法人信息,企業股權結構等等一目了然。類似的數據還有商標,專利,法院判決文書等等
另外在電商領域抓取各家電商平台做比價網站一直是一個商業模式,比如即將在A股上市的什麽值得買,把各家電商網站的商品和價格抓取過來,把他們的價格差異展示出來,方便用戶查看哪家網站的便宜,但是後來各家電商網站都把價格信息圖片化之後,解析準確價格的難度就加大了不少。
再比如在納斯達克上市,後又被私有化的去哪兒網,在早期能夠崛起成爲一個機票和酒店預定的流量入口,就是他的搜索比價模式,實時抓取各家機票和酒店信息,把價格差異展示出來,而這正擊中了用戶想要買便宜的需求。
2 樓 IP 101.66.***.36 的嘉賓 说道 : 很久前