SharePoint發行版本有SharePoint2003、SharePoint2007、Sharepoint 2010、SharePoint2013和SharePoint2016。SharePoint提供了功能強大的團隊協作環境,使得組織能夠在整個組織內部實現整合、組織、查找和提供 SharePoint站點。 SharePoint的搜索著實強大,而且最近用到SharePoint搜索第三方爬網,感覺收獲挺大,而且網上資料沒找到太多類似的,就小記錄一下,分享給大家。 ????? 首先,我自己寫了一個net頁面,里面讀取所有我需要內容,充當SharePoint爬網的數據源,對這個頁面進行爬網,頁面如下圖: ????? 然后,打開SharePoint管理中心,搜索設置,新建內容源Crawl,爬網http://moss:9000,如下圖。爬網設置可以按照自己的需要進行設置,比如想要爬網頁面深度,可以進行設置,我的爬網,只是爬網頁面下面的鏈接,所以深度設置為1;設置完成,先不要爬網,還需要設置爬網規則。 設置爬網規則: ????? 打開爬網規則,設置路徑,我的路徑是9000端口下的所有頁面,所以設置為http://moss:9000/*,當然,你的規則應該按照需要進行設置,可以排除這些路徑,也可以包含這些路徑,同時,如果有爬網到的任何結果,都可以在這里進行排除。 ????? 特別的是,我的頁面上的鏈接,包含“?”問號,所以勾選了對復雜的URL進行爬網,下面的指定認證,可以選擇認證的賬號,如果需要Form認證的網頁,可以設置指定其他內容訪問賬戶【特別:如果登錄需要驗證碼的,SharePoint是無法爬網的】。設置完爬網規則,點擊確定保存,然后可以對Crawl內容源進行完全爬網了。 對Crawl內容源進行完全爬網,查看爬網日志,如下圖:? 在SharePoint搜索頁面上,試試搜索剛配置的內容源,如下圖: 搜索結果: 注意事項: 1、? 如果,服務器處于代理訪問網站的情況,需要配置管理中心的代理,位置在 搜索管理 - 代理服務器和超時 -? 管理中心URL/_admin/searchfarmsettings.aspx 2、? 搜索爬網內容,可能會出現異常情況,可以嘗試重置搜索內容,位置在 搜索管理 - 重置所有已爬網內容,重置一下搜索結果。 3、? 爬網結果,搜索出來的結果,標題為搜索頁面的Html的頁面Title,內容為頁面上的Body內容,鏈接為URL。 4、? 同樣的搜索配置,可以搜索新浪,搜狐等網站。 Sharepoint 可以幫助企業用戶輕松完成日常工作。 |
溫馨提示:喜歡本站的話,請收藏一下本站!