follow人,還是follow內容

天下大勢,合久必分,分久必合。自從有了網站,數字信息就開始多了起來,直到我們擁有搜索引擎之前,這些信息都沒有被很好地組織。自從有了feed流這個概念,信息突然又瞬間地膨脹了起來,在我們找到一個合適的工具之前,這些信息都沒法被很好地推送到合適的人面前。一直以來,人們從沒停止過要把各種如毛細血管般的流信息整合到一起。特別是一些已經遠在牆外的優秀網站,做出了很多很好的解決方案,facebook之類的SNS網站試圖通過現實朋友的關係來組織feed流,無所不包的friendfeed企圖把所有的feed信息都歸於一處(國內類似的有今年張教主寫的kanrss),這兩年成為新貴的twitter則使得流信息的產生更容易,接收更便捷,follow即所得。

上述對信息的解決方案都是通過follow人來實現,而follow內容無疑是另一條可行的路徑。關於內容的分類組織已經有很多年的研究與實踐,在鄭昀的這篇關於Topic Engine的博客中有很詳細的綜述,而對這些分類內容的follow,以得到一個類別的信息更新,就我所知,還並不多見。比較知名的如google資訊與google快訊,前者屬於對內容的分類組織,後者則屬於對分類內容的訂閱或者說follow。依託於google強大的搜索能力,信息的新穎性及廣闊性很有保證,但由於產品的定位並非要作一個詳細的內容分類,所以分類比較粗糙,只是一些如門戶網站般的粗分類別而已。

最近上線的cutt.com則希望把這種分類信息推送做到極致,這是一家號稱以語義網技術作為其底層分析引擎的公司。它的上線,首先要感謝國家,否則也許我們能早幾個月看見它。因為谷文棟的介紹,我得以在早期就對這個有著很大野心但目前還不甚成熟的信息組織引擎有一定的使用體驗。這是一個很有想法的新生兒,但現在有些地方也還不太成熟。

產品與交互方面:

一個由工程師主導的公司容易做出讓人拍案叫絕的創意產品,卻也容易暴露一些產品設計與交互上的毛病,這也許是因為聰明的工程師們總是很難讓自己處身在大多數不知情用戶的處境裡。

cutt很好的一點是用戶使用零成本,任何一個用戶打開即可用,無需要註冊,也無需進行任何信息填寫。我在匿名狀態下就能進行大部分的操作,沒有註冊沒有登錄情況下收藏的文章居然還能保存,很激動人心吧!但是可怕的事情來了,一旦我登錄上去,會發現我之前以為已經記錄下來的所有數據都不見了。好吧,我也許原以為它會自動地把匿名信息自動導入到我的帳號中。但後​​來想想,如果它這樣做了,我肯定會更恐懼的。其實我的意思是:我沒有得到任何提示的情況下,我不知道我剛剛還在的數據到哪去了。對於普通用戶,可能還有一個困擾就是換個瀏覽器,這些數據也沒了,用戶不會覺得自己有錯,他們只會認為是你們把他們的數據弄丟了。同樣的情況是我寫的文章反饋,寫完後同樣無影無踪,雖然我知道cutt的數據庫中肯定還有記錄,但大多用戶同樣會認為你把TA的數據弄丟了。雖然我不是做產品的,但我覺得這裡有一個原則:用戶貢獻的數據TA一定還能找回來,否則後果絕不僅是TA不再願意貢獻那麼簡單。

另外就是內容方面的,由於是一個新生兒,內容頻道還不足夠完善,比如攝影器材方面的內容也沒有,因為我最近關注這個,所以一下就看到了這個,但估計其它方面的頻道還是有缺失。再比如,我發現cutt不喜歡娛樂,因為很多娛樂版面都還是空的:)。以內容為主打的網站的其中一個核心競爭力就是信息的更新速度,而cutt的信息更新的速度還有待提高,我晚上十點鐘時看到的最新文章還是下午五點多的,不知道是受制於爬蟲還是算法的處理速度。另外,展現方式也許還可以改進,簡潔是一種方式,但如果僅僅只是以新聞作為主要載體的話,加入一些具有視覺力的元素可能會更吸引人。

技術方面:

預覽:我很喜歡cutt的文章預覽功能,這樣我就不用點過去等整個頁面加載了。但我不知道還能不能進行進一步的過濾,採用文本摘要技術,把主要內容以幾句話就傳遞出來。對於現在快餐型的社會消費習慣,這無疑是一個很有競爭力的feature。我甚至考慮過由人來對這些摘要信息進行抽取,這也是群體智能的一部分。

來源:據我的觀察,現在的cutt仍然以網頁這種非結構化信息為主,來源也主要是一些大中型的門戶或資訊網站。實際上在現在這個mashup的年代,網絡上的RSS源很多,如果能充分利用博客及一些web2.0網站輸出的RSS半結構化信息,信息的來源肯定會更豐富,可分析性肯定更強。當然我估計cutt肯定也有這方面的內容,只是還沒有更多的放出來。

google reader:曾經我是一個google reader的重度用戶,幾乎每天必看,也訂閱了大量感興趣或半感興趣的rss源,並煞有其事地把它們歸類為算法、網絡、科學、IT資訊、業餘等等頻道。但後​​來我已經越來越少地去看它,任由那1000+的未讀永遠地停留在左上角。究其原因,是因為follow的內容是死的,而follow的人是活的,是有感情因素在裡面的,所以如果一個人沒有更多的時間,TA會更傾向於刷自己的微薄,而非冷冰冰的內容。但信息的需求還是有的,所以我現在更多地在消費經過朋友過濾的信息。如果一個算法能有更好的過濾能力,我還是很樂意去使用的,特別是個性化的信息推薦。因為友鄰推薦是給所有人的,而非專屬你自己,而這方面,機器可以做的更好。

個性化信息推薦:雖然cutt現在還沒有,但我知道將來肯定會有,現在只不過是要度過一個用戶信息的冷啟動期,貢獻越多,收穫越多。但信息個性化是一個比信息組織難的多的課題,除了考慮內容的語義與關係,現在再加進一層比內容要復雜得多的人的因素,解決好這個問題,任重而道遠。

思想層面:

最後來點虛的。

集體智能的利用:不單是利用用戶隱式的反饋數據加以社會化的推薦那麼簡單,它更重要地還包括用戶顯式地、自願地貢獻的內容。比如wikipedia的客觀權威性居然來自於無數個網民自發的編輯行動,再比如語義網的標杆freebase的構建也是有賴於大量的志願者對它的貢獻。完全依靠用戶的積極性顯然不行,特別是在國內互聯網環境中人們往往更樂於索取而非貢獻,怎麼能讓用戶快快樂樂地貢獻自己的智慧是一個很難的設計問題。從另一個角度來思考,這個問題其實也並非那麼地困難,我們簡單地估計一下之前紅透半邊天的“開心農場”,有多少個網民在那上面花費了多少的時間,折合成被耗費的智慧時間,這該是多麼龐大的一個數字!如果,我們在一個如此盛行的遊戲中盛載了一定的智慧任務,而用戶能在玩耍遊戲的過程中就能幫助我們解決一個又一個的機器不能解決的智慧難題,這該是多麼的激動人心啊!

事實上,在過去的日子裡,已經有人作過這樣的嘗試,像我上述所提及的一類游戲有其名為Game ith a purpose,就是希望能透過遊戲的方式,讓人去解決一些人本身看來顯而易見,但目前的機器學習方法仍然無法做好的問題,比如圖片內容識別的問題。到目前為止,關於這種思想最著名的一個案例應該就是reCAPTCHA,這個遊戲曾經成功地幫助人們解決了印刷物掃描成電子物時某些內容無法識別的問題。這樣的一種以人作為驅動的計算思想,國內有人譯之為“人本計算”。

這個留待以後再專門論述。

來源:http://www.wentrue.net/blog/?p=995

特別注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯繫,文章轉自alibuybuy

Comments are closed.