Google衡量用戶體驗的指標體系

Posted On: 2012 年 08 月 17 日
Posted By: Game2.tw
Comments: 0

今時今日，越來越多的產品和服務被部署在網絡上，如何大規模進行用戶體驗的衡量成為一個巨大的機遇和挑戰，怎樣設置以用戶為中心的指標來衡量網絡應用中關鍵目標的轉化過程，或者推動產品決策成為一個我們想探究的問題。在這篇文章中，Google 給我們帶來了他們目前正在使用的，以用戶為中心度量的HEART指標體系，以及把產品目標與創建指標體系相互關聯的過程。本文也包含了應用HEART指標，同時從數據驅動以及從用戶為中心的角度出發，幫助產品團隊決策的實例。該指標體系及其使用過程已經被Google內部各產品團隊廣泛認同，我們相信其他組織也能夠在使用它的過程中受益。

作者關鍵詞（Author Keywords）

指標,網站分析,網絡應用,日誌分析

學術分類關鍵詞（ACM Classification Keywords）

H.5.2 [信息呈現]:評估用戶交互界面的方法

一般關鍵詞

實驗,人為因素,測量

引言

WEB技術的進步使得越來越多的服務基於WEB去創建，用戶可以在“雲端”完成很多的工作，包括那些以前需要在本地運行的程序，如文字處理、照片編輯等。對於用戶體驗專家來說，需要利用服務器訪問日誌來跟踪產品的使用情況。依靠外部的工具，比如A/B測試工具來進行版本的迭代。但是如何以用戶體驗為中心的準則進行比較？如何挑選試用的指標？中間存在哪些機遇呢？

在CHI社區，不論進行小規模的測試或進行大規模的調查，都已經有了一個測量用戶態度（例如滿意度）的方法。但在行為數據方面，建立的測量大多規模很小，使用問卷或計時的形式進行測試，例如效果（任務完成度、出錯率）和效率（任務時間）。

CHI報告中未涉及的一塊重要內容是基於大規模用戶行為的數據分析指標。現在網站分析的潮流也已經從原來單純的分析頁麵點擊，演變為分析關鍵績效指標。但是主要還是以商務為中心進行分析的，而不是以用戶體驗為中心。一些網站分析工具提供的指標大多太過籠統或只適用於電子商務網站，並不針對所有網站。

Google創建了一個新的分析用戶態度和行為的用戶體驗指標體系。我們利用百萬用戶數的基礎以及根據自身經驗打造該體系，使其能適應大公司不同類型多種產品（面向用戶/業務中心）的需求。我們發現該體系已能滿足Google自身產品及流程的需求，我們也相信其他公司的團隊也能夠使用這一體系。同時我們也期望在大規模用戶行為數據挖掘方面，有更多的研究成果出現。

相關研究

近年來已然有很多工具來幫助網站應用和服務跟踪分析：免費或收費的分析工具(Google Analytics/Omniture)；利用現代分佈式系統(簡化數據處理/Apache Hadoop)或者特化的程序語言(Parallel Analysis )對大量日誌數據進行用戶分析；根據用戶行為對訪客群體進行細分的網絡數據挖掘技術(Web User Traffic Composition)；很多供應商均提供的用戶調查與易用性測試（UserZoom）以及可控的A/B測試等。

除開實施與使用過程的因素，如何有效率的使用這些工具仍然存在很大挑戰。標準的網站分析指標對於特定的某些產品目標或者研究課題顯得太過一般化。在壓迫性的巨量數據面前，如何分離出有效的數據，如何指導商業行為與決策是很困難的。很多專家建議關注少數關鍵性業務指標或者用戶指標，利用他們監測商業活動，但我們在實踐中發現說起來容易做起來難，產品團隊不會告訴你，也未必能清晰的定義目標是什麼，因此讓選擇監測指標十分困難。 (好吧，我想到了Google Wave——ysy.me)

很顯然這些指標不能單獨拿來用，它們應當配合其他信息來源使用，比如配合可用性報告和實地考察來幫助決策。同樣的，它們對於線上的產品也十分有用，對於早期用戶探索的作用是無可替代的。因此，我們想要探索出一個整合大規模用戶行為和趨向數據的體系，用於補充公司現有的用戶體驗研究方法。

1、傳統的網站衡量指標PULSE

Page view/頁面瀏覽量

Uptime/響應時間

Latency/延遲

Seven days active user/7天活躍用戶數

Earning/收益

PULSE是基於商業和技術的產品評估系統，被很多組織和公司廣泛應用於跟踪產品的整體表現。

這些指標非常重要，並且和用戶體驗息息相關，比如一個產品如果經常訪問無響應或者延遲很高是無法吸引用戶的。一個電子商務網站的下單流程如果步驟過多就很難賺到錢。一個用戶體驗佳的產品在PV和用戶量上應當是會不斷增長的。

但是這些指標要么太表面化，要么只是間接和用戶體驗相關，很難用來評估改變交互界面對於用戶的影響。並且他們也經常產生負面的互相影響——比如一個特定功能頁面的PV上升可能是由於這個功能真的很棒，或是界面讓用戶迷惑，而想通過不斷的點擊嘗試離開。改變所帶來短期的價值提升，但糟糕的用戶體驗長期來說會造成用戶的流失。

在一段特定時期內的用戶指標數，例如七天活躍用戶數(Seven days active user)常常被用做用戶體驗指標。該指標度量了整個用戶群，但沒有反映用戶對於產品的深入程度，比如七天之內來訪的頻數，同樣它也沒有區分新老用戶群體。在最糟糕的情況下，100%的活躍用戶都是新訪客，但活躍用戶總數仍在不斷增加，這對於產品來說顯然是失敗的。

2、以用戶為中心的指標體系HEART

基於PULSE中存在的不足，結合用戶體驗質量以及讓數據更有實際意義的需求，我們提出了一個作為補充的度量體系：HEART。

Happiness/愉悅度

Engagement/參與度

Adoption/接受度

Retention/留存率

Task success/任務完成度

這五項僅僅是指標體系的範疇，不同的產品可據此定義具體的指標，用以監控完成目標的過程。

愉悅感結合用戶的滿意度來度量，任務完成度結合任務完成的效果和效率來度量。參與度、接受度、留存率是全新的範疇，一般通過廣泛的行為數據來製定。通常並不適合在一個指標設定中用到所有維度，但可以參考該體係來決定是包括或排除某個維度。比如用戶是要將使用你的產品作為工作的一部分，在這種企業環境下參與度就沒有什麼意義了。在這個案例中可以考慮選擇愉悅感或者任務完成度。

愉悅感

愉悅感是設計用戶體驗中的主觀感受問題，像滿意度、視覺感受、向別人推薦的意願、易用性感知。可以通過好好設計問卷長時間監控相同的指標來看設計修改後帶來的變化。

例如，我們有個性化首頁的服務(iGoogle)。團隊利用產品內置的檢測手段，跟踪了一周內一系列的指標來研究改版和新功能的影響。在一次大改版之後，起初用戶滿意度指標是大幅下降的(利用七點雷達圖)，但是隨著時間推移，這個指標逐漸恢復，這表明大幅下降只是因為剛改版時的不適應。漸漸習慣這次改變之後，用戶實際上是很喜歡的。有了這一信息，團隊就可以更有信心的保持這次改版的設計。

參與度

參與度是用戶在一個產品中的參與深度，在這個維度上，通常用來作為一段時期內訪問的頻度、強度或互動深度的綜合。比如單用戶每週的訪問次數，或者用戶每天上傳的照片數，這比總量要好——因為總量的增長可能是由更多的用戶的產生，而不是更多的使用產生的。

例如，Gmail團隊更想研究用戶的參與度而非PULSE指標體系中的七天活躍用戶數（只是上週使用該產品用戶的簡單計數之和）。我們有理由去相信，深度用戶會經常檢查他們的郵箱，因為他們已經形成習慣。我們選擇的指標是一周內訪問五天或者更多的百分比，這一指標同樣也可以用來預測用戶長期的留存度。

接受度和留存率

接受度和留存率指標通過特定時期內大量用戶的統計（比如，7天的活躍用戶數）提供強大的洞察，來定位新用戶和老用戶的差異問題。接受度監控特定時期內有多少新用戶開始使用產品（比如，最近7天內新創建的賬號），而留存率則監控特定時期內有多少用戶在下稍後一個時期內仍然存在（比如，某一周的7天活躍用戶在3個月後仍然在7天活躍用戶中）。

在此“使用”和“週期”的兩個概念都應當因事制宜，有時候“使用”就意味著訪問網站，有時候則是到達了某個特定的頁面或者完成某種互動，例如創建賬戶。留存率和參與度相似，它可以被定義不同周期長度，有的產品也許只需要觀察週數據，有的則需要月數據或者季度數據。

例如，在08年證券市場暴跌的那段時間，谷歌金融在瀏覽量和七日活動用戶指標上都有一次井噴，但無法確定數據的劇增是來自關心金融危機的新用戶或是恐慌性不停查看他們的投資信息的老用戶。在不知道是誰增加了這些訪問量之前，決定是否要改版網站以及如何進行修改十分困難的。我們利用接受度和留存率這兩個指標來區分用戶群體，同時還關注了新用戶繼續使用該服務的百分比。這類信息被我們團隊利用於解讀事件驅動的數據波動以及發現潛在的機會。

任務完成率

任務完成率維度包括一些傳統的用戶體驗行為指標，比如效率（如完成任務的時間），效果（比如任務完成的百分比）以及錯誤率。

例如，谷歌地圖曾經有過兩種不同的搜索框，一種是用戶可以分開輸入“目的”和“地點”的雙重搜索框，另一種是單個搜索框處理所有的類別。有人覺得單個搜索框就可以勝任一切，同時又保持了效率，在之後的A/B測試中，團隊測試了僅提供單個搜索框的版本。他們比較了兩個不同版本的錯誤率，發覺用戶在單個搜索框版本中能夠更加有效的達成他們的搜索目的。最終，這個結果讓團隊非常有把握的在所有地圖上移除了雙搜索框功能。

3、目標——信號——指標

不管定義的用戶中心的指標是怎樣的，如果不能和目標明確的相關，以及能夠跟踪達到目標的過程，那麼都是白搭。 Google提供了一個簡單的流程來完成指標的設定，首先明確產品或者功能的目標，然後定義轉化的信號，最終建立適用的指標。

目標

第一步是定義產品或功能的目標是什麼，特別是在用戶體驗方面。用戶需要完成什麼任務？重新設計是試圖達到什麼？使用HEART體係來明確相關的目標（比如，是吸引新用戶更重要，還是鼓勵現有用戶更積極參與重要？）一些有用的提示：

不同的團隊成員可能對於項目的目標有不同的意見。這是收集不同的想法並且爭取達成共識（並且認同選擇的指標）的良機

特定項目或功能的成功可能與產品的整體目標不同

在這個階段無需太擔心找不到相關的信號或指標

信號

接下來，想想用戶的行為或態度如何體現成功或失敗。什麼行動會表示目標已經達到？什麼感受或看法能夠聯繫到成功或失敗？在這個階段你應該思考你的這些信號的數據源可能是什麼？比如，基於日誌的行為信號，這些相關的行為目前有記錄或者能夠被記錄嗎？可以收集態度的信號——能否定期投放問卷嗎？日誌和問卷是我們最常使用的兩個信號源，當然也有其它的選項（比如，使用一個面板或判斷讓用戶評分）。一些有用的提示：

選擇敏感度高以及和目標特別相關的信號——只因用戶體驗的好壞而改變，而非其他不相干的因素。

有時失敗比成功更容易定義（比如，放棄任務、撤銷，挫折）

指標

最後，想想這些信號是否可以轉換為特定的指標，是否可以被方便的持續跟踪。一些有用的提示：

原始統計數據會隨同你的用戶基數增長而增長，需要轉化為常態；比例、百分率或者每個用戶的平均值更有用一些

在確保精度上有很多挑戰，基於web日誌的指標，如從自動生成的數據中過濾流量（如爬蟲、垃圾信息），並且確保所有重要的用戶行為都被日誌記錄（默認情況下可能不會，尤其是在基於AJAX或基於Flash的應用中）

如果需要拿你的項目或產品和其他的進行對比，你可能需要在標準指標外，額外增加監控指標來進一步更準確得監測產品。

4、總結

Google已經花費數年時間來解決廣泛應用的用戶體驗的衡量指標體系。 HEART體系和目標-信號-指標的過程，已經在Google超過20個產品和項目中進行了應用。不管是數據驅動的還是用戶中心的產品中，HAERT體系和目標-信號-指標過程都能幫助產品團隊來做出決定。

Translation: Steve

Special thanks to: Biaodianfu

Google原文鏈接《Measuring the User Experience on a Large Scale: User-Centered Metrics for Web Applications》

部分內容參考自天涯博弈

來源：http://www.ysy.me/2011/07/06/ google-metrics-framework/

特別注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯繫，文章轉自alibuybuy