從 Beta 測驗邁向正式測驗
2016 年 7 月 1 日由 Liberty Munson (Microsoft) 張貼
您可能聽說過,從進行 Beta 測驗開始可能需要 8 週的時間才能取得您的結果...有時候會需要更長的時間,而在罕見的情況下,實際上可能會更快。 因此,身為一名心理學家及一般假設的讀心師,我知道您想要知道「為什麼會需要這麼長的時間?」
以下是影響測驗處於 Beta 階段時間長度的一些因素:
填滿 Beta 席位的速度。 我們在 Beta 階段需要至少 250 名符合資格的應試者 (表示這些應試者符合對象個人檔案體驗描述) 來進行測驗。 越多應試者越好,因為我知道有些不符合資格的人也會嘗試 Beta 測驗,而這些回應可能會影響測驗開發下一個階段所發生的狀況 (請參閱以下的 #2)。 有時候,我們可以更快速地提供 250 個以上的測驗;但通常,這需要更長的時間。 在過去,可讓您免費進行 Beta 測驗的儲值券會一直處於有效狀態,直到測驗正式推出為止,但我們需要加速這項程序,因此我們已將憑券的使用期間限制為 3 週。 我們取得 250 個測驗結果目標的速度越快,移動到下一個測驗開發階段的速度也會越快。 如果我們在 3 週結束後仍沒有 250 個結果,我們便會需要延長 Beta,而顯然這表示移至下一個測驗開發階段的時間也會往後延。
為什麼我們需要 250 個以上的結果? 因為我們想要取得每個項目、表單和整體測驗穩定的心理計量表現估計。 評估這些心理計量學 (統計資料) 是測驗開發的下一個階段,稱為「項目選取」。我們會為每個項目和表單計算各種不同的統計資料,以評估其評定應試者技能和能力的有效程度。 這些統計資料包括 p-value (正確回答問題的人員百分比)、點二系列關聯性 (基本上會告訴我,問題是否能夠區別表現優良與表現不佳的受試者)、項目量值、可靠性、花費時間中位數、Alpha、平均數、中位數、眾數分數、測試特性曲線等。這些資料都能讓我深入了解每一題和整體題庫的有效性和品質。 此外,我還會閱讀每個 Beta 測驗的留言,以深入了解應試者的意見反應和透過統計可能無法識別的項目潛在問題。 這種分析大約需要一週的時間。
完成這項檢閱後,我們就會與主題專家討論,以檢閱我不確定的項目。 我不是一位技術專家,所以我依賴他們的專業知識來協助我判斷是否應保留、修正或刪除有問題的項目。 在此會議期間,我們也會收集來自 SME 的資訊,以建立決斷或合格分數。
在此會議之後,我會編譯所有的資訊、完成題庫及決斷分數,然後組合正式表單 (我通常會根據我所提供有關整個表單內容分佈的方針,與負責最後一部分的廠商合作)。 [表單是您在使用時所看到的測驗實例,也就是在您進行測驗時所收到的項目組合。] 此程序需要一週多一點的時間。
在我們擁有測驗現行版本的規格後,我們便會「建置」測驗,將測驗交給我們的測驗傳遞提供者,提供者則會在其系統中設定測驗,並測試每個項目 (包括評分) 是否都如預期般正常運作。 我小組的其他人也會檢閱這個「預先發佈」版本。 這大約需要 2 週的時間。
測驗現在已上線,而測驗傳遞提供者接著可以對 Beta 測驗的應試者重新評分。 這需要約 1 週的時間。
所以,如果您把所有的時間加起來。 . . 最佳情況是 8 週。 現在,您已了解幕後的神奇之處了!
這會為您啟發哪些新問題?