-
מבחן A/B – מתי, למה ואיך?
מבחן A/B כשמו כן הוא – אמצעי סטטיסטי שמטרתו לבחון מהי האופציה העדיפה מבחינה עסקית, מבין שתי אלטרנטיבות שונות, ביניהן אנו מתלבטים. מהם היתרונות בביצוע מבחן A/B, כיצד מתבצע המבחן בפועל וממה צריך להיזהר כדי להימנע ממסקנות שגויות?
המאמר נכתב על ידי מומחי חווית המשתמש בחברת TZUR – UX Designזמן קריאה: 6 דקות
מבחני A/B הפכו בשנים האחרונות לדבר שבשגרה. יש התלבטות? נריץ מבחן A/B ונבדוק. יש חוסר הסכמה בארגון לגבי נושא מסוים? אין בעיה - מבחן A/B יכריע בשאלה ויקבע את הדרך הנכונה.
היתרונות של מבחני A/B ברורים:- מדובר בבדיקה פשוטה יחסית, לא יקרה, אשר דורשת הפקה מינימלית ומניבה תוצאות מהירות
- האתר/ האפליקציה ממשיכים לעבוד כרגיל במהלך הבדיקה
- מבחני A/B מאפשרים לנו להכריע בדילמות שמתעוררות בחברה, בין אם מדובר בדילמות מקצועית לגביהן יש חוסר וודאות בקרב כלל מקבלי ההחלטות ובין אם מדובר בדילמות שנוצרות כתוצאה מחילוקי דעות פנימיים שדורשות סוג של "מבחן מציאות"
- הם יכולים לספק לנו תובנות חשובות לגבי מקרים בהם דף/דפים מסוימים לא עובדים באופן בו ציפינו ואנו מעוניינים לבחון אפשרויות שונות לשיפור המצב
- הם מסייעים לנו למנוע טעויות עסקיות ולשפר את יחס ההמרה הנובע מהחלטות עיצוביות
מעבר ליתרונות הללו, מבחני A/B יכולים להתאים לבחינת סוגים שונים של שאלות הקשורות לממשק המשתמש. השאלות יכולות להיות גדולות יחסית (אבל לא גדולות מדי), כמו: איזה דף נחיתה מניב יותר לידים? או, איזה סידור של דף התוצאות מגביר את המעבר לדפי המוצרים? ויכולות להיות קטנות וממוקדות, כמו:- איזה מיקום של הכפתור/ האובייקט עובד טוב יותר?
- מהו הניסוח שמניע יותר לפעולה (בכותרות, בטקסטים, בניווט, בכפתורים)?
- איזה תצורה של תהליך התשלום תורמת לצמצום הנטישה?
- כיצד משפיע צבע הקישור / הכפתור על מספר המשתמשים שלוחצים עליו?
- איזו תמונה משפיעה טוב יותר על המשתמשים ומניעה אותם לפעולה?
כמו כל תהליך מחקרי, למבחן A/B מספר שלבים מרכזיים:
- זיהוי הבעיה – מדוע אנו מעוניינים במבחן A/B? מהי הסיבה שבגללה אנו מעוניינים לבצע את המבחן? מהן מטרות המבחן?
- הגדרת המדדים למבחן – מהם המדדים הכמותניים שנרצה לבחון? מספר הקליקים? מספר הצפיות? מספר הנרשמים? מספר הלידים? מספר הרוכשים? יחס המרה?
- ניסוח השערת האפס – זהו השלב הקריטי במבחן מאחר ושלב זה מגדיר למעשה את התוקף הסטטיסטי שלו. חברות רבות מבצעות מבחני A/B בצורה מופשטת ביותר וללא הגדרה סטטיסטית מדעית נכונה (למשל, התייחסות לאופציה שהניבה מספר גבוה יותר של הנתון הנמדד, ללא בחינת המובהקות הסטטיסטית). בחינה שכזו, ללא הגדרת המובהקות הסטטיסטית ועמידה בכללים סטטיסטיים מדעיים, עשויה להוביל במקרים רבים להטיה גבוהה של התוצאות ולמסקנות שגויות לחלוטין (ממש כמו להחליט שבהטלת מטבע, עץ "עובד" טוב יותר מפלי בהסתמך על 10 הטלות). בניסוח השערת האפס, אנו מניחים /משערים מה האופציה שתעבוד טוב יותר ובוחנים אותה אל מול אופציה חלופית ברמת המובהקות הרצויה, לרוב ברמת ביטחון של לפחות 99% (p<0.01) בסוג זה של מבחנים. כאמור, בחינת האופציות אחת מול השנייה ללא השערת אפס וללא מתודה סטטיסטית היא חסרת משמעות (אם תנסו להריץ למשל מבחן של אופציה A מול אותה אופציה A אתם עשויים לגלות שאופציהA ניצחה את עצמה...דבר שכמובן לא אמור לקרות כאשר המבחן מתבצע בצורה נכונה מבחינה סטטיסטית).
- עיצוב שתי האופציות – בהתאם לבעיה שזיהינו, למדדים שהגדרנו ולהשערת האפס שלנו, עלינו לעצב את שתי האופציות, אותן נעמיד למבחן. חשוב לשים לב לכך, שייתכן מצב בו אנו אמנם מציגים למשתמשים שתי אופציות שונות (ועשויים לגלות במבחן שאחת מהן אכן עובדת טוב יותר), אבל ייתכן גם מקרה בו שתי האופציות אינן אופטימליות וקיימת אופציה שלישית טובה יותר משתיהן. לכן, הגדרת האופציות מלכתחילה חייבת להיעשות באופן מקצועי ומדויק, כדי להבטיח מצב בו אנו בוחנים אופציות רלוונטיות ומשיגים את הערך המרבי. בחינת אופציות שמבוססות על ניחושים או כאלה שברור מלכתחילה שאינן ראויות לבדיקה, עשויות לגרום ליותר נזק מתועלת. לעתים רבות הניסיון של מאפיין UI UX / מעצב UI UX יכול לספק תובנות רבות וחשובות בהגדרה ועיצוב של האלטרנטיבות. בנוסף, ייתכן מצב בו אופציה מסוימת היא פחות טובה לא בגלל המהות הרעיונית שלה, אלא בגלל אופן היישום שלה. אם העיצוב של אופציה B יהיה פחות טוב משל אופציה A, אנו עשויים להסיק בטעות שאופציה B היא פחות טובה, כאשר ההשפעה על התוצאות נגעה רובה ככולה ליישום של האופציה ולא למהות עצמה.
- הגדרת מספר ההצגות ומשך הזמן – בכדי להשיג תוצאות מהימנות, עלינו להתייחס בכובד ראש לשאלת מספר ההצגות של כל אפשרות ולמשך הזמן שתוצג. ניתן להיעזר במספר מחשבונים סטטיסטיים אונליין, בהם לאחר הזנה של מספר פרמטרים נקבל את מספר ההצגות המומלץ לכל אלטרנטיבה. מחשבונים כאלה לדוגמה הם:
- https://www.optimizely.com/sample-size-calculator/?conversion=3&effect=20&significance=95
- https://neilpatel.com/ab-testing-calculator/
- https://conversionxl.com/ab-test-calculator/
- https://vwo.com/ab-split-test-significance-calculator/
- http://www.evanmiller.org/ab-testing/sample-size.html
- https://abtestguide.com/calc/
- הרצת המבחן - בשלב זה נציג למשתמשים את שתי האופציות באופן רנדומלי, כך שחצי מהם יקבלו אופציה אחת וחצי מהם את השנייה (כמובן, בהתאם למשך הזמן ולמספר ההצגות שהגדרנו).
- ניתוח הממצאים – בשלב זה נסכם את התוצאות שקיבלנו וננתח את הממצאים. לצורך הרצת המבחן וניתוח הממצאים מומלץ להשתמש בכלי ייעודי חיצוני כלשהו כדוגמת:
- https://optimize.google.com/optimize/home/#/accounts
- https://www.optimizely.com/
- https://vwo.com/
- https://www.abtasty.com
בחלק ממערכות ניהול התוכן, כמו Umbraco לדוגמה, קיימת אפשרות מובנית לביצוע מבחני A/B, לכן במקרים בהם החברה כבר עושה שימוש במערכת ניהול תוכן כלשהי ניתן כמובן להשתמש בפונקציות המובנות של המערכת:
http://endzonesoftware.com/usplit/ab-testing-in-umbraco/כדאי להיות ערים לעובדה שמבחני A/B אינם מספקים לנו הסברים לממצאים, אלא את הממצאים בלבד. בהחלט ייתכנו מקרים בהם שינוי מסוים שנעשה ישפיע על דבר אחר, שבפני עצמו יוביל לשינוי, ולכן עלול לגרום לנו להסיק מסקנות שגויות ("משתנה מתווך"). למשל, בחינת השערה כמו: "האם הוספת תמונה בראש הדף משפיעה לחיוב על מספר האנשים שממלאים פרטים בדף הנחיתה", עשויה להוביל לדחייתה במבחן A/B, רק בגלל שבעת הוספת התמונה שדות הזנת הפרטים ירדו מתחת לקו הגלילה במחשבים ניידים, דבר שהוביל לכך שפחות משתמשים מילאו אותם. כלומר, המשתנה שהרע את המצב היה דווקא ירידת השדות מתחת לקו הגלילה ולא הוספת התמונה כשלעצמה.
ממה צריך להיזהר במבחני A/B:
חשוב לשים לב שמבחני A/B יכולים להיות כלי מצוין, אך באותה מידה יכולים להוביל להטיות סטטיסטיות ולקבלת מסקנות שגויות.
מעבר לבעיות שהוצגו לעיל, כמו למשל בחינת שתי אופציות שמלכתחילה נחותות מאופציה שלישית לא ידועה, בעיות של יישום לקוי של אחת האופציות, או השפעתו של גורם מתווך כלשהו, חשוב להדגיש כי אין כל סיבה לרוץ ולבחון כל רעיון שעולה במוחנו או במהלך ישיבת צוות. למרות הקלות לכאורה של ביצוע המבחן (בסה"כ מעלים שתי אלטרנטיבות ובודקים איזו מהן טובה יותר, לא?) אנו לא רוצים ליצור כמות מוגזמת של מבחני A/B מאחר וריבוי כזה יוביל לחוסר מיקוד בשאלות הסטטיסטיות ועשוי ליצור תלות בין המבחנים השונים. השאיפה המרכזית היא שהאפיון/ עיצוב של האתר או האפליקציה יהיו מלכתחילה מבוססי מחקר מעמיק של התנהגות צרכנים ומשתמשים, ושמבחני ה- A/B יהיו נקודתיים לצורך בחינת מקרים בהם הדילמות העסקיות אמיתיות ומהותיות. אחרת, המבחנים הללו עשויים להוביל לתוצאה הפוכה ולבזבוז של זמן ומשאבים רבים, וכמובן גם של הכנסות פוטנציאליות (שיירדו לטמיון בגלל הצגת אופציות גרועות למשתמשים).מומלץ גם להתייחס ברצינות רבה להגדרה מדויקת של המטרות, כדי להימנע משאלות גדולות מדי ולא ברורות. מבחני A/B לא נועדו לבדיקה מוגזמת של רעיונות גדולים ומפוזרים מדי (כמו אתר אחד אל מול אתר שני..), אלא לבדיקות שניתן להגדיר בהן פרמטרים ברורים מבחינה סטטיסטית ולנתח את ממצאיהן. בדיקות גדולות מדי יובילו למספר פרמטרים גדול מדי, לממצאים רבים ומפוזרים מדי ולחוסר אפשרות לנתח את הנתונים ולהסיק מסקנות בצורה יעילה ומדויקת.
למבחני A/B יש כמובן ערך רב, אך החיסרון האמיתי שלהם נובע הן מהעובדה שהמבחנים הללו בוחנים את ההשערות שלנו בלבד (ורק אותן) והן מהעובדה שהם לא מספקים לנו סיבות התנהגותיות ברורות לממצאים שקיבלנו (אלא מידע כמותני יבש בלבד). כדי להשיג את המטרות הללו ולהסיק מסקנות ברמה מעמיקה יותר, מומלץ לבצע מבחני שימושיות ככלי לבחינת מידע איכותני, שיספק תמונה שלמה וברורה יותר לגבי התנהגותם של המשתמשים.
כל הזכויות במאמרים אלה שמורות לחברת TZUR – UX Design. אין להעתיק, לשכפל, לצטט או לעשות כל שימוש שהוא בתוכן המאמר, ללא אישור מפורש בכתב מחברת TZUR – UX Designמחפשים חברת UX/UI מעולה?
אנו מומחי UX/UI למערכות מורכבות, אתרים ואפליקציות, שחיים ונושמים חווית משתמש כבר למעלה מ-20 שנים וזמינים לכל פרוייקט, אתגר או משימת UX/UI.