今天是瑞士國慶日,放假一天在家無事,在此先祝瑞士 733 歲生日快樂。提到 YouTuber 大家可能在意訂閱數、觀看數、收益業配之類的,但一如往常,本文不會討論這些。如果 Howhow 或 Joeman 之類的有看到此文的話可以幫我拍手一下,謝。
本文來研究一下觀看次數的問題,如果把某 YouTuber 所有影片的觀看數都抓出來,並取其首位數,那麼從一到九,哪個數字出現的機率最高?看到這邊,你可能已經想關掉,所以在你關掉之前容我快速解釋一下,假設觀看數是 123,456(十二萬多),那就首位就是 1 ,如果是 432,100 (四十三萬多)那首位就是 4。現在大家可以思考一下,平常比較常看到的觀看次數,通常是什麼開頭?如果是幾十萬的話,是「幾」十萬?會不會每個數字都一樣是九分之一?又或者每個數字都不一樣,若不一樣,那是怎麼分布?
下好離手了嗎?
你可能會覺得,這什麼爛問題,有辦法提升我的訂閱數或觀看數嗎?老實說,沒有辦法。我隨便抓了三個台灣百萬訂閱頻道:HowFun (151 萬訂閱)、Joeman(258 萬訂閱)、木曜4超玩(234 萬訂閱),括號中為 2024 年 7 月底的訂閱數。每個頻道都抓 508 支影片,所以根據頻道影片更新的頻率,分別包含了近五、三、七年的影片。接著把每支影片標題與觀看次數抓出來,並抓出首位數字,畫成下圖。
上圖不知道是否有符合你剛剛的推測?大致上數字越大,出現機率越小。而且三個頻道的分布差不多(好啦,木曜的 1 有點太多),這時候你可能有種,喔對啊,很合理吧,講什麼廢話,但同時又有種,奇怪,是嗎?為什麼?有這種事?為啥不是都九分之一呢?
這就是傳說中的 Benford’s Law,也就是今天要來驗證的主角。早在 1881 年時,天文學家 Simon Newcomb 哥秉持著「仔細觀察運動」的精神,發現了奇異現象。他發現,在對數表中,比較前面的頁數被翻爛了,但後面的卻沒有(對數表通常是從 1 開始)。對於不知道什麼是對數表的年輕人:可以把它想像成是一本「計算機」,在計算機出現之前要算東西的話可以用類似查字典的方式查到答案,印象中本人高中時數學課有教。
接著 1938 年物理學家 Frank Benford 哥,找了一堆神秘數字來驗證這個「首位數字小、翻爛」的假說,他找了 104 個物理常數、308 個《讀者文摘》(Reader’s Digest) 裡面的數字、335 條河流的面積等等等一堆看似不相干的數字,發現好像真的是首位數字越小,出現機率越高,還發了一篇 Paper ,也因而得名。
經過了快一百年,數學還是數學,儘管當時沒 YouTube,但觀看次數仍然逃不出這個法則。準確來說,首位數字 d 出現的機率是 log(1+1/d),log底是 10,也就是說首位數字為 1 機率約有 30%,2 的話有 17.6%,3 有 12.5%,從 4 開始都小於 10% 到 9 最低只有 4.6%。現在我們把這三個頻道的數字都加起來(因越多筆數字應該會越趨近於理論數字)並轉換成百分比,再把Benford’s law 所得出的數字也畫出來,就會得到下圖。他們三個頻道的觀看數總和,大致上符合這個公式。換言之,首位數字是 1 或 2 的機率接近一半 47.6% ,下次你看 YouTube 影片時,可觀察一下觀看次數的首位數字是不是 1 或 2。
真的是這樣嗎?
秉持著上一篇提到「追根究柢的精神」,其實有些時候數字並不會出現這樣的分布。Benford’s law 中數字分布範圍最好要大,否則可能不會出現這樣的分布。以上述 YouTube 的例子,這三個頻道大概一千五百支影片,觀看次數從四、五萬次到千萬次都有。為了挑戰(驗證)此事,我去卡好網站抓取了中華職棒 33 年 (2022) 與 34 年 (2023) 每年皆三百場比賽的進場人數來看首位數字的分布如何。某種程度上棒球觀眾人數與 YouTuber 觀看人數是一樣的意思,都是觀眾,只是棒球場不太可能可以坐下百萬或千萬人,差異的地方就是棒球觀眾的範圍小,因為球場容量有限,而 YouTuber 觀看次數沒有上限(當然應該還是有啦,只是不太可能遇到)。此外,棒球場有時間限制,YouTube 則沒有,也就是說棒球比賽那天沒去就沒了,不會有觀眾人數累積的現象。統計之後,這兩年職棒的進場人數結果如下圖。
職棒觀眾人數的首位數字出現了截然不同的分布,無論是哪一年(怎麼感覺這句很英文)。且這兩年的分布也相差許多,職棒 33 年的首位數字集中在 2 和 3 但職棒 34 年則集中在 3 和 4。這極有可能是因為剛剛所提到,職棒觀眾人數範圍太窄了,這些 2 或 3 或 4 顯然是兩、三、四千人,不太可能是四萬甚至四十萬或者四十、四百人。這可能是為何職棒觀眾人數沒有出現類似 Benford’s Law 的分布之因。
未來展望
怎麼突然變成一篇學術文章,還是什麼《科學人》文章,總而言之,就是如此,藍又時秘密,不變的定律。在這邊寫自由自在,想寫什麼就寫什麼,不需要經過審查與老闆同意,舒爽許多。如果你很有毅力,看到這邊可能會想,啊你這樣大費周章抓了一千多支影片標題與觀看次數,結果就只拿來研究首位數字?這根本是用跑車當計程車(有這種比喻嗎)?
的確是如此,如果有空可能可分析一下,這些百萬 YouTuber 觀看次數與標題中的蛛絲馬跡。比如說我隨意看了一下, How 哥影片的標題長度偏短,大概只有 22 個字,其他兩個頻道大概是 46 個字。Joeman 喜歡在標體裡用驚嘆號,86% 的影片標題有驚嘆號,木曜也有 73% 的影片有,但 How 哥就只有 23%,之類的這種可能無用也可能有用的小細節。總而言之,如果你有空,多留意一下你身邊的數字,也許他們也符合 Benford’s law。