評論

滿額折

懶人圖解統計學：統整複雜數據，看穿大數據背後真相

系列名：科學視界
ISBN13：9789865408350
替代書名：統計学最高の教科書現実を分析して未来を予測する技術を身につける
出版社：世茂出版社
作者：今野紀雄
譯者：陳朕疆
出版日：2020/12/02
裝訂／頁數：平裝／192頁
規格：21cm*14.8cm*1.3cm (高/寬/厚)
重量：348克
版次：1
關鍵字：懶人圖解統計學：統整複雜數據，看穿大數據背後真相、懶人、圖解、統計、統計學、統整、複雜、數據、看穿、大數據、背後、真相、最高、教科、教科書、現実、分析、技術、統計學總論、世茂出版社、今野紀雄、財經企管、行銷企管、總論、

中文圖書分類：統計學總論

定價

：NT$ 350 元

優惠價

：90 折 315 元

領券後再享88折

領

團購優惠券B

8本以上且滿1500元
再享89折，單本省下35元

領

庫存：3

可得紅利積點：9 點

相關商品

商品簡介

作者簡介

序

書摘/試閱

商品簡介

擁有統計力，就能提升解決問題的能力
用圖像思考分析「現在」，用數學邏輯演算「未來」
用最不燒腦的方式學習統計學！
【設計生活化情境題】+【資料視覺化】+【專有名詞變白話】

淡江大學統計學系教授林志娟審訂推薦
統計學博士程毅豪誠心推薦

一看就懂的統計學新手入門書
就算「沒有統計知識」也沒關係！
從基本原理開始，一點一點詳細說明
快速掌握必備觀念，輕鬆漫遊大數據時代

統計學哪裡只是公式運算，更是生活的準則、日常的指標！
★擲骰子、丟硬幣、中樂透，遊戲輸贏一瞬間，人生賽局是命運還是機會？
★調查收視率可以掌握市場變化，看準投資方向一點也不難！
★拚經濟跟統計有關，玩政治也跟統計有關，一切都在計算之中！
★數據展現實力！棒球迷如何從統計視角一窺棒球場上孰強孰弱？
★班佛定律可以教你識破會計數字是真是假，看出是誰在幕後以假亂真？

●打好統計學的基礎，應用在你的工作上！
●適合初學統計的人，以及想重新學統計的人！
●用每章最後的練習題與詳細解說，確認你理解了多少。

用「最短」、「最快」的方式學習統計學！
「統計學」總給人很艱澀的印象。不過，只要從基礎開始一步步學習，就會發現統計學其實一點也不難。即使是從來沒學過任何統計學知識的人，閱讀本書時也不會有任何障礙，而是能在不知不覺中讀完這本書，明白到統計學的本質。統計學是「分析現在、預測未來」的最強「技術」。請各位在讀完本書後，化統計學為自身的力量吧！

作者簡介

今野紀雄（Norio Konno）
1957年出生於東京。1982年東京大學理學部數學科畢業。1987年東京工業大學大學院理工學研究科博士課程修畢退學。曾任室蘭工業大學數理科學共通講座副教授、康乃爾大學數理科學研究所客座研究員，現為橫濱國立大學大學院工學研究院教授。主要著作包括《不可思議的數學》、《3小時讀通統計》、《拓樸學超入門》（共著）、《看漫畫學複雜網路》（共著）（Science-i新書）、《圖解雜學機率》、《圖解雜學機率模型》（Natsume社）、《Newton》雜誌監修工作。

譯者簡介
陳朕疆
自由譯者。清大生命科學學士、政大財務管理碩士、京都大學農學部交換一年。現為專職譯者，譯有多本科普、健康、商管書籍，歡迎批評指教。

序

前言

各位知道 10 月 18 日是什麼日子嗎？

這天是日本的統計日。在日本總務省統計局的網站中提到，1872 年 9 月 24 日，日本太政官公布了日本第一個近代生產統計表—《府縣物產表》，這天換算成陽曆後就是 10 月 18 日。於是日本政府就在 1973 年，訂這天為統計日。

在統計日這天，總務省會舉辦各種活動，促進日本國民關心統計，使國民了解統計的重要性，並配合政府的各種統計調查。

其中一項活動就是「募集標語」。總務省會將募集到的標語用於海報等廣告宣傳。2018 年度的特選作品，是由統計調查員組別選出的「活用統計、指向未來」。總務省的網站上可以看到歷屆入選作品，而且這些標語一個比一個驚豔。以下介紹其中幾個標語。

「這是為了誰？這是為了所有人的統計調查」 2000 年
「數字重於理論，統計重於直覺」 2003 年
「統計能獲得正確資訊，讓人放心」 2006 年

2019 年度的標語從 2 月開始募集，那時有人踢爆政府各部會偽造統計數據，引發了不小的問題，這也使 Twitter 上大量出現揶揄這次事件的標語。

「混亂的統計，可疑的指標」
「統計都是編造的數字，不要隨便相信」
「數字不合，就自己編造，統計都是假的」
「就算不景氣，統計數字也會說景氣很好」

我和其他教授談起這些統計調查事件時，聊到「有沒有什麼方法，可以看出這些統計數字的問題呢？」這裡先把這個方法命名為「規則 X」。我們會在本書的專欄中，與各位談談有什麼方法可以做到這件事，敬請期待！

本書會用淺顯易懂的方式，說明高中等級的統計。以下就簡單說明一下本書內容。

第 1 章介紹平均值（期望值）、變異數、標準差等，能描述數據特徵的數值；第 2 章介紹基礎機率，幫助各位理解本書後半提到的統計學知識；第 3 章介紹隨機變數；第 4 章介紹典型的分配範例—二項分配、常態分配；第 5 章介紹估計方法，說明如何由部分數據推論整體數據；第 6 章介紹檢定方法，說明如何建立假設、如何判斷假設正確與否；第7 章介紹如何描述不同數據間的相關關係。
另外，在每章的最後面會列出幾個練習問題，請各位試著挑戰看看，以加深理解。

最後，本書的出版過程受到科學書籍編輯部的石井顯一先生不少照顧，在此表達誠摯謝意。
今野紀雄

第 1 章數據的特徵 9
1-1 當有人問你「每週喝幾次酒」，你會覺得很難回答嗎？ 10
1-2 雖然平均月薪相同，但你不覺得哪裡奇怪嗎？ 12
1-3 即使平均值相同，也不代表數據有相同特徵 14
1-4 將數據畫成「直方圖」會更好了解 16
1-5 配合數據特徵，選擇適當組距 18
1-6 由直方圖的形狀，可以看出某些數據不適合用「平均值」來描述 20
1-7 除了平均值，還有其他可以代表整體數據的數值 22
1-8 正中央數值—中位數 24
1-9 如何計算中位數？ 26
1-10 哪個數值最多？什麼是眾數？ 28
1-11 表示數據分布範圍的「全距」 30
1-12 如何表示數據分散程度？ 32
1-13 用「變異數」來表示數據分散程度會方便許多 34
1-14 如何用變異數來計算數據分散程度？ 36
章末練習 ① 38
專欄 1 統計虛擬貨幣之現價總額的首位數字，會有什麼結果？ 40

第 2 章機率的基礎 41
2-1 「樣本點」「樣本空間」與「事件」分別是什麼？ 42
2-2 「和事件」「積事件」和「餘事件」 44
2-3 機率的定義 46
2-4 「事件機率」的計算 48
2-5 以「擲硬幣」為例，做機率的計算 50
2-6 丁半賭博中「丁」的機率和「半」的機率分別是多少？ 52
2-7 不會同時發生的「互斥事件」 54
2-8 互斥的兩個「事件」有什麼關係？ 56
2-9 發生「餘事件（非∼的事件）」的機率是多少？ 58
2-10 什麼是「條件機率」？ 60
2-11 學會使用方便的「乘法規則」 62
2-12 不被其他事件影響的「獨立事件」 64
章末練習 ② 66
專欄 2 首位數字的出現機率會符合「班佛定律」 68

第 3 章隨機變數 69
3-1 由偶然決定數值的「隨機變數」 70
3-2 利用機率的性質，讓機率的計算變簡單 72
3-3 隨機變數和與之對應的「機率分配」 74
3-4 機率合計為「1」 76
3-5 計算隨機變數X 的期望值 78
3-6 即使各個事件的機率不一樣，也能求出期望值E(X) 80
3-7 「標準差」是變異數的正平方根 82
3-8 「平均值前後一個標準差」是最常出現的數值 84
章末練習 ③ 86
專欄 3 應用班佛定律找出偽造數據 90

第 4 章分配 91
4-1 考慮順序時的「可能情況數」 92
4-2 不考慮順序時的「可能情況數」 94
4-3 由二項分配算出擲骰子結果的機率 96
4-4 由二項分配算出擲骰子結果的分配 98
4-5 擲骰次數增加，二項分配的形狀也會跟著改變 100
4-6 身高、雨量、產品誤差⋯⋯我們可以在許多數據上看到常態分配 102
4-7 常態分配的性質 104
4-8 常態分配中，幾乎所有事件都會在「3 σ 範圍」內 106
4-9 常態分配標準化的「標準常態分配」 108
4-10 從圖看出標準常態分配的性質 110
4-11 用標準常態分配來計算機率 112
章末練習 ④ 114
專欄 4 「末位數字」的分配也會偏向一邊嗎？ 116

第 5 章估計 117
5-1 從部分數據估計整體數據 118
5-2 由估計方法決定適當的樣本數 120
5-3 如何調查電視的收視率？ 122
5-4 如何用統計方法估計收視率 124
5-5 估計一個數值點—「點估計」 126
5-6 估計一段區間—「區間估計」∼其一 128
5-7 估計一段區間—「區間估計」∼其二 130
5-8 信心水準的大小與信賴區間的關係 132
5-9 精靈寶可夢的收視率變化 134
5-10 信心水準提高，信賴區間也會變大 136
5-11 估計大谷翔平選手未來的打擊率，會得到什麼結果？ 138
章末練習 ⑤ 140
專欄 5 「辛普森悖論」是什麼？ 144

第 6 章檢定 145
6-1 如果連續擲硬幣五次都是正面，可以說「這是一枚不公正硬幣」嗎？ 146
6-2 如何檢定「這是一枚公正硬幣」的假設是否正確？ 148
6-3 了解檢定的獨特概念與流程 150
6-4 檢定會因為「錯誤率」不同而得到不一樣的結果 152
6-5 當「五次有四次是正面」，可以說「這是一枚不公正硬幣」嗎？ 154
6-6 即使「五次有四次正面」，也不能說「這是一枚不公正硬幣」 156
6-7 若錯誤率是5%，那麼當「十次有九次正面」，就可以說「這是一枚不公正硬幣」 158
章末練習 ⑥ 160
專欄 6 在日本買彩券應該買「連號」？還是買「號碼分散」？ 164

第 7 章相關 165
7-1 判斷兩群數據的關係 166
7-2 用「相關圖」將不同數據間的關係視覺化 168
7-3 什麼是「強相關」「弱相關」和「零相關」？ 170
7-4 「相關係數」可以表示不同數據間的相關程度 172
7-5 「相關係數」的公式 174
7-6 相關係數的計算方法∼例一 176
7-7 相關係數的計算方法∼例二 178
7-8 相關係數的計算方法∼例三 180
7-9 相關係數的總整理 182
章末練習 ⑦ 184
專欄 7 「無法計算期望值」的抽獎 186

後記 187
主要參考文獻 189
索引 190

書摘/試閱

1-1 當有人問你「每週喝幾次酒」，你會覺得很難回答嗎？
我很喜歡喝酒（或者應該說，我很喜歡酒宴時的氣氛）。朋友們知道這件事後，一定會問我：「平均每週喝幾次酒？」

我覺得這個問題實在很難回答。我從來不曾認真記錄哪天有喝酒、哪天沒喝，更不會像是計算棒球選手的打擊率那樣，計算每天喝酒情況的變化。但是，問我這個問題的人也不認為我會這麼做吧？

事實上，我喝酒的頻率變動很大。雖然我沒有晚酌的習慣，但是想喝酒的時候，每天晚上都會喝一些。但如果幾天不喝，就會像變了一個人似的，整個月都不碰酒精。就算我憑著那不怎麼可靠的記憶，計算出平均值約為「每週喝兩次」，意義也不大，因為連我自己都覺得這個答案怪怪的。「每週喝兩次」這句話聽起來就像是我會固定在每週五、六喝酒一樣，但事實並非如此。

因此，如果你是那種什麼都只想靠平均值來判斷的人，還請先別這麼快就下定論。

第 1 章中，我們會介紹各種可以代表整體數據的數值，「平均值（期望值）」就是其中之一。

上面的例子中，當我被朋友問到「平均每週喝幾次酒」，我很難回答得出來。由這個例子可以知道，有時候「平均值並不是最適合用來代表整體數據的數值」。還請先記住這點，並繼續往下閱讀。

1-6 由直方圖的形狀，可以看出某些數據不適合用「平均值」來描述
次頁是A 公司到E 公司共五家公司的月薪直方圖。從這些直方圖可以看出這些公司的幾個特徵。

首先，A 公司、B 公司、C 公司的直方圖皆為左右對稱，而且 A 公司與 B 公司只有一個峰。這種只有一個峰、相對單純的分配，稱做「單峰型」分配。譬如男性身高的分配，就是單峰型分配的典型例子。

相較於此，C 公司的月薪分配有兩個峰。有兩個峰或更多峰的分配，稱做「多峰型」分配。舉例來說，如果不分男女，統計所有人的身高並做成次數分配表，就會是多峰型分配；在考試時，若明顯有一群人比較會解題，另一群人比較不會，則成績分配也會是多峰型。

至於 D 公司與 E 公司的月薪分配則非左右對稱，而是集中在左側。日本媒體常會報導棒球選手的年薪，他們的個人所得分配也明顯不是左右對稱。

回來談談平均值，當單峰型數據的直方圖左右對稱（或者接近左右對稱）時，以平均值做為整體數據的代表值，不會有什麼問題。

但是，如果是像 C 公司那樣的多峰型數據，即使左右對稱，平均值也無法做為整體數據的代表值。E 公司那種具有明顯落差的數據就更不用說了。

下一節中，我們就來談談除了平均值，還有哪些數值可以代表整體數據。

5-1 從部分數據估計整體數據
本章要說明的是「估計」方法。在這之前，先來看看以下這個簡單的例子。

若想知道日本所有滿 20 歲成年男子的平均身高，不可能花費大量時間和人力去實際調查每個日本成年男子的身高。更何況，在量所有人身高的期間內，調查對象也可能發生變化。例如某些已量完身高的人在這段期間內死亡，或者某些原本未成年的男子在這段期間內長為成人。