TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
Java數據科學指南(簡體書)
滿額折

Java數據科學指南(簡體書)

人民幣定價:79 元
定  價:NT$ 474 元
優惠價:87412
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
作者簡介
目次

商品簡介

現如今,數據科學已經成為一個熱門的技術領域,它涵蓋了人工智能的各個方面,例如數據處理、信息檢索、機器學習、自然語言處理、數據可視化等。而Java作為一門經典的編程語言,在數據科學領域也有著傑出的表現。
本書旨在通過Java編程來引導讀者更好地完成數據科學任務。本書通過9章內容,詳細地介紹了數據獲取與清洗、索引的建立和檢索數據、統計分析、數據學習、信息的提取、大數據處理、深度學習、數據可視化等重要主題。
本書適合想通過Java解決數據科學問題的讀者,也適合數據科學領域的專業人士以及普通Java開發人員閱讀。

作者簡介

Rushdi Shams畢業于加拿大韋仕敦大學,獲得了機器學習應用博士學位,主攻方向是自然語言處理(Natural Language Processing,NLP)。在成為機器學習與NLP領域的專家之前,他講授本科生與研究生課程。在YouTube上,他一直運營著一個名為“跟Rushdi一起學”(Learn with Rushdi)的頻道,並且做得有聲有色,該頻道主要面向想學習計算機技術的朋友。

目次

第 1章 獲取數據與清洗數據 1
1.1 簡介 2
1.2 使用Java從分層目錄中提取所有文件名 3
準備工作 3
操作步驟 3
1.3 使用Apache Commons IO從多層目錄中提取所有文件名 5
準備工作 5
操作步驟 5
1.4 使用Java 8從文本文件一次性讀取所有內容 6
操作步驟 7
1.5 使用Apache Commons IO從文本文件一次性讀取所有內容 7
準備工作 7
操作方法 8
1.6 使用Apache Tika提取PDF文本 8
準備知識 9
操作步驟 9
1.7 使用正則表達式清洗ASCII文本文件 11
操作步驟 11
1.8 使用Univocity解析CSV文件 12
準備工作 13
操作步驟 13
1.9 使用Univocity解析TSV文件 15
準備工作 15
操作步驟 16
1.10 使用JDOM解析XML文件 17
準備工作 17
操作步驟 18
1.11 使用JSON.simple編寫JSON文件 20
準備工作 20
操作步驟 21
1.12 使用JSON.simple讀取JSON文件 23
準備工作 24
操作步驟 24
1.13 使用JSoup從一個URL提取Web數據 26
準備工作 26
操作步驟 26
1.14 使用Selenium Webdriver從網站提取Web數據 29
準備工作 29
操作步驟 29
1.15 從MySQL數據庫讀取表格數據 32
準備工作 32
操作步驟 32
第 2章 為數據建立索引與搜索數據 35
2.1 簡介 35
2.2 使用Apache Lucene為數據建立索引 35
準備工作 36
操作步驟 40
工作原理 47
2.3 使用Apache Lucene搜索帶索引的數據 50
準備工作 50
操作步驟 51
第3章 數據統計分析 56
3.1 簡介 57
3.2 生成描述性統計 59
操作步驟 59
3.3 生成概要統計 60
操作步驟 60
3.4 從多種分佈生成概要統計 61
操作步驟 62
更多內容 63
3.5 計算頻率分佈 64
操作步驟 64
3.6 計算字符串中的詞頻 65
操作步驟 65
工作原理 67
3.7 使用Java 8計算字符串中的詞頻 67
操作步驟 67
3.8 計算簡單回歸 68
操作步驟 69
3.9 計算普通最小二乘回歸 70
操作步驟 70
3.10 計算廣義最小二乘回歸 72
操作步驟 72
3.11 計算兩組數據點的協方差 74
操作步驟 74
3.12 為兩組數據點計算皮爾遜相關係數 75
操作步驟 75
3.13 執行配對t檢驗 76
操作步驟 76
3.14 執行卡方檢驗 77
操作步驟 78
3.15 執行單因素方差分析
(one-way ANOVA test) 79
操作步驟 79
3.16 執行K-S檢驗 81
操作步驟 81
第4章 數據學習Ⅰ 83
4.1 簡介 83
4.2 創建與保存ARFF文件 84
操作步驟 87
4.3 對機器學習模型進行交叉驗證 91
操作步驟 91
4.4 對新的測試數據進行分類 95
準備工作 95
操作步驟 96
4.5 使用過濾分類器對新測試數據分類 102
操作步驟 102
4.6 創建線性回歸模型 105
操作步驟 106
4.7 創建邏輯回歸模型 108
操作步驟 108
4.8 使用K均值算法對數據點
進行聚類 110
操作步驟 110
4.9 依據類別對數據進行聚類處理 113
操作方法 113
4.10 學習數據間的關聯規則 116
準備工作 116
操作步驟 116
4.11 使用低層方法、過濾方法、元分類器方法選擇特徵/屬性 118
準備工作 119
操作步驟 119
第5章 數據學習Ⅱ 125
5.1 簡介 125
5.2 使用Java機器學習庫(Java-ML)向數據應用機器學習 126
準備工作 126
操作步驟 128
5.3 使用斯坦福分類器對數據點分類 137
準備工作 137
操作步驟 140
工作原理 141
5.4 使用MOA對數據點分類 142
準備工作 142
操作步驟 144
5.5 使用Mulan對多標簽數據點進行分類 147
準備工作 147
操作步驟 150
第6章 從文本數據提取信息 154
6.1 簡介 154
6.2 使用Java檢測標記(單詞) 155
準備工作 155
操作步驟 155
6.3 使用Java檢測句子 160
準備工作 160
操作步驟 160
6.4 使用OpenNLP檢測標記(單詞)與句子 161
準備工作 162
操作步驟 163
6.5 使用Stanford CoreNLP從標記中提取詞根、詞性,以及
識別命名實體 167
準備工作 167
操作步驟 169
6.6 使用Java 8借助余弦相似性測度測量文本相似度 171
準備工作 172
操作步驟 172
6.7 使用Mallet從文本文檔提取主題 176
準備工作 177
操作步驟 179
6.8 使用Mallet對文本文檔進行分類 184
準備工作 184
操作步驟 185
6.9 使用Weka對文本文檔進行分類 189
準備工作 190
操作步驟 191
第7章 處理大數據 194
7.1 簡介 194
7.2 使用Apache Mahout訓練在線邏輯回歸模型 195
準備工作 195
操作步驟 198
7.3 使用Apache Mahout應用在線邏輯回歸模型 202
準備工作 202
操作步驟 203
7.4 使用Apache Spark解決簡單的文本挖掘問題 207
準備工作 208
操作步驟 210
7.5 使用MLib的K均值算法做聚類 214
準備工作 214
操作步驟 214
7.6 使用MLib創建線性回歸模型 217
準備工作 217
操作步驟 218
7.7 使用MLib的隨機森林模型對數據點進行分類 222
準備工作 222
操作步驟 223
第8章 數據深度學習 229
8.1 簡介 229
8.2 使用DL4j創建Word2vec神經網絡 241
操作方法 241
工作原理 243
更多內容 246
8.3 使用DL4j創建深度信念神經網絡 246
操作步驟 246
工作原理 250
8.4 使用DL4j創建深度自動編碼器 254
操作步驟 254
工作原理 256
第9章 數據可視化 259
9.1 簡介 259
9.2 繪製2D正弦曲線 260
準備工作 260
操作步驟 262
9.3 繪製直方圖 266
準備工作 266
操作步驟 268
9.4 繪製條形圖 273
準備工作 274
操作步驟 275
9.5 繪製箱線圖或箱須圖 279
準備工作 279
操作步驟 281
9.6 繪製散點圖 285
準備工作 285
操作步驟 286
9.7 繪製甜圈圖 289
準備工作 289
操作步驟 290
9.8 繪製面積圖 294
準備工作 294
操作步驟 295

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區