知識發現檢視原始碼討論檢視歷史
知識發現是中國的文化術語。
目前,世界上只有兩種文字,一種是方塊文字,如漢字[1]、日文和韓文,還有歷史上曾經出現過的西夏文[2]、契丹文,喃字等;另外一種是字母文字,主要包括拉丁字母文字、阿拉伯字母文字、粟特字母文字等。
名詞解釋
基於數據庫的知識發現(KDD)和數據挖掘還存在着混淆,通常這兩個術語替換使用。KDD表示將低層數據轉換為高層知識的整個過程。可以將KDD簡單定義為:KDD是確定數據中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。而數據挖掘可認為是觀察數據中模式或模型的抽取,這是對數據挖掘的一般解釋。雖然數據挖掘是知識發現過程的核心,但它通常僅占KDD的一部分(大約是15% 到25%) 。因此數據挖掘僅僅是整個KDD過程的一個步驟,對於到底有多少步以及哪一步必須包括在KDD過程中沒有確切的定義。然而,通用的過程應該接收原始數據輸入,選擇重要的數據項,縮減、預處理和濃縮數據組,將數據轉換為合適的格式,從數據中找到模式,評價解釋發現結果。
知識發現的基本任務
1)數據分類。分類是數據挖掘研究的重要分支之一,是一種有效的數據分析方法。分類的目標是通過分析訓練數據集,構造一個分類模型(即分類器),該模型能夠把數據庫中的數據記錄映射到一個給定的類別,從而可以l立用於數據預測。
2)數據聚類。當要分析的數據缺乏必要的描述信息,或者根本就無法組織成任何分類模式時,利用聚類函數把一組個體按照相似性歸成若干類,這樣就可以自動找到類。聚類和分類類似,都是將數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特徵按照數據之間的相似性來定義的。
3)衰退和預報。這是一種特殊類型的分類,可以看作是根據過去和當前的數據預測未來的數據狀態。通過對用衰減統計技術建模的數字值的預測,學習一種(線性或非線性)功能將數據項映射為一個數字預測變量。
4)關聯和相關性。是指發現大規模數據集中項集之間有趣的關聯或相關關係。關聯規則是指通過對數據庫中的數據進行分析,從某一數據對象的信息來推斷另一數據對象的信息,尋找出重複出現概率很高的知識模式,常用一個帶有置信度因子的參數來描述這種不確定的關係。
5)順序發現。通常指確定數據組中的順序模式。當數據的特定類型的關係已被發現時,這些模式同關聯和相關性相似。但對關係基於時間序列的數據組,順序發現和關聯就不同了。概括總結:順序發現是將數據映射為有關數據組的簡練描述的子集或映射為數據庫中一組特定用戶數據的高度概括的數據。
6)描述和辨別。是指發現一組特徵規則,其中的每一條都是或者顯示數據組的特徵或者從對比類中區別試驗類的概念的命題。
7)時間序列分析。其任務是發現屬性值的發展趨向,如從股票價格指數的金融數據、客戶數據和醫學數據等。它是用來搜尋相似模式以發現和預測特定模式的風險、因果關係和趨勢。
知識發現的知識類型
1)廣義型知識(Generalization)。是根據數據的微觀特性發現其表徵的、帶有普遍性的、高層次概念的、中觀或宏觀的知識。
2)分類型知識(Classification&Clustering)。反映同類事物共同性質的特徵型知識和不同事物之間差異型特徵知識。用於反映數據的匯聚模式或根據對象的屬性區分其所屬類別。
3)關聯型知識(Association)。是反映一個事件和其他事件之間依賴或關聯的知識,又稱依賴(Dependency)關係。這類知識可用於數據庫中的歸一化,查詢優化等。
4)預測型知識(Prediction)。通過時間序列型數據,由歷史的和當前的數據去預測未來的情況。它實際上是一種以時間為關鍵屬性的關聯知識。
5)偏差型知識(Deviation)。通過分析標準類以外的特例、數據聚類外的離群值、實際觀測值和系統預測值間的顯著差別,對差異和極端特例進行描述。
參考文獻
- ↑ 日文是怎麼來的,日本人是如何把漢文,改換成他們自己文字的,搜狐,2021-03-15
- ↑ 與漢文同宗同源的西夏文,國人看它如天書,俄羅斯人卻如數家珍,搜狐,2022-11-09