SQL指的是結(jié)構(gòu)化查詢語言,旨在管理關(guān)系型數(shù)據(jù)庫。SQL在數(shù)據(jù)科學(xué)中應(yīng)用廣泛,屬于必備技能。以下列出了SQL的特點(diǎn):
(資料圖)
掌握基本命令的知識是終身學(xué)習(xí)的基礎(chǔ)。否則,你只會記憶事實(shí),而不了解它們?nèi)绾闻浜?。以下是一些最常用的SQL命令:
SELECT和FROM:從指定的表中檢索數(shù)據(jù)的屬性。SELECT DISTINCT:它消除重 復(fù)的行并只顯示唯一的記錄。WHERE:它過濾記錄并只顯示滿足給定條件的記錄。AND、OR、NOT:當(dāng)條件不為True時不執(zhí)行查詢。而AND和OR用于應(yīng)用多個條件。ORDER BY:它按升序或降序?qū)?shù)據(jù)進(jìn)行排序。GROUP BY:它對相同的數(shù)據(jù)分組。HAVING:對由Group By聚合的數(shù)據(jù)可以在此進(jìn)一步篩選。聚合函數(shù):聚合函數(shù),如COUNT()、MAX()、MIN()、AVG()和SUM(),用于對給定的數(shù)據(jù)執(zhí)行操作。讓我們以Employee表為例,應(yīng)用這些命令:
ID | Name | Department | Salary ($) | Gender |
1 | Julia | Admin | 20000 | F |
2 | Jasmine | Admin | 15000 | F |
3 | John | IT | 20000 | M |
4 | Mark | Admin | 17000 | M |
現(xiàn)在,我們想要獲取在Admin部門工作的女性的平均工資。
SELECT Department, AVG(Salary)FROM EmployeesWHERE Gender="F"GROUP BY DepartmentHAVING Department = "Admin";
輸出:
Admin | 17500.0
2)Case WhenCase When是SQL中一種非常強(qiáng)大和靈活的語句,用于編寫復(fù)雜的條件語句。它提供了IF.THEN.ELSE語句的功能。讓我們來看一下它的語法:
CASE expression WHEN value_1 THEN result_1 WHEN value_2 THEN result_2 ... WHEN value_n THEN result_n ELSE resultEND
它按順序執(zhí)行語句,并在條件為True時返回值。如果沒有滿足條件的情況,將執(zhí)行ELSE塊,如果沒有ELSE塊,則返回NULL。
假設(shè)我們有一個學(xué)生數(shù)據(jù)庫,我們想根據(jù)他們的成績對他們進(jìn)行分級。可以使用以下SQL語句:
SELECT student_name, marks, CASE WHEN marks >= 85 THEN "A" WHEN marks >= 75 AND marks < 85 THEN "B+" WHEN marks >= 65 AND marks < 75 THEN "B" WHEN marks >= 55 AND marks < 65 THEN "C" WHEN marks >= 45 AND marks < 55 THEN "D" ELSE "F" END AS gradingFROM Students;
3)子查詢作為一名數(shù)據(jù)科學(xué)家,子查詢的知識是必不可少的,因為他們需要處理不同的表格,并且一個查詢的結(jié)果可能會再次用于限制主查詢中的數(shù)據(jù)。它也被稱為嵌套查詢或內(nèi)部查詢。子查詢必須用括號括起來,在主查詢之前執(zhí)行。如果它返回多行,則稱為多行子查詢,并且必須使用多行運(yùn)算符。
假設(shè)保險公司推出了一項新政策,取消那些年齡超過80歲的人的保險??梢允褂萌缦滤镜淖硬樵兺瓿桑?/p>
DELETEFROM INSURANCE_CUSTOMERSWHERE AGE IN (SELECT AGE FROM INSURANCE_CUSTOMERS WHERE AGE > 80 );
內(nèi)部子查詢選擇了所有80歲以上的客戶,然后對該組執(zhí)行Delete操作。
4)連接SQL連接是用于基于多個表格之間的邏輯關(guān)系將它們中的行組合在一起。SQL連接的4種類型如下所示:
內(nèi)部連接(Inner Join):內(nèi)部連接僅顯示滿足給定條件的兩個表格中的行。它可以在集合術(shù)語中稱為交集。SELECT Student.NameFROM StudentINNER JOIN Sports ON Student.ID = Sports.ID;
它返回那些已在體育部門注冊的學(xué)生。注意:Sports ID與學(xué)生的注冊ID相同。
左連接(Left Join):它返回左表格中的所有記錄,而只顯示右表格中的匹配記錄。SELECT Student.NameFROM StudentLEFT JOIN Sports ON Student.ID = Sports.ID;
右連接(Right Join):它與左連接作用正好相反。SELECT Student.NameFROM StudentRIGHT JOIN Sports ON Student.ID = Sports.ID;
完全連接(Full Join):它包含來自兩個表格的所有行,如果它沒有相應(yīng)的匹配條目,則顯示NULL值。SELECT Student.NameFROM StudentFULL JOIN Sports ON Student.ID = Sports.ID;
5)存儲過程存儲過程允許我們在數(shù)據(jù)庫中存儲多個SQL語句以便日后使用。它提供了可重用性,還可以在調(diào)用時接受參數(shù)值。它可以增強(qiáng)性能,并且更容易進(jìn)行任何修改。
CREATE PROCEDURE SelectStudents @Major nvarchar(30), @Grade char(1) ASSELECT *FROM StudentsWHERE Major = @Major AND Grade = @Grade GO;EXEC SelectStudents @Major = "Data Science", @Grade = "A";
此存儲過程允許我們提取不同專業(yè)的學(xué)生,并根據(jù)其成績進(jìn)行篩選。例如,我們要提取所有專業(yè)為數(shù)據(jù)科學(xué)且成績?yōu)锳的學(xué)生。請注意,CREATE PROCEDURE就像函數(shù)聲明一樣,需要使用EXEC進(jìn)行調(diào)用以便執(zhí)行。
6)字符串格式化我們都知道原始數(shù)據(jù)需要進(jìn)行清洗,以提高整體生產(chǎn)力,從而做出高質(zhì)量的決策。字符串格式化在這種情況下起著重要作用,它涉及到對字符串的操作,以去除不相關(guān)的內(nèi)容。SQL提供了大量的字符串函數(shù)來轉(zhuǎn)換和處理字符串。其中最常用的五個函數(shù)如下:
CONCAT:用于將兩個或多個字符串相加。SELECT CONCAT(Name, " has a major of ", Major)FROM StudentsWHERE student_Id = 37;
SUBSTR:返回字符串的一部分,并在其參數(shù)中提供子字符串的起始位置和長度。SELECT student_name,admission_date, SUBSTR(admission_date, 4, 2) AS dayFROM Students
從admission_date中提取出來的day列將以單獨(dú)的形式出現(xiàn),。
TRIM:TRIM的主要作用是從字符串的開頭、結(jié)尾或兩者中刪除字符(如果指定了)。必須指定前導(dǎo)、后導(dǎo)或兩者,然后是指定要刪除的字符,再接著是要從中刪除的字符串。SELECT age, TRIM(trailing " years" FROM age)FROM Students
它將26 years更改為26。
INSERT:允許我們在給定字符串中的指定位置插入字符串。必須指定要寫入的新子字符串的位置和長度。請注意,此新字符串將覆蓋先前的文本。SELECT INSERT("OldWebsite.com", 1, 9, "NewWebsite");
它將被更新為NewWebsite.com。
COALESCE:主要是用使用者定義的值替換空值,這在數(shù)據(jù)科學(xué)中經(jīng)常需要。SELECT COALESCE (NULL, NULL, 10, "John’")
這將返回10。
7)窗口函數(shù)窗口函數(shù)類似于聚合函數(shù),但在計算后不會使行合并為單個行。相反,行保留其各自的標(biāo)識。它們分為三個主要類別:
聚合函數(shù):它從數(shù)值列中顯示聚合值,如AVG()、COUNT()、MAX()、MIN()、SUM()等。SELECT name, AVG(salary) over (PARTITION BY department) FROM Employees;
它顯示了Employee表中不同部門的平均工資。
值函數(shù):使用值窗口函數(shù)為每個分區(qū)分配一些值。一些常用的值函數(shù)有LAG()、LEAD()、FIRST_VALUE()、LAST_VALUE()和NTH_VALUE()。SELECT bank_branch, month, income, LAG(income,1) OVER ( PARTITION BY bank_branch ORDER BY month ) income_next_monthFROM Bank;
我們將銀行不同分支機(jī)構(gòu)的本月收入與上月進(jìn)行比較。
排名函數(shù):它們可根據(jù)預(yù)定義排序為行分配排名。ROW_NUMBER()、RANK()、DENSE_RANK()、PERCENT_RANK()、NTILE()等是其中的幾個函數(shù)。SELECT product_name, price, RANK () OVER ( ORDER BY list DESC ) price_hightolowFROM Products;
使用RANK(),對產(chǎn)品進(jìn)行基于價格的排名。
結(jié)論通過閱讀本文能全面了解作為數(shù)據(jù)科學(xué)家需要了解多少SQL基本知識。如果想更深入地了解這些概念,以下是一些資源可供參考:
【SQLServertutorial】:https://www.sqlservertutorial.net/
【TutorialsPoint】:https://www.sqlservertutorial.net/
【W(wǎng)3Schools】:https://www.w3schools.com/sql/
關(guān)鍵詞:
質(zhì)檢
推薦