新聞中心
這篇文章給大家分享的是有關python中有沒有spark庫的內容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
成都創(chuàng)新互聯(lián)公司主營葉城網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,成都APP應用開發(fā),葉城h5小程序設計搭建,葉城網(wǎng)站營銷推廣歡迎葉城等地區(qū)企業(yè)咨詢
從這個名字pyspark就可以看出來,它是由python和spark組合使用的.
相信你此時已經(jīng)電腦上已經(jīng)裝載了hadoop,spark,python3.
Spark提供了一個Python_Shell,即pyspark,從而可以以交互的方式使用Python編寫Spark程序。
pyspark里最核心的模塊是SparkContext(簡稱sc),最重要的數(shù)據(jù)載體是RDD。RDD就像一個NumPy array或者一個Pandas Series,可以視作一個有序的item集合。只不過這些item并不存在driver端的內存里,而是被分割成很多個partitions,每個partition的數(shù)據(jù)存在集群的executor的內存中。
引入Python中pyspark工作模塊
import pyspark from pyspark import SparkContext as sc from pyspark import SparkConf conf=SparkConf().setAppName("miniProject").setMaster("local[*]") sc=SparkContext.getOrCreate(conf) #任何Spark程序都是SparkContext開始的,SparkContext的初始化需要一個SparkConf對象,SparkConf包含了Spark集群配置的各種參數(shù)(比如主節(jié)點的URL)。初始化后,就可以使用SparkContext對象所包含的各種方法來創(chuàng)建和操作RDD和共享變量。Spark shell會自動初始化一個SparkContext(在Scala和Python下可以,但不支持Java)。 #getOrCreate表明可以視情況新建session或利用已有的session
SparkSession是Spark 2.0引入的新概念。
SparkSession為用戶提供了統(tǒng)一的切入點,來讓用戶學習spark的各項功能。 在spark的早期版本中,SparkContext是spark的主要切入點,由于RDD是主要的API,我們通過sparkcontext來創(chuàng)建和操作RDD。對于每個其他的API,我們需要使用不同的context。
例如,對于Streming,我們需要使用StreamingContext;對于sql,使用sqlContext;對于hive,使用hiveContext。但是隨著DataSet和DataFrame的API逐漸成為標準的API,就需要為他們建立接入點。所以在spark2.0中,引入SparkSession作為DataSet和DataFrame API的切入點。
SparkSession實質上是SQLContext和HiveContext的組合(未來可能還會加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同樣是可以使用的。SparkSession內部封裝了SparkContext,所以計算實際上是由SparkContext完成的。
感謝各位的閱讀!關于python中有沒有spark庫就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
文章標題:python中有沒有spark庫
鏈接URL:http://ef60e0e.cn/article/gchssj.html