Fabric Study Notes-John Liu Blog

Load data into Lakehouse.

%%python
# this create a managed delta table, parquet file will be managed under the Tables folder. When table is deleted, associated
# parquet files will be auto deleted as well
df = spark.read.load(path='Files/Data/sales.csv',format='csv',header=True)
df.write.format('delta').saveAsTable('test')

%%python
# we can create an external delta table, parquet file will be saved under external location specified. When table is deleted,
# associated parquet files will not be auto deleted.
df = spark.read.load(path='Files/Data/sales.csv',format='csv',header=True)
df.write.format('delta').saveAsTable('myExternalTable',path='Files/myexternaltable')

# after external delta table deleted, we can recreated the table from the parquet file.
df = spark.read.parquet('Files/myexternaltable/part-00000-9d57224a-f267-437a-8669-cb69566a853d-c000.snappy.parquet')
df.write.format('delta').mode('overwrite').saveAsTable(name='myExternalTable',path='Files/myexternaltable')

%%sql
-- this command register an external table from the parquet file. The table created will not be delta table
create table myExternalTable
using parquet
location 'Files/myexternaltable/part-00000-9d57224a-f267-437a-8669-cb69566a853d-c000.snappy.parquet'

FEATURED TAGS

ai api automation availability availability sets availability zones aws vm azure azure automation runbook azure blob azure cosmos db azure data lake azure function app azure openai azure sign-in azure site recovery azure sql database azure sql db azure subscription azure vm base64 certificate change data capture change tracking chrome clr container cte data api builder data conversion data gateway database role database size date table dax db config derived table diagram direct query disk management disk space docker downtime dtc dynamic m parameter embedding encrypted connection excel excel online execution plan extended events external data fabric fabric capacity failover cluster fk geometry hierarchy httpwebrequest hugo hyper-v incognito mode index infrastructure inline tvf json kql lakehouse linked server live query statistics locking m machine learning machine learning model machine learning services master key mcp mdx memory memory grant mermaid mirrored sql server network network card network category onedrive onnx runtime openrowset p2v parquet performance polybase power automate power bi power bi report tricks power platform power query powershell printer public ip address pyspark python qgis qt designer query performance query plan query troubleshooting r regex replication route s3 schema design scripting self-signed certificate server role sharepoint snowflake software development sofware development spark sql sql agent sql availability group sql error sql failover cluster instance sql index sql openjson sql permission sql recovery sql script sql security sql server sql server admin sql server config sql statistics ssis ssisdb ssl ssl/tls error ssms table expression tempdb tips troubleshooting unicode view visual studio visual studio code vmware wait statistics wi-fi connection issue windows settings