Vegetation change detection based on time series analysis by Apache Spark and RasterFrame
Spatial big data has a large scale and complex, therefore, it cannot be
collected, managed, and analyzed by traditional data analytic software
shortly. These platforms in many situations are restricted to vectors data.
However, the raster data generated by the sensors on the enormous
number of satellites now needs to be processed in parallel on the cluster
environment. The article introduces the satellite image data analyzing
method using the RasterFrames library on the Apache Spark platform.
The RasterFrames library examines raster data for Python, Scala, and
SQL, bringing the power of Spark DataFrames to access to Earth
Observation, cloud computing, and data science. In the experimental part,
the NDVI and the change in the average value of NDVI in the time series
are calculated to demonstrate the vegetation mantle changes in Phu Tho
province. These results are the reference data source in the assessment of
weather, climate, and environmental changes in the study area during
that time.

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Vegetation change detection based on time series analysis by Apache Spark and RasterFrame
xử
lý bằng các công cụ Apache Spark. Sự phát triển
của DataFrame đã được tiếp tục với Spark SQL,
đưa DataFrames vào tính toán phân tán dữ liệu
không gian lớn. Thông qua một số cải tiến mới,
Spark SQL cho phép các nhà khoa học dữ liệu làm
việc với DataFrames quá lớn so với bộ nhớ của
một máy tính. Các DataFrames này có thể thao tác
qua SQL tiêu chuẩn, cũng như các ngôn ngữ lập
trình Python, R, Java, Scala (Hình 1).
2.2. RasterFrames
RasterFrames là một dự án của Eclipse
Foundation LocationTech, kết hợp phân tích dữ
liệu quan sát Trái đất, điện toán đám mây và khoa
học dữ liệu dựa trên DataFrame.
RasterFrames kết hợp truy cập dữ liệu quan
sát Trái đất, điện toán đám mây và khoa học dữ
liệu dựa trên nền tảng DataFrames. Cung cấp khả
năng truy cập và hiển thị dữ liệu raster qua
DataFrames, thực hiện các truy vấn không gian
thời gian, các phép toán đại số trên dữ liệu raster
và khả năng tương thích với các thuật toán Spark
ML. Bằng cách sử dụng DataFrames như một mô
hình tính toán thống nhất, RasterFrames cho phép
các nhà phân tích, các nhà khoa học dữ liệu, các
chuyên gia về khoa học không gian dễ dàng làm
việc với dữ liệu quan sát Trái đất trong cấu trúc dữ
liệu DataFrames quen thuộc (Hình 2). Ngoài ra do
RasterFrames được xây dựng trên nền tảng
Apache Spark, các giải pháp được thử nghiệm trên
máy tính từ khai phá dữ liệu đến xử lý các tập dữ
liệu lớn có thể dễ dàng được giới hạn tỷ lệ để chạy
trên tài nguyên tính toán phân cụm và đám mây.
Hình 1. Xử lý dữ liệu không gian trên nền tảng Apache Spark.
Hình 2. Các thành phần cấu thành nên RasterFrames.
46 Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52
Thông qua Spark DataSource, RasterFrames
có thể đọc các định dạng raster khác nhau - bao
gồm GeoTIFF, JP2000, MRF và HDF - và từ một
loạt các dịch vụ, như HTTP, FTP, HDFS, S3 và
WASB. Nó cũng hỗ trợ đọc các định dạng vector
GeoJSON và WKT / WKB. RasterFrame có thể thực
hiện các phép lọc, chuyển đổi, tổng quát hóa, tái
chia mẫu và phân loại thông qua hơn 200 hàm
raster và vector.
Là một phần của dự án LocationTech,
RasterFrames được xây dựng dựa trên nền tảng
vững chắc được cung cấp bởi GeoMesa (phép toán
không gian), GeoTrellis (phép toán raster), JTS
(mô hình hình học) và SFCurve (lập chỉ mục không
gian thời gian), tích hợp các khía cạnh khác nhau
của các dự án này thành một thể thống nhất, phân
tích dữ liệu dựa trên DataFrame. Hình 2 mô tả các
thành phần cấu thành nên RasterFrames.
RasterFrames giới thiệu một kiểu dữ liệu
riêng mới được gọi là tile cho Spark SQL. Mỗi ô tile
chứa 2 ma trận 2 chiều gồm các giá trị “cell” (pixel)
với thông tin giải thích số lượng các ô đó. Một
“RasterFrames” là một Spark DataFrame với một
hay nhiều cột kiểu tile (Hình 3). Một cột tile
thường biểu thị một kênh ảnh độc lập của dữ liệu
ảnh viễn thám tương ứng với một dải sóng trong
dải quang phổ, được phân tách thành từng mảng
có kích thước nhất định. RasterFrames cũng hỗ
trợ để làm việc với dữ liệu vectơ với định dạng
GeoJSON. Ngoài các cột tile, còn quản lý thêm các
cột geometry (giới hạn hoặc phạm vi/đường bao)
xác định vị trí của dữ liệu, thông tin về hệ thống
tọa độ (crs) và cột timestamp biểu thị thời gian thu
nhận dữ liệu. Các cột này được sử dụng trong câu
lệnh WHERE khi thực hiện truy vấn trên ảnh.
Dữ liệu raster có thể được đọc từ một số
nguồn. Thông qua API Spark SQL DataSource,
RasterFrames có thể được xây dựng từ các tập
hợp GeoTIFFs, GeoTrellis Layers và danh mục các
dữ liệu thực nghiệm từ bộ dữ liệu Landsat 8 và
MODIS trên Amazon Web Services (AWS) Public
Data Set (PDS) (Hình 4).
2.3. Dữ liệu và vùng thực nghiệm
Dữ liệu đầu vào sử dụng trong nghiên cứu là
ảnh vệ tinh MODIS Nadir BRDF-Adjusted Surface
Reflectance Data Product 500m với định dạng dữ
liệu GeoTIFFs được lấy từ nguồn Amazon Web
Services PDS.
Hình 3. Kiểu dữ liệu Tile sử dụng trong RasterFrame.
Hình 4. Các nguồn dữ liệu raster sử dụng trong RasterFrames.
Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 47
Dữ liệu ảnh MODIS được thu nhận trong
khoảng thời từ tháng 01/1/2013 đến tháng
31/12/2015 cho khu vực tỉnh Phú Thọ (Hình 5).
Số lượng ảnh cung cấp bởi Amazone Web
Services PDS là 2 cảnh ảnh trong một ngày và
thuộc tính của ảnh sẽ được thể hiện dưới dạng
lược đồ:
col_name data_type
product_id string
acquisition_date timestamp
gid string
b01 string
b01qa string
b02 string
. .
b07qa String
Hình 5. Khu vực nghiên cứu.
Hình 6. Lưu đồ giải thuật chi tiết phân tích chuỗi thời gian của NDVI.
48 Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52
3. Phương pháp phân tích chuỗi thời gian
3.1. Phân tích chuỗi thời gian giá trị NDVI
Hình 6 mô tả lưu đồ giải thuật xử lý và phân
tích chuỗi thời gian giá trị NDVI trên tập dữ liệu
đầu vào. Phương pháp này có thể tóm tắt ở các
bước chính như sau:
1. Sử dụng RasterFrames kết nối đến nguồn
dữ liệu từ dịch vụ đám mây Amazon.
2. Xác định vùng dữ liệu vùng quan tâm và
thời gian thu thập của dữ liệu ảnh.
3. Thực hiện các tính toán giá trị trên các
DataFrames.
4. Thực hiện các phân tích theo từng chuỗi
thời gian.
5. Biểu diễn các kết quả phân tích trên các
biểu đồ.
3.2. Cài đặt chương trình
Ở phần này của bài báo trình bày cài đặt giải
thuật phân tích chuỗi thời gian với ngôn ngữ
Python, các bước chính của phương pháp được cài
đặt như sau:
- Kết nối đến nguồn dữ liệu Amazon
path='RG_PhuTho_offset1km_1.geojson'
PT_vector=spark.read.geojson(path)
cat=spark.read.format('aws-pds-modis-
catalog').load().repartition(50)
PT_cat = cat\
.filter(
(cat.granule_id =='h27v06')&
(cat.acquisition_date >= lit('2013-01-01'))&
(cat.acquisition_date < lit('2013-12-01'))
)\
.crossJoin(PT_vector)
- Xác định vùng dữ liệu và thời gian thu nhận ảnh
raster_cols = ['B01', 'B02',] # red and near-
infrared để tính toán NDVI
PT_rf = spark.read.raster(
PT_cat.select(['acquisition_date', 'granule_id']
+ raster_cols + PT_vector.columns),
catalog_col_names=['B01', 'B02']) \
.withColumn('PT_native',
st_reproject('geo_simp', lit('EPSG:4326'),
rf_crs('B01'))) \
.filter(st_intersects('PT_native',
rf_geometry('B01')))\
- Tính toán NDVI
rf_PT_tile = PT_rf\
.withColumn('dims', rf_dimensions('B01')) \
.withColumn('PT_tile',
rf_rasterize('PT_native',
rf_geometry('B01'),'OBJECTID', 'dims.cols',
'dims.rows')) \
.persist()
rf_ndvi = rf_PT_tile \
.withColumn('ndvi',
rf_normalized_difference('B02', 'B01')) \
.withColumn('ndvi_masked', rf_mask('ndvi',
'PT_tile'))
- Phân tích chuỗi thời gian
time_series = rf_ndvi\
.groupby(
year('acquisition_date').alias('year'),
weekofyear('acquisition_date').alias('week'))\
.agg(rf_agg_mean('ndvi_masked').alias('ndvi'))
- Biểu diễn kết quả phân tích
ts_pd = time_series.toPandas()
ts_pd.sort_values(['year', 'week'],
inplace=True)
plt.figure(figsize=(20,8))
plt.plot(ts_pd['year_week'], ts_pd['ndvi'],'go-
')
4. Kết quả thực nghiệm
Chỉ số thực vật NDVI và sự thay đổi giá trị
trung bình của NDVI trong một khoảng thời gian
nhất định được tính toán để chỉ ra sự biến đổi lớp
phủ thực vật tại khu vực tỉnh Phú Thọ.
NDVI thường sử dụng để theo dõi hạn hán, dự
đoán sản xuất nông nghiệp, hỗ trợ dự đoán các
khu vực cháy rừng và lập bản đồ sự xâm lấn sa
mạc. NDVI để theo dõi thảm thực vật toàn cầu vì
nó giúp làm cân bằng cho việc thay đổi điều kiện
chiếu sáng, độ dốc bề mặt, hướng và các yếu tố
ngoại lai khác (Lillesand 2004). Chỉ số NDVI được
tính toán theo tỷ số giữa kênh sóng đỏ (Red) và
kênh cận hồng ngoại (NIR).
𝑁𝐷𝑉𝐼 =
𝐵𝑎𝑛𝑑 (𝑁𝐼𝑅) − 𝐵𝑎𝑛𝑑 (𝑅𝑒𝑑)
𝐵𝑎𝑛𝑑 (𝑁𝐼𝑅) + 𝐵𝑎𝑛𝑑 (𝑅𝑒𝑑)
Quá trình xử lý dữ liệu thay vì được thực hiện
trên từng dữ liệu raster độc lập, RasterFrames
cung cấp khả năng xử lý trên một tập hợp các dữ
Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 49
liệu raster. Tập hợp này là một danh sách các URL
tham chiếu đến các tệp raster cũng có thể là Spark
DataFrame, Pandas DataFrame, tệp CSV hoặc
chuỗi CSV.
Thực nghiệm kết hợp dữ liệu ranh giới khu
vực nghiên cứu với danh mục các tệp raster và chỉ
xử lý trên các kênh ảnh dùng để tính toán chỉ số
NDVI (Hình 7).
Chỉ số thực vật NDVI trong khoảng thời gian
từ 1/1/2013 đến 30/12/2015 được tính toán cho
toàn bộ dữ liệu. Hình 8 thể hiện giá trị của tháng
12/2013 được tính toán, kết xuất từ chương trình
Hình 7. Tập hợp các dữ liệu raster sử dụng trong tính toán chỉ số NDVI (Kênh sóng Đỏ và cận hồng ngoại)
của ảnh MODIS.
Hình 8. NIDV tại 12/2013 và bản đồ hiện trạng.
50 Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52
và bản đồ hiện trạng lớp phủ thực vật năm 2013
của tỉnh Phú Thọ. Kết quả cho thấy độ chính xác
của phương pháp tính toán đề xuất. Khu vực trên
ảnh có giá trị NDVI cao (>0.6) tương ứng với vùng
lớp phủ rừng (mầu vàng) trên bản đồ lớp phủ.
Tiếp theo, phân tích theo chuỗi thời gian được
thiết lập bằng cách sử dụng giá trị NDVI trung bình
theo tuần trong khoảng thời gian này tại khu vực
tỉnh Phú Thọ bằng việc sử dụng các hàm tính toán
dựa trên nhóm và thời gian được tích hợp sẵn trên
Pyspark và hàm tập hợp của RasterFrames để
thực hiện việc tính toán. Hình 9 biểu diễn giá trị
biến động NDVI theo tuần trong các năm 2013 và
2015. Kết quả cho thấy độ biến động ở 2 năm là
khá đồng đều. Giá trị NDVI trung bình có xu
hướng giảm mạnh từ khoảng tháng 11÷3 năm sau
chứng tỏ thực vật đang trút lá có thể do thời điểm
này là mùa khô. Từ tháng 4÷10 giá trị NDVI trung
bình tăng chứng tỏ thực vật đang dần phát triển
ổn định do thời điểm này là mùa mưa không bị
hạn hán, cháy rừng, nhiều ánh nắng mặt trời giúp
thực vật quang hợp tốt.
5. Kết luận
Phương pháp xử lý và phân tích dữ liệu ảnh
vệ tinh dựa trên nền tảng Apache Spark kết hợp
với thư viện xử lý dữ liệu không gian
RasterFrames. Dữ liệu đầu vào là tập các ảnh
Hình 9. Đồ thị biểu diễn xu hướng trong chuỗi thời gian NDVI (1/2013-12/2013 và 1/2015- 12/2015).
Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52 51
vệ tinh MODIS được thu nhận trong khoảng thời
gian từ tháng 1/2013 đến tháng 12/2015 khu vực
tỉnh Phú Thọ. Chỉ số NDVI theo chuỗi thời gian
được tính toán và phân tích để đánh giá sự biến
đổi của lớp phủ thực vât tại khu vực nghiên cứu.
Phương pháp đề xuất cho thấy khả năng mở
rộng để có thể xử lý lượng dữ liệu lớn và kết nối từ
nguồn dữ liệu phong phú. Các kết quả thực
nghiệm được thực hiện trên một máy tính, tuy
nhiên có thể mở rộng thành 1 cụm tính toán dựa
trên nền tảng Apache Spark. Kết quả bài báo đã
góp phần khẳng định vai trò của các nền tảng công
nghệ dữ liệu lớn, điện toán đám mây, khoa học dữ
liệu trong các bài toán liên quan đến quản lý, giám
sát tài nguyên thiên nhiên và môi trường. Thực
hiện các phân tích đa thời gian phức tạp hơn để có
những đánh giá chi tiết và mở rộng nguồn dữ liệu
ảnh đầu vào là một trong những hướng nghiên
cứu tiếp theo.
Lời cảm ơn
Kết quả nghiên cứu này là một trong những
nội nghiên cứu của đề tài “Xử lý ảnh vệ tinh trên
nền tảng dữ liệu lớn ”, Mã số T19-29.
Nhóm nghiên cứu xin chân thành cảm ơn Đề
tài đã hỗ trợ cho nghiên cứu này.
Những đóng góp của tác giả
Nội dung khoa học của bài báo có sự đóng góp
của tất cả các tác giả, cụ thể:
Nguyễn Thị Mai Dung: đề xuất phương pháp,
chỉnh sửa bản thảo bài báo; Vũ Thị Hoài Thu: cài
đặt chương trình, viết bản thảo bài báo.
Tài liệu tham khảo
Aji, A., Sun, X., Vo, H., Liu, Q., Lee, R., Zhang, X., Saltz,
J. and Wang, F., (2013). Demonstration of
Hadoop-GIS: a spatial data warehousing
system over MapReduce. In Proceedings of the
21st ACM SIGSPATIAL International Conference
on Advances in Geographic Information Systems
(pp. 528-531). ACM.
Boyi Shangguan, Peng Yue, Zhaoyan Wu and
Liangcun Jiang, (2017). Big spatial data
processing with Apache Spark. In Agro-
Geoinformatics, 2017. IEEE.
Eldawy, A. and Mokbel, M. F., (2015).
SpatialHadoop: A MapReduce framework for
spatial data. In Data Engineering (ICDE), 2015
IEEE 31st International Conference on (pp.
1352- 1363). IEEE.
Databricks. Apache Spark – What is Spark.
.
Fei Xiao, (2017). A Big Spatial Data Processing
Framework Applying to National Geographic
Conditions Monitoring. The International
Archives of the Photogrammetry, Remote
Sensing and Spatial Information Sciences,
Volume XLII-3, 2018 ISPRS TC III Mid-term
Symposium “Developments, Technologies and
Applications in Remote Sensing”, 7-10 May,
Beijing, China.
Huang, Z., Chen, Y., Wan, L., and Peng, X., (2017).
GeoSpark SQL: An Effective Framework
Enabling Spatial Queries on Spark. In ISPRS
International Journal of Geo- Information, 6(9),
285.
Hughes, J. N., Annex, A., Eichelberger, C. N., Fox, A.,
Hulbert, A. and Ronquest, M., (2015). Geomesa:
a distributed architecture for spatio-temporal
fusion. In SPIE Defense+ Security (pp. 94730F-
94730F). International Society for Optics and
Photonics.
Kini, A., and R., (2014). Emanuele. Geotrellis:
Adding geospatial capabilities to spark. In
Spark Summit.
Lu, J. and Guting, R. H., (2012). Parallel secondo:
boosting database engines with hadoop. In
Parallel and Distributed Systems (ICPADS),
(2012) IEEE 18th International Conference on
(pp. 738-743). IEEE.
MODIS on AWS https://docs.opendata.aws/
modis -pds/readme.html.
Nishimura, S., Das, S., Agrawal, D. and El Abbadi,
A., (2011), June. Md-hbase: A scalable multi-
dimensional data infrastructure for location
aware services. In Mobile Data Management
(MDM), 2011 12th IEEE International
Conference on (Vol. 1, pp. 7-16). IEEE.
Ram Sriharsha, https://github.com/harsha2010
/magellan.
RasterFrames.
Stefan Hagedorn, Philipp Götze, Kai-Uwe Sattler,
52 Nguyễn Thị Mai Dung, Vũ Thị Hoài Thu/Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất 62(1), 42 - 52
(2017). Big Spatial Data Processing
Frameworks: Feature and Performance
Evaluation. In 20th International Conference on
Extending Database Technology (EDBT).
Thomas Lillesand, Ralph W., (2004). Kiefer,
Jonathan Chipman. Remote sensing and image
interpretation. Wiley.
You, S., Zhang, J. and Gruenwald, L., (2015). Large-
scale spatial join query processing in cloud. In
Data Engineering Workshops (ICDEW), 2015
31st IEEE International Conference on (pp. 34-
41). IEEE.
Yu, J., Wu, J. and Sarwat, M., (2015). Geospark: A
cluster computing framework for processing
large-scale spatial data. In Proceedings of the
23rd SIGSPATIAL International Conference on
Advances in Geographic Information Systems
(p.70). ACM.
File đính kèm:
vegetation_change_detection_based_on_time_series_analysis_by.pdf

