しまノート

日々のメモや勉強内容をまとめていきます,自分のために.

2023/01/24指定したディレクトリ中のCSVファイル3つからデータを取得して格納pandas#2

【タスク】

 ディレクトリ変更

 data格納先を準備

 ファイル名を取得

 ファイルを読み込んで格納

 

【コード】

20230124pandas2.ipynb

 

・失敗

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

・原因

このエラーは、Unicodeエスケープシーケンス(例えば、'\u1234'や'\U00012345')が正しくデコードされていないことを示しています。これは、文字列リテラル内に''が含まれており、次の文字が'u'または'U'でないために発生します。これは、文字列リテラル内で'\'を使用する場合は、'/'とすることで回避することができます。

・対策

"C:\"→"C:/"に変更

・結果

成功

 

・失敗その2

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 3: invalid start byte

・原因

入力されたデータが'utf-8'ではなく別のエンコード方式だった場合に発生するエラーです。

・対策

csvの形式を変換

csvを開いて名前を付けて保存

その際にファイル形式をcsv UTF-8にする 

・結果

成功

 

【メモ】

osモジュール:

OSに依存しているさまざまな機能を利用するためのモジュール.

主にファイルやディレクトリ操作が可能.

ファイルの一覧やpathを取得,新規にファイル・ディレクトリの作成を担当.

 

pd.DataFrame:

DataFrameはvalues, columns, indexの3つの要素から構成.

values-実際のデータの値

columns-列名

index-行名

 

glob.glob():

特殊文字を使って条件を満たすファイル名・ディレクトリ(フォルダ)名などのパスの一覧をリストやイテレータで取得

 

pythonのfor文:

for 変数 in オブジェクト:
    実行する処理

 

 pd.concat:

pd.concat([df_data_kakunousaki, tmp])

df_data_kakunousakiの下にtmpを追加

 

エンコード

エンコードとは、コンピューターが理解できる形式にデータを変換することを指します。特に、文字データをコンピューターが扱えるバイナリデータに変換することを指します。
例えば、文字列 "Hello, World!" を、UTF-8 や Shift-JIS のような文字エンコーディング方式を使ってバイナリデータに変換します。これにより、文字列を保存したり、送信したりすることができます。
逆にデコードとは、エンコードされたバイナリデータを人間が読みやすい文字列に戻すことを指します。

 

参考

k2-tech.hatenablog.com

www.sejuku.net

note.nkmk.me

note.nkmk.me

note.nkmk.me

udemy.benesse.co.jp

 

 note.nkmk.me

atmarkit.itmedia.co.jp