no-image

BeautifulSoup()エラーの仮説【python】

BeautifulSoup()を使ったらcp932コーデックエラーが出た

pythonのbs4モジュールでbeautifulsoup()メソッドを使うとhtmlの要素を抽出できる機能があることを知りました。しかし実際にプログラムを入力しているとcp932エラーが発生しました。その時はとくに何もしていないのにエラーが解決してしまい、何が原因だったのかわからないので仮説を立ててみようと思います。

  1. windowの標準エンコーディングはcp932
  2. pythonの標準エンコーディングはutf-8
  3. htmlファイルにもエンコーディングがあるはず。
  4. しかしhtmlファイルを保存する段階でエンコーディングが変わるかどうかは不明

原因を羅列してみましたが、おそらく3, 4付近のトラブルっぽいのです。

適当にいじって、数回トライ&エラーを繰り返していたら、無事動いたので、3, 4付近の何かが変わった感じだと思います。もう少しエンコーディングの知識がほしいところです。