2011-01-31から1日間の記事一覧

BeautifulSoupが日本語絡みでコケる時の対処法

<meta http-equiv="content-type" content="text/html; charset=euc-jp"> って明示されててもutf-8への(内部自動)コンバートでコケることが多い。 ざっと見た感じでは、丸数字やローマ数字が入ってるとコケる。 で、コケると'windows-1252'に落ちるのですが、そこからdecode、encodeでutf-8にしてやると上手く行く(ようだ)。 meta</meta>…