10 years ago · 36e6f62cd0
--- a/test/test_compat.py
+++ b/test/test_compat.py
@@ -13,8 +13,10 @@ sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 
				 from youtube_dl.utils import get_filesystem_encoding
			
 
				 from youtube_dl.compat import (
			
 
				     compat_getenv,
			
 
				+    compat_etree_fromstring,
			
 
				     compat_expanduser,
			
 
				     compat_shlex_split,
			
 
				+    compat_str,
			
 
				     compat_urllib_parse_unquote,
			
 
				     compat_urllib_parse_unquote_plus,
			
 
				 )
			
@@ -71,5 +73,10 @@ class TestCompat(unittest.TestCase):
 
				     def test_compat_shlex_split(self):
			
 
				         self.assertEqual(compat_shlex_split('-option "one two"'), ['-option', 'one two'])
			
 
				 
			
 
				+    def test_compat_etree_fromstring(self):
			
 
				+        xml = '<el foo="bar"></el>'
			
 
				+        doc = compat_etree_fromstring(xml.encode('utf-8'))
			
 
				+        self.assertTrue(isinstance(doc.attrib['foo'], compat_str))
			
 
				+
			
 
				 if __name__ == '__main__':
			
 
				     unittest.main()
			
--- a/test/test_utils.py
+++ b/test/test_utils.py
@@ -68,6 +68,9 @@ from youtube_dl.utils import (
 
				     cli_valueless_option,
			
 
				     cli_bool_option,
			
 
				 )
			
 
				+from youtube_dl.compat import (
			
 
				+    compat_etree_fromstring,
			
 
				+)
			
 
				 
			
 
				 
			
 
				 class TestUtil(unittest.TestCase):
			
@@ -242,7 +245,7 @@ class TestUtil(unittest.TestCase):
 
				             <node x="b" y="d" />
			
 
				             <node x="" />
			
 
				         </root>'''
			
 
				-        doc = xml.etree.ElementTree.fromstring(testxml)
			
 
				+        doc = compat_etree_fromstring(testxml)
			
 
				 
			
 
				         self.assertEqual(find_xpath_attr(doc, './/fourohfour', 'n'), None)
			
 
				         self.assertEqual(find_xpath_attr(doc, './/fourohfour', 'n', 'v'), None)
			
@@ -263,7 +266,7 @@ class TestUtil(unittest.TestCase):
 
				                 <url>http://server.com/download.mp3</url>
			
 
				             </media:song>
			
 
				         </root>'''
			
 
				-        doc = xml.etree.ElementTree.fromstring(testxml)
			
 
				+        doc = compat_etree_fromstring(testxml)
			
 
				         find = lambda p: doc.find(xpath_with_ns(p, {'media': 'http://example.com/'}))
			
 
				         self.assertTrue(find('media:song') is not None)
			
 
				         self.assertEqual(find('media:song/media:author').text, 'The Author')
			
@@ -285,7 +288,7 @@ class TestUtil(unittest.TestCase):
 
				                 <p>Foo</p>
			
 
				             </div>
			
 
				         </root>'''
			
 
				-        doc = xml.etree.ElementTree.fromstring(testxml)
			
 
				+        doc = compat_etree_fromstring(testxml)
			
 
				         self.assertEqual(xpath_text(doc, 'div/p'), 'Foo')
			
 
				         self.assertEqual(xpath_text(doc, 'div/bar', default='default'), 'default')
			
 
				         self.assertTrue(xpath_text(doc, 'div/bar') is None)
			
@@ -297,7 +300,7 @@ class TestUtil(unittest.TestCase):
 
				                 <p x="a">Foo</p>
			
 
				             </div>
			
 
				         </root>'''
			
 
				-        doc = xml.etree.ElementTree.fromstring(testxml)
			
 
				+        doc = compat_etree_fromstring(testxml)
			
 
				         self.assertEqual(xpath_attr(doc, 'div/p', 'x'), 'a')
			
 
				         self.assertEqual(xpath_attr(doc, 'div/bar', 'x'), None)
			
 
				         self.assertEqual(xpath_attr(doc, 'div/p', 'y'), None)
			
--- a/youtube_dl/compat.py
+++ b/youtube_dl/compat.py
@@ -14,6 +14,7 @@ import socket
 
				 import subprocess
			
 
				 import sys
			
 
				 import itertools
			
 
				+import xml.etree.ElementTree
			
 
				 
			
 
				 
			
 
				 try:
			
@@ -212,6 +213,29 @@ try:
 
				 except ImportError:  # Python 2.6
			
 
				     from xml.parsers.expat import ExpatError as compat_xml_parse_error
			
 
				 
			
 
				+if sys.version_info[0] >= 3:
			
 
				+    compat_etree_fromstring = xml.etree.ElementTree.fromstring
			
 
				+else:
			
 
				+    # on python 2.x the the attributes of a node are str objects instead of
			
 
				+    # unicode
			
 
				+    etree = xml.etree.ElementTree
			
 
				+
			
 
				+    # on 2.6 XML doesn't have a parser argument, function copied from CPython
			
 
				+    # 2.7 source
			
 
				+    def _XML(text, parser=None):
			
 
				+        if not parser:
			
 
				+            parser = etree.XMLParser(target=etree.TreeBuilder())
			
 
				+        parser.feed(text)
			
 
				+        return parser.close()
			
 
				+
			
 
				+    def _element_factory(*args, **kwargs):
			
 
				+        el = etree.Element(*args, **kwargs)
			
 
				+        for k, v in el.items():
			
 
				+            el.set(k, v.decode('utf-8'))
			
 
				+        return el
			
 
				+
			
 
				+    def compat_etree_fromstring(text):
			
 
				+        return _XML(text, parser=etree.XMLParser(target=etree.TreeBuilder(element_factory=_element_factory)))
			
 
				 
			
 
				 try:
			
 
				     from urllib.parse import parse_qs as compat_parse_qs
			
@@ -507,6 +531,7 @@ __all__ = [
 
				     'compat_chr',
			
 
				     'compat_cookiejar',
			
 
				     'compat_cookies',
			
 
				+    'compat_etree_fromstring',
			
 
				     'compat_expanduser',
			
 
				     'compat_get_terminal_size',
			
 
				     'compat_getenv',
			
--- a/youtube_dl/downloader/f4m.py
+++ b/youtube_dl/downloader/f4m.py
@@ -5,10 +5,10 @@ import io
 
				 import itertools
			
 
				 import os
			
 
				 import time
			
 
				-import xml.etree.ElementTree as etree
			
 
				 
			
 
				 from .fragment import FragmentFD
			
 
				 from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				     compat_urlparse,
			
 
				     compat_urllib_error,
			
 
				     compat_urllib_parse_urlparse,
			
@@ -290,7 +290,7 @@ class F4mFD(FragmentFD):
 
				         man_url = urlh.geturl()
			
 
				         manifest = urlh.read()
			
 
				 
			
 
				-        doc = etree.fromstring(manifest)
			
 
				+        doc = compat_etree_fromstring(manifest)
			
 
				         formats = [(int(f.attrib.get('bitrate', -1)), f)
			
 
				                    for f in self._get_unencrypted_media(doc)]
			
 
				         if requested_bitrate is None:
			
--- a/youtube_dl/extractor/bbc.py
+++ b/youtube_dl/extractor/bbc.py
@@ -2,7 +2,6 @@
 
				 from __future__ import unicode_literals
			
 
				 
			
 
				 import re
			
 
				-import xml.etree.ElementTree
			
 
				 
			
 
				 from .common import InfoExtractor
			
 
				 from ..utils import (
			
@@ -14,7 +13,10 @@ from ..utils import (
 
				     remove_end,
			
 
				     unescapeHTML,
			
 
				 )
			
 
				-from ..compat import compat_HTTPError
			
 
				+from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				+    compat_HTTPError,
			
 
				+)
			
 
				 
			
 
				 
			
 
				 class BBCCoUkIE(InfoExtractor):
			
@@ -344,7 +346,7 @@ class BBCCoUkIE(InfoExtractor):
 
				                 url, programme_id, 'Downloading media selection XML')
			
 
				         except ExtractorError as ee:
			
 
				             if isinstance(ee.cause, compat_HTTPError) and ee.cause.code == 403:
			
 
				-                media_selection = xml.etree.ElementTree.fromstring(ee.cause.read().decode('utf-8'))
			
 
				+                media_selection = compat_etree_fromstring(ee.cause.read().decode('utf-8'))
			
 
				             else:
			
 
				                 raise
			
 
				         return self._process_media_selector(media_selection, programme_id)
			
--- a/youtube_dl/extractor/bilibili.py
+++ b/youtube_dl/extractor/bilibili.py
@@ -4,9 +4,11 @@ from __future__ import unicode_literals
 
				 import re
			
 
				 import itertools
			
 
				 import json
			
 
				-import xml.etree.ElementTree as ET
			
 
				 
			
 
				 from .common import InfoExtractor
			
 
				+from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				+)
			
 
				 from ..utils import (
			
 
				     int_or_none,
			
 
				     unified_strdate,
			
@@ -88,7 +90,7 @@ class BiliBiliIE(InfoExtractor):
 
				         except ValueError:
			
 
				             pass
			
 
				 
			
 
				-        lq_doc = ET.fromstring(lq_page)
			
 
				+        lq_doc = compat_etree_fromstring(lq_page)
			
 
				         lq_durls = lq_doc.findall('./durl')
			
 
				 
			
 
				         hq_doc = self._download_xml(
			
--- a/youtube_dl/extractor/brightcove.py
+++ b/youtube_dl/extractor/brightcove.py
@@ -3,10 +3,10 @@ from __future__ import unicode_literals
 
				 
			
 
				 import re
			
 
				 import json
			
 
				-import xml.etree.ElementTree
			
 
				 
			
 
				 from .common import InfoExtractor
			
 
				 from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				     compat_parse_qs,
			
 
				     compat_str,
			
 
				     compat_urllib_parse,
			
@@ -119,7 +119,7 @@ class BrightcoveIE(InfoExtractor):
 
				         object_str = fix_xml_ampersands(object_str)
			
 
				 
			
 
				         try:
			
 
				-            object_doc = xml.etree.ElementTree.fromstring(object_str.encode('utf-8'))
			
 
				+            object_doc = compat_etree_fromstring(object_str.encode('utf-8'))
			
 
				         except compat_xml_parse_error:
			
 
				             return
			
 
				 
			
--- a/youtube_dl/extractor/common.py
+++ b/youtube_dl/extractor/common.py
@@ -10,7 +10,6 @@ import re
 
				 import socket
			
 
				 import sys
			
 
				 import time
			
 
				-import xml.etree.ElementTree
			
 
				 
			
 
				 from ..compat import (
			
 
				     compat_cookiejar,
			
@@ -23,6 +22,7 @@ from ..compat import (
 
				     compat_urllib_request,
			
 
				     compat_urlparse,
			
 
				     compat_str,
			
 
				+    compat_etree_fromstring,
			
 
				 )
			
 
				 from ..utils import (
			
 
				     NO_DEFAULT,
			
@@ -461,7 +461,7 @@ class InfoExtractor(object):
 
				             return xml_string
			
 
				         if transform_source:
			
 
				             xml_string = transform_source(xml_string)
			
 
				-        return xml.etree.ElementTree.fromstring(xml_string.encode('utf-8'))
			
 
				+        return compat_etree_fromstring(xml_string.encode('utf-8'))
			
 
				 
			
 
				     def _download_json(self, url_or_request, video_id,
			
 
				                        note='Downloading JSON metadata',
			
--- a/youtube_dl/extractor/crunchyroll.py
+++ b/youtube_dl/extractor/crunchyroll.py
@@ -5,12 +5,12 @@ import re
 
				 import json
			
 
				 import base64
			
 
				 import zlib
			
 
				-import xml.etree.ElementTree
			
 
				 
			
 
				 from hashlib import sha1
			
 
				 from math import pow, sqrt, floor
			
 
				 from .common import InfoExtractor
			
 
				 from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				     compat_urllib_parse,
			
 
				     compat_urllib_parse_unquote,
			
 
				     compat_urllib_request,
			
@@ -234,7 +234,7 @@ Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
 
				         return output
			
 
				 
			
 
				     def _extract_subtitles(self, subtitle):
			
 
				-        sub_root = xml.etree.ElementTree.fromstring(subtitle)
			
 
				+        sub_root = compat_etree_fromstring(subtitle)
			
 
				         return [{
			
 
				             'ext': 'srt',
			
 
				             'data': self._convert_subtitles_to_srt(sub_root),
			
--- a/youtube_dl/extractor/vevo.py
+++ b/youtube_dl/extractor/vevo.py
@@ -1,10 +1,10 @@
 
				 from __future__ import unicode_literals
			
 
				 
			
 
				 import re
			
 
				-import xml.etree.ElementTree
			
 
				 
			
 
				 from .common import InfoExtractor
			
 
				 from ..compat import (
			
 
				+    compat_etree_fromstring,
			
 
				     compat_urllib_request,
			
 
				 )
			
 
				 from ..utils import (
			
@@ -97,7 +97,7 @@ class VevoIE(InfoExtractor):
 
				         if last_version['version'] == -1:
			
 
				             raise ExtractorError('Unable to extract last version of the video')
			
 
				 
			
 
				-        renditions = xml.etree.ElementTree.fromstring(last_version['data'])
			
 
				+        renditions = compat_etree_fromstring(last_version['data'])
			
 
				         formats = []
			
 
				         # Already sorted from worst to best quality
			
 
				         for rend in renditions.findall('rendition'):
			
@@ -114,7 +114,7 @@ class VevoIE(InfoExtractor):
 
				 
			
 
				     def _formats_from_smil(self, smil_xml):
			
 
				         formats = []
			
 
				-        smil_doc = xml.etree.ElementTree.fromstring(smil_xml.encode('utf-8'))
			
 
				+        smil_doc = compat_etree_fromstring(smil_xml.encode('utf-8'))
			
 
				         els = smil_doc.findall('.//{http://www.w3.org/2001/SMIL20/Language}video')
			
 
				         for el in els:
			
 
				             src = el.attrib['src']
			
--- a/youtube_dl/utils.py
+++ b/youtube_dl/utils.py
@@ -36,6 +36,7 @@ import zlib
 
				 from .compat import (
			
 
				     compat_basestring,
			
 
				     compat_chr,
			
 
				+    compat_etree_fromstring,
			
 
				     compat_html_entities,
			
 
				     compat_http_client,
			
 
				     compat_kwargs,
			
@@ -1974,7 +1975,7 @@ def dfxp2srt(dfxp_data):
 
				 
			
 
				         return out
			
 
				 
			
 
				-    dfxp = xml.etree.ElementTree.fromstring(dfxp_data.encode('utf-8'))
			
 
				+    dfxp = compat_etree_fromstring(dfxp_data.encode('utf-8'))
			
 
				     out = []
			
 
				     paras = dfxp.findall(_x('.//ttml:p')) or dfxp.findall(_x('.//ttaf1:p')) or dfxp.findall('.//p')