globo.py 20 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429
  1. # coding: utf-8
  2. from __future__ import unicode_literals
  3. import random
  4. import math
  5. from .common import InfoExtractor
  6. from ..compat import (
  7. compat_str,
  8. compat_chr,
  9. compat_ord,
  10. )
  11. from ..utils import (
  12. ExtractorError,
  13. float_or_none,
  14. int_or_none,
  15. )
  16. class GloboIE(InfoExtractor):
  17. _VALID_URL = '(?:globo:|https?://.+?\.globo\.com/(?:[^/]+/)*(?:v/(?:[^/]+/)?|videos/))(?P<id>\d{7,})'
  18. _API_URL_TEMPLATE = 'http://api.globovideos.com/videos/%s/playlist'
  19. _SECURITY_URL_TEMPLATE = 'http://security.video.globo.com/videos/%s/hash?player=flash&version=17.0.0.132&resource_id=%s'
  20. _RESIGN_EXPIRATION = 86400
  21. _TESTS = [{
  22. 'url': 'http://globotv.globo.com/sportv/futebol-nacional/v/os-gols-de-atletico-mg-3-x-2-santos-pela-24a-rodada-do-brasileirao/3654973/',
  23. 'md5': '03ebf41cb7ade43581608b7d9b71fab0',
  24. 'info_dict': {
  25. 'id': '3654973',
  26. 'ext': 'mp4',
  27. 'title': 'Os gols de Atlético-MG 3 x 2 Santos pela 24ª rodada do Brasileirão',
  28. 'duration': 251.585,
  29. 'uploader': 'SporTV',
  30. 'uploader_id': 698,
  31. 'like_count': int,
  32. }
  33. }, {
  34. 'url': 'http://g1.globo.com/carros/autoesporte/videos/t/exclusivos-do-g1/v/mercedes-benz-gla-passa-por-teste-de-colisao-na-europa/3607726/',
  35. 'md5': 'b3ccc801f75cd04a914d51dadb83a78d',
  36. 'info_dict': {
  37. 'id': '3607726',
  38. 'ext': 'mp4',
  39. 'title': 'Mercedes-Benz GLA passa por teste de colisão na Europa',
  40. 'duration': 103.204,
  41. 'uploader': 'Globo.com',
  42. 'uploader_id': 265,
  43. 'like_count': int,
  44. }
  45. }, {
  46. 'url': 'http://globotv.globo.com/canal-brasil/sangue-latino/t/todos-os-videos/v/ator-e-diretor-argentino-ricado-darin-fala-sobre-utopias-e-suas-perdas/3928201/',
  47. 'md5': 'c1defca721ce25b2354e927d3e4b3dec',
  48. 'info_dict': {
  49. 'id': '3928201',
  50. 'ext': 'mp4',
  51. 'title': 'Ator e diretor argentino, Ricado Darín fala sobre utopias e suas perdas',
  52. 'duration': 1472.906,
  53. 'uploader': 'Canal Brasil',
  54. 'uploader_id': 705,
  55. 'like_count': int,
  56. }
  57. }]
  58. class MD5:
  59. HEX_FORMAT_LOWERCASE = 0
  60. HEX_FORMAT_UPPERCASE = 1
  61. BASE64_PAD_CHARACTER_DEFAULT_COMPLIANCE = ''
  62. BASE64_PAD_CHARACTER_RFC_COMPLIANCE = '='
  63. PADDING = '=0xFF01DD'
  64. hexcase = 0
  65. b64pad = ''
  66. def __init__(self):
  67. pass
  68. class JSArray(list):
  69. def __getitem__(self, y):
  70. try:
  71. return list.__getitem__(self, y)
  72. except IndexError:
  73. return 0
  74. def __setitem__(self, i, y):
  75. try:
  76. return list.__setitem__(self, i, y)
  77. except IndexError:
  78. self.extend([0] * (i - len(self) + 1))
  79. self[-1] = y
  80. @classmethod
  81. def hex_md5(cls, param1):
  82. return cls.rstr2hex(cls.rstr_md5(cls.str2rstr_utf8(param1)))
  83. @classmethod
  84. def b64_md5(cls, param1, param2=None):
  85. return cls.rstr2b64(cls.rstr_md5(cls.str2rstr_utf8(param1, param2)))
  86. @classmethod
  87. def any_md5(cls, param1, param2):
  88. return cls.rstr2any(cls.rstr_md5(cls.str2rstr_utf8(param1)), param2)
  89. @classmethod
  90. def rstr_md5(cls, param1):
  91. return cls.binl2rstr(cls.binl_md5(cls.rstr2binl(param1), len(param1) * 8))
  92. @classmethod
  93. def rstr2hex(cls, param1):
  94. _loc_2 = '0123456789ABCDEF' if cls.hexcase else '0123456789abcdef'
  95. _loc_3 = ''
  96. for _loc_5 in range(0, len(param1)):
  97. _loc_4 = compat_ord(param1[_loc_5])
  98. _loc_3 += _loc_2[_loc_4 >> 4 & 15] + _loc_2[_loc_4 & 15]
  99. return _loc_3
  100. @classmethod
  101. def rstr2b64(cls, param1):
  102. _loc_2 = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_'
  103. _loc_3 = ''
  104. _loc_4 = len(param1)
  105. for _loc_5 in range(0, _loc_4, 3):
  106. _loc_6_1 = compat_ord(param1[_loc_5]) << 16
  107. _loc_6_2 = compat_ord(param1[_loc_5 + 1]) << 8 if _loc_5 + 1 < _loc_4 else 0
  108. _loc_6_3 = compat_ord(param1[_loc_5 + 2]) if _loc_5 + 2 < _loc_4 else 0
  109. _loc_6 = _loc_6_1 | _loc_6_2 | _loc_6_3
  110. for _loc_7 in range(0, 4):
  111. if _loc_5 * 8 + _loc_7 * 6 > len(param1) * 8:
  112. _loc_3 += cls.b64pad
  113. else:
  114. _loc_3 += _loc_2[_loc_6 >> 6 * (3 - _loc_7) & 63]
  115. return _loc_3
  116. @staticmethod
  117. def rstr2any(param1, param2):
  118. _loc_3 = len(param2)
  119. _loc_4 = []
  120. _loc_9 = [0] * ((len(param1) >> 2) + 1)
  121. for _loc_5 in range(0, len(_loc_9)):
  122. _loc_9[_loc_5] = compat_ord(param1[_loc_5 * 2]) << 8 | compat_ord(param1[_loc_5 * 2 + 1])
  123. while len(_loc_9) > 0:
  124. _loc_8 = []
  125. _loc_7 = 0
  126. for _loc_5 in range(0, len(_loc_9)):
  127. _loc_7 = (_loc_7 << 16) + _loc_9[_loc_5]
  128. _loc_6 = math.floor(_loc_7 / _loc_3)
  129. _loc_7 -= _loc_6 * _loc_3
  130. if len(_loc_8) > 0 or _loc_6 > 0:
  131. _loc_8[len(_loc_8)] = _loc_6
  132. _loc_4[len(_loc_4)] = _loc_7
  133. _loc_9 = _loc_8
  134. _loc_10 = ''
  135. _loc_5 = len(_loc_4) - 1
  136. while _loc_5 >= 0:
  137. _loc_10 += param2[_loc_4[_loc_5]]
  138. _loc_5 -= 1
  139. return _loc_10
  140. @classmethod
  141. def str2rstr_utf8(cls, param1, param2=None):
  142. _loc_3 = ''
  143. _loc_4 = -1
  144. if not param2:
  145. param2 = cls.PADDING
  146. param1 = param1 + param2[1:9]
  147. while True:
  148. _loc_4 += 1
  149. if _loc_4 >= len(param1):
  150. break
  151. _loc_5 = compat_ord(param1[_loc_4])
  152. _loc_6 = compat_ord(param1[_loc_4 + 1]) if _loc_4 + 1 < len(param1) else 0
  153. if 55296 <= _loc_5 <= 56319 and 56320 <= _loc_6 <= 57343:
  154. _loc_5 = 65536 + ((_loc_5 & 1023) << 10) + (_loc_6 & 1023)
  155. _loc_4 += 1
  156. if _loc_5 <= 127:
  157. _loc_3 += compat_chr(_loc_5)
  158. continue
  159. if _loc_5 <= 2047:
  160. _loc_3 += compat_chr(192 | _loc_5 >> 6 & 31) + compat_chr(128 | _loc_5 & 63)
  161. continue
  162. if _loc_5 <= 65535:
  163. _loc_3 += compat_chr(224 | _loc_5 >> 12 & 15) + compat_chr(128 | _loc_5 >> 6 & 63) + compat_chr(
  164. 128 | _loc_5 & 63)
  165. continue
  166. if _loc_5 <= 2097151:
  167. _loc_3 += compat_chr(240 | _loc_5 >> 18 & 7) + compat_chr(128 | _loc_5 >> 12 & 63) + compat_chr(
  168. 128 | _loc_5 >> 6 & 63) + compat_chr(128 | _loc_5 & 63)
  169. return _loc_3
  170. @staticmethod
  171. def rstr2binl(param1):
  172. _loc_2 = [0] * ((len(param1) >> 2) + 1)
  173. for _loc_3 in range(0, len(_loc_2)):
  174. _loc_2[_loc_3] = 0
  175. for _loc_3 in range(0, len(param1) * 8, 8):
  176. _loc_2[_loc_3 >> 5] |= (compat_ord(param1[_loc_3 // 8]) & 255) << _loc_3 % 32
  177. return _loc_2
  178. @staticmethod
  179. def binl2rstr(param1):
  180. _loc_2 = ''
  181. for _loc_3 in range(0, len(param1) * 32, 8):
  182. _loc_2 += compat_chr(param1[_loc_3 >> 5] >> _loc_3 % 32 & 255)
  183. return _loc_2
  184. @classmethod
  185. def binl_md5(cls, param1, param2):
  186. param1 = cls.JSArray(param1)
  187. param1[param2 >> 5] |= 128 << param2 % 32
  188. param1[(param2 + 64 >> 9 << 4) + 14] = param2
  189. _loc_3 = 1732584193
  190. _loc_4 = -271733879
  191. _loc_5 = -1732584194
  192. _loc_6 = 271733878
  193. for _loc_7 in range(0, len(param1), 16):
  194. _loc_8 = _loc_3
  195. _loc_9 = _loc_4
  196. _loc_10 = _loc_5
  197. _loc_11 = _loc_6
  198. _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 0], 7, -680876936)
  199. _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 1], 12, -389564586)
  200. _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 2], 17, 606105819)
  201. _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 3], 22, -1044525330)
  202. _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 4], 7, -176418897)
  203. _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 5], 12, 1200080426)
  204. _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 6], 17, -1473231341)
  205. _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 7], 22, -45705983)
  206. _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 8], 7, 1770035416)
  207. _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 9], 12, -1958414417)
  208. _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 10], 17, -42063)
  209. _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 11], 22, -1990404162)
  210. _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 12], 7, 1804603682)
  211. _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 13], 12, -40341101)
  212. _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 14], 17, -1502002290)
  213. _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 15], 22, 1236535329)
  214. _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 1], 5, -165796510)
  215. _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 6], 9, -1069501632)
  216. _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 11], 14, 643717713)
  217. _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 0], 20, -373897302)
  218. _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 5], 5, -701558691)
  219. _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 10], 9, 38016083)
  220. _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 15], 14, -660478335)
  221. _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 4], 20, -405537848)
  222. _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 9], 5, 568446438)
  223. _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 14], 9, -1019803690)
  224. _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 3], 14, -187363961)
  225. _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 8], 20, 1163531501)
  226. _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 13], 5, -1444681467)
  227. _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 2], 9, -51403784)
  228. _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 7], 14, 1735328473)
  229. _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 12], 20, -1926607734)
  230. _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 5], 4, -378558)
  231. _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 8], 11, -2022574463)
  232. _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 11], 16, 1839030562)
  233. _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 14], 23, -35309556)
  234. _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 1], 4, -1530992060)
  235. _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 4], 11, 1272893353)
  236. _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 7], 16, -155497632)
  237. _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 10], 23, -1094730640)
  238. _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 13], 4, 681279174)
  239. _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 0], 11, -358537222)
  240. _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 3], 16, -722521979)
  241. _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 6], 23, 76029189)
  242. _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 9], 4, -640364487)
  243. _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 12], 11, -421815835)
  244. _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 15], 16, 530742520)
  245. _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 2], 23, -995338651)
  246. _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 0], 6, -198630844)
  247. _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 7], 10, 1126891415)
  248. _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 14], 15, -1416354905)
  249. _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 5], 21, -57434055)
  250. _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 12], 6, 1700485571)
  251. _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 3], 10, -1894986606)
  252. _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 10], 15, -1051523)
  253. _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 1], 21, -2054922799)
  254. _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 8], 6, 1873313359)
  255. _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 15], 10, -30611744)
  256. _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 6], 15, -1560198380)
  257. _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 13], 21, 1309151649)
  258. _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 4], 6, -145523070)
  259. _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 11], 10, -1120210379)
  260. _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 2], 15, 718787259)
  261. _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 9], 21, -343485551)
  262. _loc_3 = cls.safe_add(_loc_3, _loc_8)
  263. _loc_4 = cls.safe_add(_loc_4, _loc_9)
  264. _loc_5 = cls.safe_add(_loc_5, _loc_10)
  265. _loc_6 = cls.safe_add(_loc_6, _loc_11)
  266. return [_loc_3, _loc_4, _loc_5, _loc_6]
  267. @classmethod
  268. def md5_cmn(cls, param1, param2, param3, param4, param5, param6):
  269. return cls.safe_add(
  270. cls.bit_rol(cls.safe_add(cls.safe_add(param2, param1), cls.safe_add(param4, param6)), param5), param3)
  271. @classmethod
  272. def md5_ff(cls, param1, param2, param3, param4, param5, param6, param7):
  273. return cls.md5_cmn(param2 & param3 | ~param2 & param4, param1, param2, param5, param6, param7)
  274. @classmethod
  275. def md5_gg(cls, param1, param2, param3, param4, param5, param6, param7):
  276. return cls.md5_cmn(param2 & param4 | param3 & ~param4, param1, param2, param5, param6, param7)
  277. @classmethod
  278. def md5_hh(cls, param1, param2, param3, param4, param5, param6, param7):
  279. return cls.md5_cmn(param2 ^ param3 ^ param4, param1, param2, param5, param6, param7)
  280. @classmethod
  281. def md5_ii(cls, param1, param2, param3, param4, param5, param6, param7):
  282. return cls.md5_cmn(param3 ^ (param2 | ~param4), param1, param2, param5, param6, param7)
  283. @classmethod
  284. def safe_add(cls, param1, param2):
  285. _loc_3 = (param1 & 65535) + (param2 & 65535)
  286. _loc_4 = (param1 >> 16) + (param2 >> 16) + (_loc_3 >> 16)
  287. return cls.lshift(_loc_4, 16) | _loc_3 & 65535
  288. @classmethod
  289. def bit_rol(cls, param1, param2):
  290. return cls.lshift(param1, param2) | (param1 & 0xFFFFFFFF) >> (32 - param2)
  291. @staticmethod
  292. def lshift(value, count):
  293. r = (0xFFFFFFFF & value) << count
  294. return -(~(r - 1) & 0xFFFFFFFF) if r > 0x7FFFFFFF else r
  295. def _real_extract(self, url):
  296. video_id = self._match_id(url)
  297. video = self._download_json(
  298. self._API_URL_TEMPLATE % video_id, video_id)['videos'][0]
  299. title = video['title']
  300. formats = []
  301. for resource in video['resources']:
  302. resource_id = resource.get('_id')
  303. if not resource_id:
  304. continue
  305. security = self._download_json(
  306. self._SECURITY_URL_TEMPLATE % (video_id, resource_id),
  307. video_id, 'Downloading security hash for %s' % resource_id)
  308. security_hash = security.get('hash')
  309. if not security_hash:
  310. message = security.get('message')
  311. if message:
  312. raise ExtractorError(
  313. '%s returned error: %s' % (self.IE_NAME, message), expected=True)
  314. continue
  315. hash_code = security_hash[:2]
  316. received_time = int(security_hash[2:12])
  317. received_random = security_hash[12:22]
  318. received_md5 = security_hash[22:]
  319. sign_time = received_time + self._RESIGN_EXPIRATION
  320. padding = '%010d' % random.randint(1, 10000000000)
  321. signed_md5 = self.MD5.b64_md5(received_md5 + compat_str(sign_time) + padding)
  322. signed_hash = hash_code + compat_str(received_time) + received_random + compat_str(sign_time) + padding + signed_md5
  323. resource_url = resource['url']
  324. signed_url = '%s?h=%s&k=%s' % (resource_url, signed_hash, 'flash')
  325. if resource_id.endswith('m3u8') or resource_url.endswith('.m3u8'):
  326. formats.extend(self._extract_m3u8_formats(signed_url, resource_id, 'mp4'))
  327. else:
  328. formats.append({
  329. 'url': signed_url,
  330. 'format_id': resource_id,
  331. 'height': resource.get('height'),
  332. })
  333. self._sort_formats(formats)
  334. duration = float_or_none(video.get('duration'), 1000)
  335. like_count = int_or_none(video.get('likes'))
  336. uploader = video.get('channel')
  337. uploader_id = video.get('channel_id')
  338. return {
  339. 'id': video_id,
  340. 'title': title,
  341. 'duration': duration,
  342. 'uploader': uploader,
  343. 'uploader_id': uploader_id,
  344. 'like_count': like_count,
  345. 'formats': formats
  346. }
  347. class GloboArticleIE(InfoExtractor):
  348. _VALID_URL = 'https?://.+?\.globo\.com/(?:[^/]+/)*(?P<id>[^/]+)\.html'
  349. _VIDEOID_REGEXES = [
  350. r'\bdata-video-id=["\'](\d{7,})',
  351. r'\bdata-player-videosids=["\'](\d{7,})',
  352. r'\bvideosIDs\s*:\s*["\'](\d{7,})',
  353. r'\bdata-id=["\'](\d{7,})',
  354. r'<div[^>]+\bid=["\'](\d{7,})',
  355. ]
  356. _TEST = {
  357. 'url': 'http://g1.globo.com/jornal-nacional/noticia/2014/09/novidade-na-fiscalizacao-de-bagagem-pela-receita-provoca-discussoes.html',
  358. 'md5': '307fdeae4390ccfe6ba1aa198cf6e72b',
  359. 'info_dict': {
  360. 'id': '3652183',
  361. 'ext': 'mp4',
  362. 'title': 'Receita Federal explica como vai fiscalizar bagagens de quem retorna ao Brasil de avião',
  363. 'duration': 110.711,
  364. 'uploader': 'Rede Globo',
  365. 'uploader_id': 196,
  366. 'like_count': int,
  367. }
  368. }
  369. @classmethod
  370. def suitable(cls, url):
  371. return False if GloboIE.suitable(url) else super(GloboArticleIE, cls).suitable(url)
  372. def _real_extract(self, url):
  373. display_id = self._match_id(url)
  374. webpage = self._download_webpage(url, display_id)
  375. video_id = self._search_regex(self._VIDEOID_REGEXES, webpage, 'video id')
  376. return self.url_result('globo:%s' % video_id, 'Globo')