initial commit

2020-04-16 19:54:20 +02:00 · 2020-04-16 19:54:20 +02:00 · 1d199bfcfa
commit 1d199bfcfa
3 changed files with 97 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+.vscode
+*.txt
+*.csv
+__pycache__
--- a/scrape.py
+++ b/scrape.py
@ -0,0 +1,69 @@
+from lxml import html, etree
+import requests, re, sys
+
+def scrape_id(id):
+    extensionsRe = re.compile("(\d+).*?\/.*?(\d+)")
+
+    complete_url = "https://www.mintos.com/webapp/en/{id}/".format(id=id)
+    print("Scraping id {id}".format(id=id))
+
+    page = requests.get(complete_url)
+    dom = html.fromstring(page.content)
+
+    result = {
+        "extension": False,
+        "no_of_extensions": None,
+        "possible_extensions": None,
+    }
+
+    # find the Schedule extension row
+
+    for td in dom.cssselect("tr > td.field-description"):
+        title = td.text.strip()
+        if title == "Schedule extension":
+            row = td.getparent()
+            value_td = row.cssselect("td.value > a")
+
+            if len(value_td) != 1:
+                raise Exception("Unexpected page format")
+                
+            value_td = value_td[0]
+            
+            result["extension"] = (value_td.text.strip() == "Yes")
+            break
+
+    if result["extension"]:
+        for td in dom.cssselect("tr > td.field-description"):
+            title = td.text.strip()
+            if "Number of schedule extensions" in title:
+                row = td.getparent()
+                value_td = row.cssselect("td.value > a")
+
+                if len(value_td) != 1:
+                    raise Exception("Unexpected page format")
+                    
+                value_td = value_td[0]
+
+                extensions_str = value_td.text.strip()
+                matches = extensionsRe.match(extensions_str)
+
+                if matches is None:
+                    raise Exception("Unexpected page format (regex failed)")
+
+                result["no_of_extensions"] = int(matches.group(1))
+                result["possible_extensions"] = int(matches.group(2))
+
+    return result
+
+if __name__ == "__main__":
+    if len(sys.argv) < 2:
+        print("Usage: scrape.py <id>")
+        exit(0)
+
+    result = scrape_id(sys.argv[1])
+
+    print("Schedule Extension: {}".format(result["extension"]))
+
+    if result["extension"]:
+        print("Extension count: {}".format(result["no_of_extensions"]))
+        print("Max extensions: {}".format(result["possible_extensions"]))
--- a/update_list.py
+++ b/update_list.py
@ -0,0 +1,24 @@
+from scrape import scrape_id
+import csv, sys, datetime
+
+if len(sys.argv) < 3:
+    print("Usage: update_list.py <list.txt> <update_file.csv>")
+    exit(0)
+
+list_filename = sys.argv[1]
+update_filename = sys.argv[2]
+
+update_file = open(update_filename, "w+")
+update_file_writer = csv.writer(update_file)
+
+current_time_string = "{0:%Y-%m-%d %H:%M:%S}".format(datetime.datetime.now())
+
+with open(list_filename) as list_file:
+    for id_str in list_file:
+        id = id_str.strip()
+
+        result = scrape_id(id)
+
+        update_file_writer.writerow([ id, current_time_string, result["extension"], result["no_of_extensions"], result["possible_extensions"]])
+
+update_file.close()