Bachelor Seminar Informatik (CS3702 + CS3703)
Web and Data Science
Forschung in vielen Disziplinen wird durch automatisierte Verarbeitung von Daten in verschiedener Weise substantiell unterstützt, wobei der Wandel vom einer anfänglichen Zusatzfunktion hin zu einer essentiellen Ressource für die Wissenschaft längst vollzogen ist. Die Informatik ist in vielen Disziplinen hier sogar der treibende Faktor. Data-Mining-Verfahren werden eingesetzt, um Programme für Experimente zu generieren und um Muster und Trends zu finden, so dass neue Erkenntnisse in den verschiedenen Wissenschaften gewonnen werden und neue Anwendungsfelder erschlossen werden können. Der Wandel ist bedingt durch große Datenmengen (big data), die in vielen Fällen sogar frei verfügbar sind.
In dem Seminar behandeln wir das Phänomen unten dem Namen Web und Data Science aus verschiedener Perspektive. Wie können große und komplex strukturierte Datenmengen analysiert werden, oder wie können wir Wissen aus nicht-strukturierten Daten gewinnen?
Am Mittwoch, den 22.07.2015, um 14 Uhr s.t. findet eine Vorbesprechung im IFIS Seminarraum 2035 statt.
Am Donnerstag, den 22.10.2015, um 13 Uhr s.t. findet eine 2. Vorbesprechung im IFIS Seminarraum 2035 statt.
Für den Erwerb eines Seminarscheins wird von den Studierenden in angemessener Form ein (ggf. bewerteter) Vortrag gehalten. Präsentationsmaterialen werden abgegeben (und ggf. auch bewertet).
Weitere Informationen zu dieser Veranstaltung sind in Kürze auch unter Moodle zu finden.
Folgende Papiere können als Seminarthema von den Studierenden erarbeitet werden:
- Xin Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang. 2014. Knowledge Vault: A Web-scale Approach to Probabilistic Knowledge Fusion. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '14). ACM, New York, NY, USA, 601-610.
- Michael Franklin, Alon Halevy, and David Maier. 2005. From Databases to Dataspaces: A New Abstraction for Information Management. SIGMOD Rec. 34, 4 (December 2005), 27-33.
- Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, and Ion Stoica. 2010. Spark: Cluster Computing with Working Sets. In Proceedings of the 2nd USENIX conference on Hot topics in cloud computing (HotCloud'10). USENIX Association, Berkeley, CA, USA, 10-10.
- Michael J. Cafarella, Alon Halevy, Daisy Zhe Wang, Eugene Wu, and Yang Zhang. 2008. WebTables: Exploring the Power of Tables on the Web. Proc. VLDB Endowment, Vol. 1.
- Amr Ahmed, Nino Shervashidze, Shravan Narayanamurthy, Vanja Josifovski, and Alexander J. Smola. 2013. Distributed Large-scale Natural Graph Factorization. In Proceedings of the 22nd international conference on World Wide Web (WWW '13). International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 37-48.
- Grzegorz Malewicz, Matthew H. Austern, Aart J. C. Bik, James C. Dehnert, Ilan Horn, Naty Leiser , and Grzegorz Czajkowski. Pregel: a system for large-scale graph processing. In Proceedings of the 2010 international conference on Management of data, SIGMOD '10, pages 135-146. ACM, 2010.
- Yingyi Bu, Vinayak R. Borkar, Jianfeng Jia, Michael J. Carey, and Tyson Condie. 2014. Pregelix: Big(ger) Graph Analytics on A Dataflow Engine. CoRR abs/1407.0455.
- Qiang Zeng, Jignesh M. Patel, and David Page. 2014. QuickFOIL: Scalable Inductive Logic Programming. Proc. VLDB Endowment, Vol. 8, 3 (November 2014), 197-208.
- Saravanan Thirumuruganathan, Habibur Rahman, Sofiane Abbar, and Gautam Das. 2014. Beyond Itemsets: Mining Frequent Featuresets over Structured Items. Proc. VLDB Endowment, Vol. 8, 3 (November 2014), 257-268.
- Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare R. Voss, and Jiawei Han. 2014. Scalable Topical Phrase Mining from Text Corpora. Proc. VLDB Endowment, Vol. 8, 3 (November 2014), 305-316.
- Spyros Blanas, Kesheng Wu, Surendra Byna, Bin Dong, and Arie Shoshani. 2014. Parallel Data Analysis Directly on Scientific File Formats. In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD '14). ACM, New York, NY, USA, 385-396.
- Badrish Chandramouli, Jonathan Goldstein, Mike Barnett, Robert DeLine, Danyel Fisher, John C. Platt, James F. Terwilliger, and John Wernsing. 2014. Trill: A High-performance Incremental Query Processor for Diverse Analytics. Proc. VLDB Endowment, Vol. 8, 4 (December 2014), 401-412.
- Daniel Tahara, Thaddeus Diamond, and Daniel J. Abadi. 2014. Sinew: A SQL System for Multi-Structured Data. In Proceedings of the 2014 ACM SIGMOD international conference on Management of data (SIGMOD '14). ACM, New York, NY, USA, 815-826.
- HT Vo, C Chen, BC Ooi. Towards Elastic Transactional Cloud Storage with Range Query Support. Proceedings of the VLDB Endowment, Vol. 3 (1-2), 506-514.
- Herald Kllapi, Eva Sitaridi, Manolis M. Tsangaris, Yannis E. Ioannidis: Schedule Optimization for Data Processing Flows on the Cloud. SIGMOD Conference 2011: 289-300
- Sai Wu, Feng Li, Sharad Mehrotra, and Beng Chin Ooi. 2011. Query Optimization for Massively Parallel Data Processing. In Proceedings of the 2nd ACM Symposium on Cloud Computing (SOCC '11). ACM, New York, NY, USA, , Article 12 , 13 pages.
- Javier Cervino, Evangelia Kalyvianaki, Joaquin Salvachua, and Peter Pietzuch. 2012. Adaptive Provisioning of Stream Processing Systems in the Cloud. In Proceedings of the 2012 IEEE 28th International Conference on Data Engineering Workshops (ICDEW '12). IEEE Computer Society, Washington, DC, USA, 295-301.
- Thomas Heinze. 2011. Elastic Complex Event Processing. In Proceedings of the 8th Middleware Doctoral Symposium (MDS '11). ACM, New York, NY, USA, , Article 4 , 6 pages.
- Jayant Madhavan, Shawn R. Jeffery, Shirley Cohen, Xin Luna Dong, David Ko, Cong Yu and Alon Halevy and Google Inc. 2007. Web-scale Data Integration: You Can Only Afford to Pay As You Go. In Proc. of CIDR-07
- Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: A Core of Semantic Knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706.
- Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, and Gerhard Weikum. 2013. YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia. Artif. Intell. 194 (January 2013), 28-61.
- F. Mahdisoltani, J. Biega, F. Suchanek. YAGO3: A Knowledge Base from Multilingual Wikipedias. 7th Biennial Conference on Innovative Data Systems Research (CIDR 2015), Asilomar, CA, USA, January 4-7, 2015, Online Proceedings